Model Leaderboard

Compare AI models by capability and cost-effectiveness

Popular Comparisons

Custom Comparison Browse All Models

Programming & Development

39/231 models

LiveCodeBench: Real-world coding tasks

Use Cases: Code completion, debugging, code review, script generation

1GPT-5.186.4

2o4-mini86.1

3GPT-5 Codex85.0

4GLM-4.784.9

5GPT-5.1 CodeX84.5

6GPT-5 Mini83.7

7Gemini 2.5 Pro80.8

8o380.2

9GPT-5 Nano78.3

10DeepSeek R1 (250528)77.5

11Doubao Seed 1.6 (250615)75.8

12o3-mini73.8

13GLM-4.573.4

14Gemini 3.1 Flash-Lite Preview72.0

15GLM-4.5 Air68.6

Logical Reasoning

54/231 models

HLE: Complex reasoning and problem-solving

Use Cases: Complex decision-making, multi-step analysis, logical reasoning

1Claude Opus 4.849.8

2Claude Opus 4.746.9

3Gemini 3.1 Pro Preview44.4

4GPT-5.5 Pro43.1

5GLM-4.742.8

6GPT-5.4 Mini41.5

7GPT-5.541.4

8Gemini 3.5 Flash40.2

9Claude Opus 4.640.0

10GPT-5.4 Nano37.7

11Gemini 3 Pro Preview37.5

12GPT-5.234.5

13Gemini 3 Flash Preview33.7

14Claude Sonnet 4.633.2

15Claude Opus 4.530.8

Knowledge Q&A

44/231 models

MMLU Pro: Broad knowledge assessment

Use Cases: Expert Q&A, fact-checking, educational tutoring

1Gemini 3 Pro Preview91.8

2Claude Opus 4.590.8

3GPT-5.289.6

4Gemini 2.5 Pro89.5

5Claude Sonnet 4.589.1

6Gemini 2.5 Flash86.6

7GPT-5.1 CodeX86.0

8GPT-5.186.0

9GPT-5 Codex86.0

10o385.6

11DeepSeek R1 (250528)85.5

12DeepSeek Reasoner85.3

13Doubao Seed 1.6 (250615)84.8

14GPT-5 Mini84.5

15o4-mini84.0

Scientific Research

57/231 models

GPQA: Graduate-level science questions

Use Cases: Academic research, scientific writing, experiment design

1Gemini 3.1 Pro Preview94.3

2Claude Opus 4.794.2

3GPT-5.593.6

4Claude Opus 4.893.6

5GPT-5.292.4

6Gemini 3 Pro Preview91.9

7Claude Opus 4.691.3

8Gemini 3 Flash Preview90.4

9Claude Sonnet 4.689.9

10GPT-5 Pro88.6

11GPT-5.4 Mini88.0

12GPT-5.187.9

13Claude Opus 4.587.0

14Gemini 3.1 Flash-Lite Preview86.9

15Gemini 2.5 Pro86.4

Mathematical Computation

36/231 models

AIME: Competition-level math problems

Use Cases: Financial analysis, data computation, statistical reasoning

1GPT-5.2100.0

2GPT-5 Codex99.0

3GPT-5 Pro97.2

4GLM-4.795.7

5Gemini 3 Flash Preview95.2

6GPT-5.1 CodeX95.1

7Gemini 3 Pro Preview95.0

8GPT-5.194.0

9o4-mini91.4

10GPT-5 Mini89.9

11Gemini 2.5 Pro88.0

12o387.6

13o3-mini87.0

14Claude Sonnet 4.587.0

15GPT-5 Nano83.3

AI Agent

37/231 models

Tau2: Autonomous task completion

Use Cases: Automated workflows, multi-tool invocation, complex task decomposition

1Claude Opus 4.691.9

2Claude Sonnet 4.691.7

3Gemini 3.1 Pro Preview90.8

4Gemini 3 Pro Preview90.7

5Gemini 3 Flash Preview90.2

6Claude Opus 4.588.9

7GLM-4.787.4

8Claude Sonnet 4.587.2

9GPT-5 Codex87.0

10GPT-5.1 CodeX82.0

11GPT-5.181.1

12o380.5

13Gemini 2.5 Flash79.5

14Gemini 2.5 Pro77.8

15GLM-4.677.6

SciCode

38/231 models

SciCode: Scientific coding challenges

Use Cases: Scientific computing, research code, data analysis scripts

1Gemini 3.1 Pro Preview59.0

2o4-mini46.2

3GPT-5.143.3

4Claude Sonnet 4.543.1

5Gemini 2.5 Pro42.4

6o341.0

7GPT-5 Codex40.8

8DeepSeek R1 (250528)40.8

9GPT-5.1 CodeX40.5

10GPT-4.1 Mini40.1

11o3-mini39.9

12Doubao Seed 1.6 (250615)39.8

13GPT-5 Mini39.1

14GPT-4.138.2

15GPT-537.4

Terminal

47/231 models

Terminal-Bench: Command-line operations

Use Cases: Shell scripting, system administration, DevOps automation

1GPT-5.582.7

2Gemini 3.5 Flash76.2

3Claude Opus 4.874.6

4Claude Opus 4.769.4

5Gemini 3.1 Pro Preview68.5

6Claude Opus 4.665.4

7GPT-5.2-Codex64.0

8GPT-5.262.2

9GPT-5.4 Mini60.0

10Claude Opus 4.559.8

11Claude Sonnet 4.659.1

12GPT-5.1 CodeX Max57.5

13GLM-556.2

14Gemini 3 Pro Preview54.2

15Gemini 3 Flash Preview47.6

Instruction

30/231 models

IFEval: Instruction following accuracy

Use Cases: Precise task execution, format compliance, constraint adherence

1o3-mini93.4

2DeepSeek Reasoner87.5

3GPT-5 Mini76.1

4GPT-5 Codex74.0

5GPT-5.173.3

6o371.3

7GPT-5.1 CodeX70.0

8o4-mini68.5

9GPT-5 Nano67.6

10Doubao Seed 1.6 (250615)50.8

11Gemini 2.5 Pro48.5

12GPT-545.0

13GLM-4.544.0

14Vertex Gemini 2.5 Flash Preview (09-2025 Thinking)43.8

15GPT-4.143.0