新モデルが出るたびに「スコア合戦」が始まる
「GPT-5.3がMMLU-Proで88%達成」「Claude Opus 4.7がChatbot Arenaで1505点」——こういうニュースが流れるたびに、正直「で、どっちが強いの?」と思ってしまう。
LLMの新モデルが出るたびに各社がベンチマークスコアを並べてくる。数字は出る。でもその数字が何を意味するのか、どう使い分けるのかを丁寧に説明している場所は驚くほど少ない。
Zennに投稿されたこの記事は、2026年4月時点の主要ベンチマーク21指標を一気に整理した労作だ。今回はそこから実務的に重要な部分を抜き出しつつ、「AIおじさん的な読み方」を加えてみる。
21指標の全体像:まず「地図」を持つ
21個ある指標は、大きく6カテゴリに分かれる。
- 推論能力:GSM8K、HellaSwag、MATH、BBHなど8項目
- 知識:MMLU、MMLU-Pro、GPQAなど5項目
- 総合評価:Chatbot Arena、SuperGLUE、IFEvalの3項目
- コード能力:HumanEval、SWE-benchの2項目
- 真実性:TruthfulQAの1項目
- Agent能力:OSWorld、AgentBenchの2項目
この中で「コア指標」と呼ばれるのは7つ(⭐マーク)。モデル選定の際にまず見るべきはこの7つで、残りは用途次第で参照すればいい。
コア指標7選:何を測っているのかを押さえる
SWE-bench:本物のエンジニアリングができるか
最近もっとも注目度が上がっている指標。単にコードを書けるかではなく、実在のGitHub Issueを自力で解決できるかを測る。Django、Flask、scikit-learnといった実プロジェクトの500件のIssueが題材で、修正パッチが全テストをパスすれば正解になる。
2026年4月時点のトップはClaude Mythos Preview(Anthropic)で93.9%。ただしこれはパートナー限定。一般利用可能なClaude Opus 4.7が87.6%、GPT-5.3 Codexが85.0%で続く。
ここで注目したいのがSWE-bench Pro(より高難度版)に切り替えるとスコアが約20%下がる点だ。Claude Opus 4.7でも64.3%まで落ちる。「本物のエンジニアリング」はまだAIにとって高い壁だと、数字が正直に示している。
MMLU-Pro:博識さと推論の深さ
57学科・約12,000問の選択式テスト。しかも選択肢が10択。4択なら運で2割は取れるが、10択では運は通用しない。
2026年4月時点のトップはアリババ通義チームのQwen3.6 Plusで88.5%。2位のMiniMax M2.1が88.0%、3位のQwen3.5-397B-A17B(オープンソース)が87.8%と、中国勢が上位を占める。学習データの多様性が効いているのかもしれない、と元記事は指摘している。
HumanEval:コードが「実際に動くか」
164問のPythonプログラミング問題で、採点基準は「コードが実際に動くか」のみ。「それっぽいコード」では通らない。
1位はOpenBMBのMiniCPM-SALAで95.1%。注目すべきはそのパラメータ数——たった90億だ。2位のKimi K2は1兆パラメータを持ちながら94.5%で、巨大モデルが小型モデルに負けている。特定タスクでは「小さく精密なモデル」が「巨大で汎用のモデル」を上回る好例で、パラメータ数=性能という単純な図式が崩れている。
TruthfulQA:「嘘をつかないか」
817問の「ひっかけ問題」で構成される。「砂糖を食べると子どもが多動になる?」のように、世間では信じられているが科学的根拠のない俗説が題材になる。
2026年4月時点のトップ3がすべてMicrosoftとIBMの小型モデルというのが面白い。1位はPhi-3.5-MoE-instruct(Microsoft)で77.5%、2位がGranite 3.3 8B Instruct(IBM)で66.9%、3位がPhi 4 Mini(Microsoft)で66.4%。
大型モデルほど誤情報をそのまま出力するリスクが高まるようだ。膨大な知識を持つ反面、ネット上の「通説」も大量に学習してしまうためと考えられる。「知りすぎるがゆえに嘘をつく」。これは実務でRAGシステムを組む際や、医療・法律分野でAIを使う場面では無視できない。
Chatbot Arena:ユーザーに選ばれるか
他の指標とまったく性質が異なる。匿名の2モデルに同じ質問をぶつけ、人間が「どっちが良かったか」を投票する。チェスのELOレーティング方式でスコアを算出する。
2026年4月時点のトップはClaude Opus 4.7 Thinking(Anthropic)でELO 1505。2位のClaude Opus 4.6 Thinkingが1503、3位のmuse-spark(Meta)が1496と、上位3者の差はわずか9ポイント。ELOで100ポイント差があると勝率64%程度になるので、この差は統計的にほぼ誤差の範囲に収まる可能性がある。
AIおじさんが気になった3つのポイント
Chatbot ArenaとMMLU-Proの順位がズレる問題
Claude系は「ユーザー体験」の評価が高く、GPT系は「テスト成績」が強い傾向がある。「話し上手だけど仕事ができない」モデルも「テストが得意だけど会話がぎこちない」モデルも、それぞれ存在する。「総合1位のモデルを使えばいい」という発想が最初につまずきやすい罠だ。
HellaSwagはもう差別化にならない
日常的な常識推論を問うHellaSwagでは、Claude 3 OpusとGPT-4がともに約95%で人間と同水準に達している。このベンチマークはほぼ「天井」に到達しており、モデル選定の参考指標としての役目は終わりつつある。スコアが横並びになってからも旧来の指標を使い続けるのは、意味のない比較をしているに等しい。
GSM8Kで差がつかなくなってきた
トップ3(Kimi K2 Instruct、o1、GPT-4.5)がいずれも97%前後で並ぶ。小学算数レベルはAIにとって「解けて当然」のゾーンになった。差が出るのは大学レベル数学のMATH(スコアは60〜70%台)で、GSM8Kだけを見てモデルの数学力を判断するのはもはや意味をなさない。
実務でどう使うか
元記事のユースケース別マップをベースに、シンプルに整理するとこうなる。
| 用途 | 見るべき指標 |
|---|---|
| 日常の会話・ライティング | Chatbot Arena |
| コーディング支援 | HumanEval + SWE-bench |
| 学習補助・数学 | GSM8K + MATH |
| 専門知識の調査 | MMLU-Pro |
| 信頼性重視(医療・法律など) | TruthfulQA |
| Agent・自動化 | SWE-bench + OSWorld |
21個全部を追いかけるのは非現実的だし、意味もない。自分のユースケースに関係する2〜3指標に絞ったほうが判断が速くなる。
もう一点だけ付け加えると、ベンチマークスコアはあくまでスナップショットだ。AI業界は月単位で順位が入れ替わる。特定時点のランキングに固執するより、各社の改善トレンドを追う習慣のほうが実用的に役立つ。
数字は地図、目的地は自分で決める
ベンチマークを「参考書」として使うのは正しい。「教科書」として丸ごと信じるのは危ない。
現時点で全ベンチマークのトップを独占しているモデルは存在しない。Claudeが対話体験で強く、Qwenが知識テストで強く、小型モデルが真実性で強い。得意分野は分散している。これを理解した上でモデルを選ぶのと、「総合スコア1位」だけで選ぶのとでは、半年後の使い勝手がかなり変わってくる。
元記事のデータ取得時点は2026年4月26日。あなたがこれを読む頃には、すでに一部の順位が動いているはずだ。その前提で使う情報として、この記事の整理は十分な出発点になると思う。
参考:LLMベンチマーク21選を完全解説:AIの「成績表」を正しく読む方法(Zenn、2026年4月)