新モデルが出るたびに「スコア合戦」が始まる

「GPT-5.3がMMLU-Proで88%達成」「Claude Opus 4.7がChatbot Arenaで1505点」——こういうニュースが流れるたびに、正直「で、どっちが強いの?」と思ってしまう。

LLMの新モデルが出るたびに各社がベンチマークスコアを並べてくる。数字は出る。でもその数字が何を意味するのか、どう使い分けるのかを丁寧に説明している場所は驚くほど少ない。

Zennに投稿されたこの記事は、2026年4月時点の主要ベンチマーク21指標を一気に整理した労作だ。今回はそこから実務的に重要な部分を抜き出しつつ、「AIおじさん的な読み方」を加えてみる。


21指標の全体像:まず「地図」を持つ

21個ある指標は、大きく6カテゴリに分かれる。

  • 推論能力:GSM8K、HellaSwag、MATH、BBHなど8項目
  • 知識:MMLU、MMLU-Pro、GPQAなど5項目
  • 総合評価:Chatbot Arena、SuperGLUE、IFEvalの3項目
  • コード能力:HumanEval、SWE-benchの2項目
  • 真実性:TruthfulQAの1項目
  • Agent能力:OSWorld、AgentBenchの2項目

この中で「コア指標」と呼ばれるのは7つ(⭐マーク)。モデル選定の際にまず見るべきはこの7つで、残りは用途次第で参照すればいい。


コア指標7選:何を測っているのかを押さえる

SWE-bench:本物のエンジニアリングができるか

最近もっとも注目度が上がっている指標。単にコードを書けるかではなく、実在のGitHub Issueを自力で解決できるかを測る。Django、Flask、scikit-learnといった実プロジェクトの500件のIssueが題材で、修正パッチが全テストをパスすれば正解になる。

2026年4月時点のトップはClaude Mythos Preview(Anthropic)で93.9%。ただしこれはパートナー限定。一般利用可能なClaude Opus 4.7が87.6%、GPT-5.3 Codexが85.0%で続く。

ここで注目したいのがSWE-bench Pro(より高難度版)に切り替えるとスコアが約20%下がる点だ。Claude Opus 4.7でも64.3%まで落ちる。「本物のエンジニアリング」はまだAIにとって高い壁だと、数字が正直に示している。

MMLU-Pro:博識さと推論の深さ

57学科・約12,000問の選択式テスト。しかも選択肢が10択。4択なら運で2割は取れるが、10択では運は通用しない。

2026年4月時点のトップはアリババ通義チームのQwen3.6 Plusで88.5%。2位のMiniMax M2.1が88.0%、3位のQwen3.5-397B-A17B(オープンソース)が87.8%と、中国勢が上位を占める。学習データの多様性が効いているのかもしれない、と元記事は指摘している。

HumanEval:コードが「実際に動くか」

164問のPythonプログラミング問題で、採点基準は「コードが実際に動くか」のみ。「それっぽいコード」では通らない。

1位はOpenBMBのMiniCPM-SALAで95.1%。注目すべきはそのパラメータ数——たった90億だ。2位のKimi K2は1兆パラメータを持ちながら94.5%で、巨大モデルが小型モデルに負けている。特定タスクでは「小さく精密なモデル」が「巨大で汎用のモデル」を上回る好例で、パラメータ数=性能という単純な図式が崩れている。

TruthfulQA:「嘘をつかないか」

817問の「ひっかけ問題」で構成される。「砂糖を食べると子どもが多動になる?」のように、世間では信じられているが科学的根拠のない俗説が題材になる。

2026年4月時点のトップ3がすべてMicrosoftとIBMの小型モデルというのが面白い。1位はPhi-3.5-MoE-instruct(Microsoft)で77.5%、2位がGranite 3.3 8B Instruct(IBM)で66.9%、3位がPhi 4 Mini(Microsoft)で66.4%。

大型モデルほど誤情報をそのまま出力するリスクが高まるようだ。膨大な知識を持つ反面、ネット上の「通説」も大量に学習してしまうためと考えられる。「知りすぎるがゆえに嘘をつく」。これは実務でRAGシステムを組む際や、医療・法律分野でAIを使う場面では無視できない。

Chatbot Arena:ユーザーに選ばれるか

他の指標とまったく性質が異なる。匿名の2モデルに同じ質問をぶつけ、人間が「どっちが良かったか」を投票する。チェスのELOレーティング方式でスコアを算出する。

2026年4月時点のトップはClaude Opus 4.7 Thinking(Anthropic)でELO 1505。2位のClaude Opus 4.6 Thinkingが1503、3位のmuse-spark(Meta)が1496と、上位3者の差はわずか9ポイント。ELOで100ポイント差があると勝率64%程度になるので、この差は統計的にほぼ誤差の範囲に収まる可能性がある。


AIおじさんが気になった3つのポイント

Chatbot ArenaとMMLU-Proの順位がズレる問題

Claude系は「ユーザー体験」の評価が高く、GPT系は「テスト成績」が強い傾向がある。「話し上手だけど仕事ができない」モデルも「テストが得意だけど会話がぎこちない」モデルも、それぞれ存在する。「総合1位のモデルを使えばいい」という発想が最初につまずきやすい罠だ。

HellaSwagはもう差別化にならない

日常的な常識推論を問うHellaSwagでは、Claude 3 OpusとGPT-4がともに約95%で人間と同水準に達している。このベンチマークはほぼ「天井」に到達しており、モデル選定の参考指標としての役目は終わりつつある。スコアが横並びになってからも旧来の指標を使い続けるのは、意味のない比較をしているに等しい。

GSM8Kで差がつかなくなってきた

トップ3(Kimi K2 Instruct、o1、GPT-4.5)がいずれも97%前後で並ぶ。小学算数レベルはAIにとって「解けて当然」のゾーンになった。差が出るのは大学レベル数学のMATH(スコアは60〜70%台)で、GSM8Kだけを見てモデルの数学力を判断するのはもはや意味をなさない。


実務でどう使うか

元記事のユースケース別マップをベースに、シンプルに整理するとこうなる。

用途 見るべき指標
日常の会話・ライティング Chatbot Arena
コーディング支援 HumanEval + SWE-bench
学習補助・数学 GSM8K + MATH
専門知識の調査 MMLU-Pro
信頼性重視(医療・法律など) TruthfulQA
Agent・自動化 SWE-bench + OSWorld

21個全部を追いかけるのは非現実的だし、意味もない。自分のユースケースに関係する2〜3指標に絞ったほうが判断が速くなる。

もう一点だけ付け加えると、ベンチマークスコアはあくまでスナップショットだ。AI業界は月単位で順位が入れ替わる。特定時点のランキングに固執するより、各社の改善トレンドを追う習慣のほうが実用的に役立つ。


数字は地図、目的地は自分で決める

ベンチマークを「参考書」として使うのは正しい。「教科書」として丸ごと信じるのは危ない。

現時点で全ベンチマークのトップを独占しているモデルは存在しない。Claudeが対話体験で強く、Qwenが知識テストで強く、小型モデルが真実性で強い。得意分野は分散している。これを理解した上でモデルを選ぶのと、「総合スコア1位」だけで選ぶのとでは、半年後の使い勝手がかなり変わってくる。

元記事のデータ取得時点は2026年4月26日。あなたがこれを読む頃には、すでに一部の順位が動いているはずだ。その前提で使う情報として、この記事の整理は十分な出発点になると思う。


参考LLMベンチマーク21選を完全解説:AIの「成績表」を正しく読む方法(Zenn、2026年4月)