AI 2026年4月26日

LLMベンチマーク21選を読み解く：「スコアが高い＝使えるAI」ではない理由

𝕏 シェアする

新モデルが出るたびに「スコア合戦」が始まる

「GPT-5.3がMMLU-Proで88%達成」「Claude Opus 4.7がChatbot Arenaで1505点」——こういうニュースが流れるたびに、正直「で、どっちが強いの？」と思ってしまう。

LLMの新モデルが出るたびに各社がベンチマークスコアを並べてくる。数字は出る。でもその数字が何を意味するのか、どう使い分けるのかを丁寧に説明している場所は驚くほど少ない。

Zennに投稿されたこの記事は、2026年4月時点の主要ベンチマーク21指標を一気に整理した労作だ。今回はそこから実務的に重要な部分を抜き出しつつ、「AIおじさん的な読み方」を加えてみる。

21指標の全体像：まず「地図」を持つ

21個ある指標は、大きく6カテゴリに分かれる。

推論能力：GSM8K、HellaSwag、MATH、BBHなど8項目
知識：MMLU、MMLU-Pro、GPQAなど5項目
総合評価：Chatbot Arena、SuperGLUE、IFEvalの3項目
コード能力：HumanEval、SWE-benchの2項目
真実性：TruthfulQAの1項目
Agent能力：OSWorld、AgentBenchの2項目

この中で「コア指標」と呼ばれるのは7つ（⭐マーク）。モデル選定の際にまず見るべきはこの7つで、残りは用途次第で参照すればいい。

コア指標7選：何を測っているのかを押さえる

SWE-bench：本物のエンジニアリングができるか

最近もっとも注目度が上がっている指標。単にコードを書けるかではなく、実在のGitHub Issueを自力で解決できるかを測る。Django、Flask、scikit-learnといった実プロジェクトの500件のIssueが題材で、修正パッチが全テストをパスすれば正解になる。

2026年4月時点のトップはClaude Mythos Preview（Anthropic）で93.9%。ただしこれはパートナー限定。一般利用可能なClaude Opus 4.7が87.6%、GPT-5.3 Codexが85.0%で続く。

ここで注目したいのがSWE-bench Pro（より高難度版）に切り替えるとスコアが約20%下がる点だ。Claude Opus 4.7でも64.3%まで落ちる。「本物のエンジニアリング」はまだAIにとって高い壁だと、数字が正直に示している。

MMLU-Pro：博識さと推論の深さ

57学科・約12,000問の選択式テスト。しかも選択肢が10択。4択なら運で2割は取れるが、10択では運は通用しない。

2026年4月時点のトップはアリババ通義チームのQwen3.6 Plusで88.5%。2位のMiniMax M2.1が88.0%、3位のQwen3.5-397B-A17B（オープンソース）が87.8%と、中国勢が上位を占める。学習データの多様性が効いているのかもしれない、と元記事は指摘している。

HumanEval：コードが「実際に動くか」

164問のPythonプログラミング問題で、採点基準は「コードが実際に動くか」のみ。「それっぽいコード」では通らない。

1位はOpenBMBのMiniCPM-SALAで95.1%。注目すべきはそのパラメータ数——たった90億だ。2位のKimi K2は1兆パラメータを持ちながら94.5%で、巨大モデルが小型モデルに負けている。特定タスクでは「小さく精密なモデル」が「巨大で汎用のモデル」を上回る好例で、パラメータ数＝性能という単純な図式が崩れている。

TruthfulQA：「嘘をつかないか」

817問の「ひっかけ問題」で構成される。「砂糖を食べると子どもが多動になる？」のように、世間では信じられているが科学的根拠のない俗説が題材になる。

2026年4月時点のトップ3がすべてMicrosoftとIBMの小型モデルというのが面白い。1位はPhi-3.5-MoE-instruct（Microsoft）で77.5%、2位がGranite 3.3 8B Instruct（IBM）で66.9%、3位がPhi 4 Mini（Microsoft）で66.4%。

大型モデルほど誤情報をそのまま出力するリスクが高まるようだ。膨大な知識を持つ反面、ネット上の「通説」も大量に学習してしまうためと考えられる。「知りすぎるがゆえに嘘をつく」。これは実務でRAGシステムを組む際や、医療・法律分野でAIを使う場面では無視できない。

Chatbot Arena：ユーザーに選ばれるか

他の指標とまったく性質が異なる。匿名の2モデルに同じ質問をぶつけ、人間が「どっちが良かったか」を投票する。チェスのELOレーティング方式でスコアを算出する。

2026年4月時点のトップはClaude Opus 4.7 Thinking（Anthropic）でELO 1505。2位のClaude Opus 4.6 Thinkingが1503、3位のmuse-spark（Meta）が1496と、上位3者の差はわずか9ポイント。ELOで100ポイント差があると勝率64%程度になるので、この差は統計的にほぼ誤差の範囲に収まる可能性がある。

AIおじさんが気になった3つのポイント

Chatbot ArenaとMMLU-Proの順位がズレる問題

Claude系は「ユーザー体験」の評価が高く、GPT系は「テスト成績」が強い傾向がある。「話し上手だけど仕事ができない」モデルも「テストが得意だけど会話がぎこちない」モデルも、それぞれ存在する。「総合1位のモデルを使えばいい」という発想が最初につまずきやすい罠だ。

HellaSwagはもう差別化にならない

日常的な常識推論を問うHellaSwagでは、Claude 3 OpusとGPT-4がともに約95%で人間と同水準に達している。このベンチマークはほぼ「天井」に到達しており、モデル選定の参考指標としての役目は終わりつつある。スコアが横並びになってからも旧来の指標を使い続けるのは、意味のない比較をしているに等しい。

GSM8Kで差がつかなくなってきた

トップ3（Kimi K2 Instruct、o1、GPT-4.5）がいずれも97%前後で並ぶ。小学算数レベルはAIにとって「解けて当然」のゾーンになった。差が出るのは大学レベル数学のMATH（スコアは60〜70%台）で、GSM8Kだけを見てモデルの数学力を判断するのはもはや意味をなさない。

実務でどう使うか

元記事のユースケース別マップをベースに、シンプルに整理するとこうなる。

用途	見るべき指標
日常の会話・ライティング	Chatbot Arena
コーディング支援	HumanEval + SWE-bench
学習補助・数学	GSM8K + MATH
専門知識の調査	MMLU-Pro
信頼性重視（医療・法律など）	TruthfulQA
Agent・自動化	SWE-bench + OSWorld