AI 2026年4月14日

GLM-5.1：米国製チップゼロで最難関コーディングベンチマーク首位に立った中国製オープンモデル

GLM-5.1とは何か

GLM-5.1は、Z.ai（旧Zhipu AI）が2026年4月7日にリリースした、オープンソースのAIモデルです。GLM-5を基盤とするポストトレーニングアップグレード版であり、MoE（Mixture-of-Experts）アーキテクチャのもと、総パラメータ数744億、推論時のアクティブパラメータ数40億を持ちます。コンテキストウィンドウは200Kトークン、最大出力は131,072トークンです。 ModemGuides

GLM-5.1はMITライセンスで公開されており、ダウンロード・改変・商用利用に制限がありません。 ModemGuides

ベンチマーク：何を超え、何を超えていないか

元記事の「コード生成世界一」という表現は正確ではありません。現実はより複雑で、かつより興味深いものです。

SWE-Bench Proでの首位

GLM-5.1はSWE-Bench Pro（業界で最も難易度の高いソフトウェアエンジニアリング評価）で58.4点を記録し、GPT-5.4（57.7点）、Claude Opus 4.6（57.3点）、Gemini 3.1 Pro（54.2点）を上回りました。中国製モデルとしてSWE-Bench Proのリーダーボードで首位に立った初のケースです。 OfficeChai

SWE-Bench Proは、実際のGitHubのIssueに基づく複数ファイルにまたがるバグ修正やリファクタリングを評価するものであり、単純なコード補完テストとは質的に異なります。

ただし「コーディング総合」では首位ではない

SWE-Bench ProでGLM-5.1が首位に立つ一方、コーディング総合スコア（Terminal-Bench 2.0とNL2Repoを含む複合指標）ではClaude Opus 4.6が57.5でリードし、GLM-5.1は54.9にとどまります。 ModemGuides

汎用推論では差がある

数学競技問題（AIME 2026）ではGPT-5.4が98.7%、Claude Opus 4.6が98.2%に対してGLM-5.1は95.3%。大学院レベルの科学推論（GPQA-Diamond）ではGemini 3.1 Proに差をつけられています。数学的導出や科学研究が主用途であれば、このモデルの選択は適切ではありません。 Awesome Agents

また、GLM-5.1はテキストのみに対応しており、画像・音声・動画の入力には対応していません。 WaveSpeedAI

技術的な特徴：「戦略の自己修正」と長時間自律実行

GLM-5.1の設計思想の核心は、従来モデルが持つ「詰まったら手詰まり」という問題を解決することにあります。

既存モデルは複雑な問題に対して使い慣れた戦略を試み、初期に進捗を上げた後に壁にぶつかります。計算リソースを増やしても改善しません。GLM-5.1はこれを、自分の戦略を繰り返しレビューし、行き詰まりを認識して新たなアプローチを試みるという設計で解決しようとしています。 The Decoder

Z.aiが公開したデモには以下があります（いずれも社内実施のため独立検証は未実施）。

ベクトルデータベースの最適化タスクで、GLM-5.1は600回を超えるイテレーションと6,000回以上のツール呼び出しを経て、1秒あたりのクエリ処理数を3,547（Claude Opus 4.6が保持していた従来最高値）から21,500へと引き上げたとされています。イテレーション90回目頃に網羅的検索からクラスタリング手法へ、イテレーション240回目頃に2段階パイプラインへと、モデルが自律的に戦略を転換しました。 The Decoder

8時間にわたって計画・実行・テスト・最適化のループを自律的に継続し、単一のコーディングタスクをこなせる点も特徴として示されています。 TechBriefly

Nvidiaゼロという地政学的文脈

GLM-5.1の技術的な意義を理解する上で、その訓練インフラは無視できません。

GLM-5.1はGLM-5ファミリー全体と同じく、約10万基のHuawei Ascend 910BチップとMindSporeフレームワーク上で学習されており、Nvidiaのチップは一切使用していません。Zhipu AIは2025年1月に米国のEntity List（制裁対象リスト）に掲載され、Nvidiaのデータセンター向けGPU（H100・H200・B200）を合法的に入手できない状況にあります。 ModemGuides

世界中の事実上すべてのフロンティアAIラボが頼る西側のAIハードウェアスタックから完全に切り離されながら、GPT-5.4やClaude Opus 4.6と競合するモデルを産み出したという事実は、AIチップへの輸出規制が影響を与えつつも、中国がフロンティア級のAI性能に到達することを阻んでいないことを示しています。 ModemGuides

コストと開発体制

APIアクセスは入力100万トークンあたり1.00ドル、出力100万トークンあたり3.20ドルです。 TechBrieflyClaude Opus 4.6やGPT-5.2と比較して大幅に安価であり、DeepSeekのみが純粋な価格において下回ります。 WaveSpeedAI

Z.aiは2026年1月に香港でIPOを実施し、約HKD 43.5億（約5.58億ドル）を調達。世界初の上場済みフロンティアモデル企業となりました。その後の開発速度は明らかに加速しており、GLM-5（2月11日）、GLM-5-Turbo（3月15日）、GLM-5.1 API公開（3月27日）、オープンウェイト公開（4月7日）と約2ヶ月で4回のリリースが行われています。 ModemGuides

開発現場への示唆

2023年にはオープンソースモデルとフロンティアプロプライエタリモデルの差は約2年、2024年に約1年、2025年に約半年と縮まり、2026年4月7日、オープンソースモデルがコーディングの主要ベンチマークで首位に立ちました。GLM-5.1は孤立した出来事ではなく、Z.ai・Alibaba（Qwen）・DeepSeek・Moonshot AI（Kimi）といった中国の研究機関が主要なオープンウェイトモデルのリーダーボード上位を占めています。 ModemGuides

ただし、SWE-Bench Proの結果はZ.aiの自己申告であり独立検証が待たれること、汎用推論や数学では依然として差があること、マルチモーダル非対応であること、BF16フル精度での動作には約1.49TBのストレージが必要でローカル運用のハードルが高い点は、導入検討時に考慮すべき現実的な制約です。

元記事を読む →

𝕏 この記事をシェアする

AI の記事を見る →