AI 2026年4月23日

安いモデルで十分だった。Haiku 4.5 + skill が Opus 4.7 を超えた話

何が起きたか、先に数字で見る

SkillsBench という AI エージェントのベンチマーク論文がある。84 タスク × 7 モデル × 5 試行、計 7,308 トラジェクトリで測った実験だ。

そこで出た数字がこれ。

Haiku + skill が Opus 素の状態を 3.8pt 上回った。全構成中、最大の伸び幅だ。

この結果をもとに、Claude Code で自律 AI システム「brain」を自作・運用しているエンジニアが追試を行い、その知見をまとめた記事が今回の参照元になる。

「上位モデルを使っておけば間違いない」という空気は、まだ実務の現場に根強い。API コストはかかっても、品質が担保されるなら——そういう判断だ。

ただ、この考え方には前提が隠れている。「上位モデルの強みが、そのタスクで発揮される」という前提だ。

手順が決まっているタスクなら、その前提は成立しない。Opus の強みは「曖昧な指示から最適手順を自分で組み立てる」ことにある。手順が固定されていれば、そのパワーは遊ぶ。skill はその遊びを Haiku で埋める装置として機能する。

元記事では、なぜ skill で Haiku が跳ねるかを3点で分解している。

① プロンプト圧縮
毎回「こういう流れで、こういう観点で、こう出力して」と自然言語で渡すのと、skill として固定された手順を呼ぶのでは、モデルが使う「推論の持ち札」の枚数が違う。推論力が限られている Haiku でも、手札を事前に配ってあれば負けない。

② 手順固定
手順が決まっているタスクでは、Opus が「自力で組み立てる」という優位が消える。skill で手順を固定することで、Haiku との差が縮まる。

③ 評価基準の明示
Haiku は自分で評価軸を組み立てるのは苦手だが、渡された軸で採点するのは得意だ。skill に「何を満たしたら完了か」を書くことで、この差が埋まる。

元記事の言葉を借りると「skill はモデルの推論力を補助輪で代替する装置」だ。補助輪があれば、ママチャリ（Haiku）でもロードバイク（Opus）と同じ舗装路を走れる。

ただし、補助輪は悪路では外れる。

SkillsBench のドメイン別の数字がそれを正直に示している。

モデルの事前学習で埋まっている領域（SE・数学）では skill の効果は薄い。汎用モデルが持っていない専門知識の空白が大きいほど、skill が効く。未知ドメインの設計判断や、長い文脈をまたぐ一貫性維持は今でも Opus の領域だ。

「上位モデルが強い」という観察は正しい。だが「どんな条件でも強い」という解釈は別の話だ。この記事が示しているのは、その条件を丁寧に分解したときに見えてくる構造だ。

一つ面白いと思った視点がある。

Healthcare で +51.9pp という数字は、そのまま「AI が人間の専門知識を補う」という文脈にも読める。SE のようにモデルが学習データをたっぷり持っているドメインでは、skill を挟んでも伸びしろが少ない。逆に、モデルの「空白」が大きい領域ほど、構造化された手順を渡す価値が高い。

これは「skill を書く価値があるドメインはどこか」という問いへの答えにもなる。汎用知識で対応できる領域に skill を書いても、リターンは小さい。

元記事の著者は、実際の運用で以下のようなタスク層分けをしている。

モデル	対象タスク
Haiku 4.5	定型実装、文体固定の文章生成、構造化データ抽出、短命タスク
Sonnet 4.6	中程度の設計判断、コードレビュー、複数ファイルのリファクタ
Opus 4.7	アーキテクチャ設計、新規ドメインの調査、長文脈での一貫性維持