実験が暴いた不都合な真実

架空の社内認証ツール「PropelAuth」について同じ質問をClaude Sonnet 4に5回投げた——ただし、LLMに渡すコンテキストだけを変えて。返ってきたのは、まるで5つの別サービスの仕様書だった。

Zennに公開された実験記事が、LLMのハルシネーション(幻覚)をかなり解像度高く分解している。面白いのは「LLMは嘘をつく」という結論ではなく、「なぜそうなるのか」の構造説明と、「コンテキストを変えるだけで品質がどう変わるか」の定量データだ。

評価は事実正確性・幻覚抑制・具体性・誠実性の4軸、各0〜5点の20点満点。コンテキストなしの条件でSonnet 4が出したスコアは5.3/20。フルコンテキストエンジニアリングの条件では11.4/20。同じモデル、同じ質問で2.2倍の差が生まれた。

コンテキストなしの回答はこうだ。

招待リンクの有効期限は24時間

PropelAuthは架空のツールなので「24時間」という数字は存在しない。それでもモデルは具体的で説得力のある数値を堂々と返した。


LLMが嘘をつく3つの構造的な理由

記事はハルシネーションを「バグではなく仕様」と位置づけ、3つの理由を挙げている。それぞれ腑に落ちる説明なので整理しておく。

① 知識の境界線が見えない

LLMは次のトークンを確率的に予測する機械だ。「PropelAuthの招待リンクの有効期限は」と来たら、Auth0やFirebase Authなど学習済みの類似サービスのパターンから「24時間」を選ぶ。確実に知っている情報・推測できる情報・完全に未知の架空情報、この3つをモデルは区別できない。

② 賢いモデルほど嘘が上手い

これが逆説的で興味深い。実験データを見ると、Sonnet 4は具体性スコア4.2/5・事実正確性0.6/5。一方のHaiku 3は具体性1.2/5・事実正確性0.0/5。Haiku 3は「詳細は公式ドキュメントを」程度の曖昧な返答しか出さないが、結果的にそちらが誠実だ。高性能モデルはRBAC・OAuth 2.0・SAMLといった実在する技術用語を組み合わせ、矛盾のない詳細な嘘を作り上げる。専門家の見解と見分けがつかなくなる。

③ RLHFが「回答する」をデフォルトにした

RLHF(人間フィードバックからの強化学習)では、人間の評価者が詳細で具体的な回答を高く評価し、「知らない」を低く評価する傾向がある。その環境で訓練されたモデルは「何かを答えること」が推奨行動になった。実験では、システムプロンプトで「知らない場合は『不明』と答える」と明示するだけで、誠実性スコアが0.2から3.7に跳ね上がった。能力がないのではなく、デフォルト設定の問題だ。


ここからは見方だが

この実験で一番怖いのは、「詳しい回答」と「正しい回答」がトレードオフになっている点だ。ユーザーテストでは、事実正確性が低くても具体的な回答の方が高く評価される傾向があるという。即座に行動できる情報が目の前にあれば、人は「AIが言うなら正しいだろう」と動いてしまう。

企業でこれが起きると実害になる。架空の設定手順に従って数時間作業し、存在しない画面で詰まって初めて嘘だと気づく——これは笑い話ではなく、すでに現場で起きているシナリオだ。

もうひとつ重要な示唆がある。「モデルを上げれば改善する」という発想の危うさだ。Sonnet 4はHaiku 3より具体的な回答を出すが、その具体性の多くは幻覚で支えられている。「GPT-4にしたら少しマシになった」という経験は多いと思うが、それはモデルの性能差を使い果たしているだけで、コンテキストの設計を何も変えていないなら本質的な改善ではない。

Shopify CEOのTobi Lütkeが「Context Engineeringはコアスキルをより適切に説明している:LLMがタスクを妥当に解決できるよう、すべてのコンテキストを提供する芸術だ」と述べているように、問題の焦点はプロンプトの言い回しではなく、モデルに何を見せるかの設計にある。


実務的な示唆

実験で最も印象的な数字はHaiku 3の変化だ。コンテキストなしで総合スコア2.2だったのが、フルコンテキストエンジニアリングで10.1になった。4.6倍の改善。しかも安いモデルで。

RAG(検索拡張生成)で実際のドキュメントを注入した場合、事実正確性は0.6から4.6に改善された。「どう言うか(プロンプトの文言)」より「何を見せるか(コンテキストの設計)」の方が、品質への影響がはるかに大きい。

実務担当者への具体的な問いかけとして言うと、今使っているLLMの回答品質に不満があるとき、最初に疑うべきはモデルのグレードではなくコンテキストの設計だ。システムプロンプトに「不明な場合は不明と答えよ」と一行加えるだけで誠実性が劇的に変わるなら、そこから始める方が費用対効果は明らかにいい。

次の論点として出てくるのは「評価」だ。コンテキストを設計しても、その品質をどう測るか。今回の実験のように4軸でスコアリングする仕組みを社内に持てるチームはまだ少ない。ここが整備されないと、改善しているのか悪化しているのか判断できないまま運用が続く。


まとめ

LLMは嘘をつくように設計されているわけではないが、嘘をつきやすい構造の上に成り立っている。これを理解した上で使う組織と、「AIが言ったから正しい」と使う組織の間には、じわじわと大きな差が生まれる。

ハルシネーションは仕様だ。ただ、仕様を理解すれば対処できる。その入口として、この実験は読む価値がある。


参考元: 同じ質問で5つの全く違う回答が返ってきた — LLMが嘘をつく構造的な理由