AI駆動開発 2026年4月28日

同じ質問を5回投げたら5つの別回答が返ってきた——LLMが嘘をつく「仕様」を理解する

実験が暴いた不都合な真実

架空の社内認証ツール「PropelAuth」について同じ質問をClaude Sonnet 4に5回投げた——ただし、LLMに渡すコンテキストだけを変えて。返ってきたのは、まるで5つの別サービスの仕様書だった。

Zennに公開された実験記事が、LLMのハルシネーション（幻覚）をかなり解像度高く分解している。面白いのは「LLMは嘘をつく」という結論ではなく、「なぜそうなるのか」の構造説明と、「コンテキストを変えるだけで品質がどう変わるか」の定量データだ。

評価は事実正確性・幻覚抑制・具体性・誠実性の4軸、各0〜5点の20点満点。コンテキストなしの条件でSonnet 4が出したスコアは5.3/20。フルコンテキストエンジニアリングの条件では11.4/20。同じモデル、同じ質問で2.2倍の差が生まれた。

コンテキストなしの回答はこうだ。

招待リンクの有効期限は24時間

PropelAuthは架空のツールなので「24時間」という数字は存在しない。それでもモデルは具体的で説得力のある数値を堂々と返した。

LLMが嘘をつく3つの構造的な理由

記事はハルシネーションを「バグではなく仕様」と位置づけ、3つの理由を挙げている。それぞれ腑に落ちる説明なので整理しておく。

① 知識の境界線が見えない

LLMは次のトークンを確率的に予測する機械だ。「PropelAuthの招待リンクの有効期限は」と来たら、Auth0やFirebase Authなど学習済みの類似サービスのパターンから「24時間」を選ぶ。確実に知っている情報・推測できる情報・完全に未知の架空情報、この3つをモデルは区別できない。

② 賢いモデルほど嘘が上手い

これが逆説的で興味深い。実験データを見ると、Sonnet 4は具体性スコア4.2/5・事実正確性0.6/5。一方のHaiku 3は具体性1.2/5・事実正確性0.0/5。Haiku 3は「詳細は公式ドキュメントを」程度の曖昧な返答しか出さないが、結果的にそちらが誠実だ。高性能モデルはRBAC・OAuth 2.0・SAMLといった実在する技術用語を組み合わせ、矛盾のない詳細な嘘を作り上げる。専門家の見解と見分けがつかなくなる。

③ RLHFが「回答する」をデフォルトにした

RLHF（人間フィードバックからの強化学習）では、人間の評価者が詳細で具体的な回答を高く評価し、「知らない」を低く評価する傾向がある。その環境で訓練されたモデルは「何かを答えること」が推奨行動になった。実験では、システムプロンプトで「知らない場合は『不明』と答える」と明示するだけで、誠実性スコアが0.2から3.7に跳ね上がった。能力がないのではなく、デフォルト設定の問題だ。

ここからは見方だが

この実験で一番怖いのは、「詳しい回答」と「正しい回答」がトレードオフになっている点だ。ユーザーテストでは、事実正確性が低くても具体的な回答の方が高く評価される傾向があるという。即座に行動できる情報が目の前にあれば、人は「AIが言うなら正しいだろう」と動いてしまう。

企業でこれが起きると実害になる。架空の設定手順に従って数時間作業し、存在しない画面で詰まって初めて嘘だと気づく——これは笑い話ではなく、すでに現場で起きているシナリオだ。

もうひとつ重要な示唆がある。「モデルを上げれば改善する」という発想の危うさだ。Sonnet 4はHaiku 3より具体的な回答を出すが、その具体性の多くは幻覚で支えられている。「GPT-4にしたら少しマシになった」という経験は多いと思うが、それはモデルの性能差を使い果たしているだけで、コンテキストの設計を何も変えていないなら本質的な改善ではない。

Shopify CEOのTobi Lütkeが「Context Engineeringはコアスキルをより適切に説明している：LLMがタスクを妥当に解決できるよう、すべてのコンテキストを提供する芸術だ」と述べているように、問題の焦点はプロンプトの言い回しではなく、モデルに何を見せるかの設計にある。