2026-04-08
AIはなぜ嘘をつくのか
ハルシネーションが「構造的に避けにくい」理由
AIはなぜ嘘をつくのか――ハルシネーションが「構造的に避けにくい」理由
AIを使っていると、一度はやらかされるのがハルシネーション(幻覚)だと思う。もっともらしく、しかし盛大に間違ったことを、AIは自信満々に語ってくる。「プロンプトの書き方が悪いのかな」「モデルを変えれば解決するのかな」と悩んだことがある人も多いのではないだろうか。
でも実は、ハルシネーションって単なる技術的バグじゃないかもしれない。今のAIがどうやって動いているかという構造の話をすると、「そもそも誤りが生まれやすい仕組みになってるんじゃないか」という疑問が浮かび上がってくる。
この記事では、AIモデルの学習の仕組みを起点に、ハルシネーションがなぜ「直せばなくなる」という単純な話じゃないのかを、できるだけわかりやすく考えてみたいと思う。
1. AIは「人間の出力物」を模倣している
まず前提として、今の主流なAIモデルが何をやっているかを整理しておきたい。
こういうイメージが近いかもしれない。まず、「人間生成器」のようなものが存在すると仮定する。それによって生み出された人間という存在が、真のデータ分布を形成している。AIが学習しているのはそこからさらに一段下がった、人間が実際に書いたテキストや作った画像という観測可能なデータ分布になる。AIはその観測データから、人間という真のデータ分布を逆算し、さらにその背後にある人間生成器まで遡ろうとしている、と考えられる。
つまり情報の欠損は二重に存在している。観測データ(テキスト)から人間という存在への逆算、そして人間という存在からその生成プロセスへの逆算。AIがアクセスできるのはあくまで末端の観測データのみで、その上流にある二つの層は原理的に見えていない。
ChatGPTのようなLLMで言えば、「次にどんな単語が来るか」を予測することを繰り返して文章を生成している。これがその観測データの分布を模倣する、ということになる。
2. そのデータ、そもそも正確じゃない
問題はここからで、学習に使われるデータは、WebやSNSから収集した膨大なテキストや画像なわけだけど、当然ながら完全ではない。誤情報・矛盾・偏見・不正確な記述が山ほど混じっている。
AIはそれらも含めた分布全体を学習する。つまり、近似しようとしている対象そのものが、すでに誤りを内包しているわけで、これだけでも、モデルが誤った知識やパターンを再現してしまう可能性が、構造的に存在することになる。
さらに言えば、観測データはそもそも人間という真のデータ分布の断面にすぎない。人間が書いたものがすべてテキストに現れるわけではないし、文脈・感情・身体感覚といった情報はほとんど落ちてしまっている。近似対象に欠損があるうえに、その近似対象自体が誤りを内包している。二重の意味で、出発点からなかなか厳しい状況にある。
3. ハルシネーションの原因は、データだけじゃない
ただ、「データが汚いから幻覚が起きる」というだけでは説明しきれない部分もある。原因はもう少し多層的で、こんなふうに整理できると思う。
① データに混じった誤りをそのまま学習してしまう
これは上で述べた通り。
② そもそも「正しさ」を目指していない
これが意外と重要なポイントで、次トークン予測という仕組みは「真実らしいこと」を生成するのではなく、「その文脈で続きとして自然なこと」を生成しようとしている。つまりAIは「正しいことを言おうとしている」のではなく、「それっぽいことを言おうとしている」わけで、データが完全にクリーンでも、この構造上の問題からハルシネーションは起きうる。
③ 知らないことを「知らない」と言えない
学習データにない話題や、データの境界付近の問いに対して、モデルは「それっぽい補間」をしてしまう。これが事実と乖離したそれっぽい嘘を生み出してしまう。
④ 記憶の仕方が人間の「うろ覚え」に似ている
AIはデータを丸ごと記憶しているわけではなく、パターンを圧縮して保持している。そこから出力を再構成するとき、人間が記憶を思い出すときの「思い違い」に似た誤りが生じることがある。
4. もっと根本的な問題:テキストだけじゃ足りない
さらに深い話をすると、そもそも人間の言語生成って、身体・環境・世界との相互作用に根ざしたものだと思う。テキストデータはその一側面を切り取ったものにすぎない。
セクション1で触れた通り、AIがアクセスできるのは観測データという末端の層だけで、人間という真のデータ分布も、その背後にある人間生成器も、原理的に直接見ることができない。この根本的な情報欠損は、グラウンディング問題と呼ばれていて、ハルシネーションとはまた別の、より深いレイヤーの課題になってくる。
5. じゃあ、どうすればいいのか
「構造的に起きやすい」と言っても、「だから何もできない」という話ではないと思う。
たとえば数学の証明のような、答えが明確に決まっている閉じた領域では、ハルシネーションはかなり抑えられる。また、RAG(検索拡張生成)やtool useのように、AIが自分の内部記憶に頼るのではなく外部の確かな情報を参照しながら答える設計では、ハルシネーションを大幅に減らすことができる。
ただ、現在のパラダイム——つまり「人間の出力物を大規模に学習して模倣する」というアプローチ——を取り続ける限り、ハルシネーションをゼロにするのはなかなか難しいんじゃないかと思う。
まとめ
ハルシネーションは、こういう複数の要因が重なって起きている。
- 二重の情報欠損:観測データは人間という真のデータ分布の断面にすぎず、さらにその背後にある人間生成器も直接見えない
- 誤りを内包した学習データへの近似
- 「真実」ではなく「尤もらしさ」を最適化する目的関数
- 知らないことへの補間的な生成
- パターン圧縮による再構成誤差
つまり「ちゃんと使えばなくなる」問題ではなく、今のAIの構造に根ざした性質なんじゃないかと思う。だからこそ、AIを使う側としては「ハルシネーションが起きる前提で、どう向き合うか」を考える視点が大事になってくるんじゃないかな。