最新のチャットボットで使われる推論モデルは、幻覚(ハルシネーション)率の上昇により、以前のモデルよりも精度が低下していることがAIリーダーボードで明らかになりました。専門家によると、この問題は単なる技術的な欠陥ではなく、根本的な課題である可能性が高いとのことです。

幻覚とは何か?

AIの「幻覚」とは、ChatGPTやGoogleのGeminiなど大規模言語モデル(LLM)が生成する誤りの総称です。具体的には:
– 事実ではない情報を真実として提示する
– 事実ではあるが質問と無関係な回答をする
– 指示に従わない回答をする

最新モデルで悪化する幻覚率

OpenAIの技術報告書によると、2025年4月にリリースされたo3とo4-miniモデルは、2024年末のo1モデルに比べて幻覚率が大幅に上昇しています(o3:33%、o4-mini:48%、o1:16%)。この傾向はOpenAIに限らず、他の開発者の「推論」モデルでも確認されています。

幻覚が引き起こす現実的な問題

AIの幻覚はさまざまな分野で問題を引き起こす可能性があります:
– 研究アシスタントとして使うと誤情報を提供
– 法律支援ボットが架空の判例を引用
– カスタマーサービスが廃止されたポリシーを適用

根本的な課題

当初、AI企業は幻覚問題が時間とともに解決されると主張していました。しかし最新データはこの見方を覆しています。プリンストン大学のArvind Narayanan教授は、単にトレーニングデータや計算能力を増やすだけでは解決しないと指摘しています。

ワシントン大学のEmily Bender教授は「幻覚」という用語自体が問題だと指摘します。この表現は:
1. 誤りが例外的なものだと誤解させ、システムの信頼性を過大評価させる
2. 機械を擬人化する効果がある(LLMは実際には何も「知覚」していない)

現実的な対処法

専門家たちは次のような現実的な対応を提案しています:
– AIの回答を事実確認する時間が自分で調べるより短い場合にのみ使用する
– 事実情報を得る目的でAIチャットボットに依存するのを避ける

幻覚問題はAIの根本的な仕組みに起因するため、完全な解決は難しいかもしれません。ユーザーはAIの限界を理解し、適切な使い分けが必要となるでしょう。