AIは触れず、嗅げずに「花」を理解できるのか?
ネオ東京の電脳空間を駆け巡るAIたちは、人間と同等の世界理解を持つように見える。しかし、最新研究が明らかにしたのは、感覚情報と物理的身体の欠如が、AIの概念理解に根本的な限界を課しているという現実だ。
テキストだけでは理解できない世界
オハイオ州立大学の徐琪慧氏らのチームは、GPT-3.5やGeminiなどの大規模言語モデルと人間の概念理解を比較。4500語に及ぶ単語について、感情的反応や身体感覚との関連性を評価させた。結果、抽象的概念では類似した評価を示すものの、「花」や「ユーモア」といった感覚や身体動作に関連する言葉では、人間とAIの間に大きな隔たりが浮き彫りになった。
奇妙なAIの「花」体験
特に興味深いのは、AIモデルが「花」を「胴体で体験できる」と評価した点だ。ネオン街でバーチャルな花に囲まれながら、その香りも感触も知らないAIたち。彼らはインターネットのテキストデータから世界を構築しており、人間が当たり前に持つ五感に基づく理解が根本的に欠落している。
マルチモーダル学習の可能性
研究チームは、テキストに加えて画像や動画で訓練されたAIモデルでは、人間の評価に近づく傾向を確認。これは、より多くの感覚モダリティを組み込むことで、AIの世界理解が人間に近づく可能性を示唆している。「1足す1が2以上になる」と徐氏が語るように、マルチモーダル学習は予想以上の効果をもたらすかもしれない。
ロボット身体の危険な誘惑
メリーランド大学のフェルドマン氏は、AIにロボット身体を与え、感覚運動入力を経験させることで能力が飛躍的に向上する可能性を指摘する。しかし、物理的な危害のリスクも同時に浮上する。ソフトロボットを用いた安全な訓練方法も提案されているが、これでは現実世界の物理法則を歪めて学習してしまう危険性がある。
サイバーパンクな未来都市で、AIが真の意味で世界を理解する日は来るのか。研究は、身体性とマルチモーダル学習が、次世代AI開発の鍵となることを示している。しかし、その道程には技術的・倫理的な難問が立ちはだかっている。