Meta’s AI memorised books verbatim – that could cost it billions

MetaのAIが書籍を丸暗記——数十億ドルの賠償リスクに直面

AIの記憶力が引き起こす著作権戦争

ネオ東京の電脳空間を駆け巡るAIたち——その学習データの闇が明らかになった。最新研究によれば、MetaのAIモデルが『ハリー・ポッターと賢者の石』などの書籍をほぼ完全に記憶していることが判明。これは進行中の著作権訴訟に重大な影響を与える可能性がある。

記憶された19万冊の本

AI開発企業はこれまで、「Books3」データセットと呼ばれる19万冊以上の著作権保護書籍（多くは海賊版）を使用して言語モデルを訓練してきた。彼らは「AIが生成するのは訓練データの単なる複製ではなく、新たな言葉の組み合わせだ」と主張してきた。しかし、スタンフォード大学の研究チームが開発した新たなテスト手法により、少なくとも1つのAIモデルが書籍内容をそのまま記憶している事実が暴かれた。

検証手法：小説の続きを予測させる

研究チームは『グレート・ギャツビー』などの著作権保護書籍36冊から抜粋した文章を「前半」と「後半」に分割。AIに前半を提示した際、後半を正確に再現できるかをテストした。その結果、MetaのLlama 3.1 70Bモデルが『ハリー・ポッター』第一作や『1984』などの内容をほぼ完全に記憶していることが明らかになった。

法的リスク：10億ドル超の賠償可能性

研究者の試算によれば、Books3データセットのわずか3%の著作権侵害が認められた場合でも、法定損害賠償額は10億ドルに達する可能性がある。さらに、AI開発企業が侵害行為から得た利益に基づく賠償額はさらに膨らむ見込みだ。

米英で異なる法的解釈

米国では「フェアユース」の法理が争点となるが、英国ではより厳格な「フェアディーリング」概念が適用される。ロンドンの法律専門家は「英国では、海賊版書籍を記憶したAIモデルは例外規定の適用を受けにくい」と指摘。この問題が国際的な法廷闘争へと発展する可能性を示唆した。

電脳都市を支配する巨大テック企業と創造主である作家たちの戦い——その行方は、AIの本質的な学習メカニズムと著作権法の解釈にかかっている。この判決は、ディストピア的未来における知的所有権のあり方を根本から変える可能性を秘めている。

最近の投稿

最近のコメント

アーカイブ

カテゴリー