トピック: Hallucination

全セクション横断 8 件

米カーネギーメロン大学らの研究チームは、大規模言語モデルを因果推論の「補助役」に限定する原則を提唱し、実装プラットフォームを公開した。LLMの幻覚を因果的証拠と混同するリスクを排除し、データに基づく経営判断の信頼性を高める。

米NVIDIAの推論コンテストで、LLMに文字列照合・バックトラッキング・誤り回復を組み合わせた新手法が96%超の検証精度を達成した。複雑な論理推論を要する業務自動化への応用が現実味を帯びる。

量子コンピューティング開発環境の急速な更新に伴う技術的負債の蓄積に対し、大規模言語モデルとRAGを組み合わせた自動移行手法が提案された。量子アルゴリズム資産の長期保全とエンジニア不足の緩和に直結する成果として注目される。

衛星・航空画像を解析するマルチモーダルAIが「〜でない」という否定表現を正確に処理できない欠陥が確認され、テスト時学習による改善手法「NeFo」が提案された。防災・インフラ・保険など判断の誤りが直接損失に直結する業界への影響は大きい。

カナダの研究チームが賃貸借法を対象にAIの法令条文引用精度を比較実験し、微調整と検索を組み合わせたハイブリッド手法が幻覚をゼロに抑えつつ最高精度を記録した。法務・不動産業界への実装競争が加速しそうだ。

インド工科大学の研究チームが、視覚言語モデルの「幻覚」現象を追加データや再学習なしに抑制する重み編集手法を発表した。導入コストの大幅な削減が見込まれる。

アリババDAMO Academyらは医療用マルチモーダルAIが誤答を生じる推論段階を特定するベンチマーク「ClinHallu」を公開した。医療AIの信頼性評価に新基準をもたらす可能性がある。

米研究者らが、企業の社内文書検索AIの回答精度を大幅に改善する新手法「UMG-RAG」を発表した。追加学習不要で既存システムに組み込め、法務・金融・医療など大量文書を扱う業種に直接的な恩恵をもたらす可能性がある。