VLM幻覚を追加学習不要で低減する手法登場
インド工科大学の研究チームが、視覚言語モデルの「幻覚」現象を追加データや再学習なしに抑制する重み編集手法を発表した。導入コストの大幅な削減が見込まれる。

視覚言語モデル(VLM)が画像に存在しない物体を「見た」と報告する幻覚現象は、AIを実務に活用する企業にとって長年の課題であった。カーン・ティワリ氏らインドの研究チームは、モデルの重みを閉形式で直接編集することでこの問題を緩和する「QKプロダクト・ステアリング」手法を発表した。追加の学習データも、ファインチューニングも、推論時の追加処理も一切不要という点が最大の特徴である。
技術的には、Transformerアーキテクチャ内のアテンション機構を構成するクエリ行列とキー行列の積を直接操作する。具体的には、この積行列に特異値分解を適用し、中間層に存在する支配的な特異モードを少数だけ抑制する。その後、修正後の行列をクエリ重みのみに反映させる閉形式の更新を行い、複数のクエリヘッドが単一のキーヘッドを共有する「グループ化クエリアテンション(GQA)」とも互換性を保つ設計となっている。グループ化クエリアテンションは推論効率化のために最新の大規模モデルで広く採用されており、実用上の障壁は低い。
3種類のGQAベースVLMを用いた評価では、物体幻覚の標準指標であるCHAIR_sスコアが平均4.0%相対改善した。対照実験としてランダムな特異モードを抑制した場合の改善はほぼゼロであり、幻覚と相関する特定の構造的パターンが存在することが確認された。
ビジネスへの影響として最も直接的なのは、製造業・流通業の品質管理部門である。画像認識AIによる外観検査や在庫管理において、VLMが存在しない欠陥や商品を報告する誤検知率はKPIとして直結する。本手法はモデルの再デプロイを最小限の工数で実現するため、既存システムへの組み込みコストを抑制できる。
医療画像診断の補助システムを開発する企業にとっても示唆は大きい。画像に存在しない所見を報告することは医療リスクに直結するため、幻覚抑制は規制当局への説明責任とも関わる。精度改善が追加学習なしに達成できれば、薬事承認プロセスにおけるモデル変更の申請負担を軽減する可能性がある。
小売・Eコマース分野では、商品画像から自動生成する商品説明文の精度がコンバージョン率や返品率に直接影響する。マーケティング部門が活用するVLMベースのコンテンツ生成ツールに本手法を適用することで、架空の商品特性を含む説明文の発生を低減し、顧客満足度KPIの改善が期待できる。
企業のAI導入担当者にとって現実的な利点は「導入摩擦の低さ」にある。多くの企業はVLMのファインチューニングに必要なGPUクラスタやラベル付きデータセットを保有しておらず、既存の商用APIやOSSモデルをそのまま利用している。重みの一部を閉形式で書き換えるだけで改善が得られる本手法は、そうした環境でも適用できる。
課題も残る。CHAIR_sの改善幅は4.0%と限定的であり、より高い精度が求められる用途には他の手法との組み合わせが必要となる。また、研究ではGQAベースのモデル3種に限定した評価であり、プロプライエタリなモデルや異なるアーキテクチャへの汎用性は今後の検証が待たれる。
研究チームは本手法を既存のデコーディング時対策と直交するものと位置付けており、組み合わせによるさらなる改善の余地を示唆している。追加コストゼロで利用できる基礎的な改善策として、VLM活用を模索する国内企業の技術選定において参照価値がある。