AI×経営戦略2026年6月23日

マウスと視線でLLMを自動改善、明示的評価不要に

マサチューセッツ大学などの研究チームが、ユーザーのマウス操作と視線データだけでLLMの応答品質を大幅に向上させる手法を開発した。高コストな人手評価を代替しうる技術として、AI導入企業の運用コスト削減に直結する可能性がある。

マサチューセッツ大学アマーストのHaw-Shiuan Chang氏らの研究チームは、大規模言語モデル（LLM）のアライメント（価値整合）において、ユーザーが意識せず発する「暗黙的フィードバック」を活用する新手法を発表した。論文はarXivに公開されており、同手法によりテキストのみに基づく報酬モデルの精度が55%から64%に向上したほか、応答品質の改善幅は従来比でほぼ3倍に達したとしている。

現在、LLMの品質改善には人間によるフィードバックを用いた強化学習（RLHF）が主流だが、回答の優劣を評価する注釈作業には多大なコストと時間を要する。研究チームは、クラウドソーシングサービス「Amazon Mechanical Turk」の作業者59名から1336件の質問応答セッションを収集し、その際のマウス軌跡とウェブカメラによる視線データを記録した独自データセット「IFLLM」を構築した。これにより、ユーザーが評価ボタンを押すといった明示的な操作をしなくても、読み返しや熟考を示す行動パターンから品質の高い応答を自動判定できることを実証した。

ビジネス上の影響は複数の産業・部門にわたる。まずカスタマーサポート領域では、コールセンターやチャット対応システムを運営する企業にとって即座に活用可能である。オペレーターがAI生成の応答文をスクロールし直す、あるいは特定箇所に視線が集中するといった行動は、その応答への不満を示す指標となる。これらのシグナルを継続的に学習データへ還流させることで、評価専任スタッフを配置せずとも応答精度の向上サイクルを回せるようになる。顧客満足度スコア（CSAT）や一次解決率（FCR）といったKPIへの直接的な寄与が見込まれる。

次に、法務・コンプライアンス部門でのAI文書レビュー支援においても同様の効果が期待できる。弁護士や担当者がAIの要約文を読み返す行動は、内容の不正確さを示している可能性が高く、そのフィードバックを蓄積することで業界固有の専門知識をモデルに反映させやすくなる。ドキュメントレビューの工数削減率や誤検知率の改善が評価指標となろう。

マーケティング・コンテンツ制作部門では、コピーライターがAI生成文を読む速度や戻り読みの頻度から、訴求力の高い表現を特定する用途が考えられる。これにより、A/Bテストを大規模に実施せずとも、クリック率（CTR）や転換率（CVR）の向上につながるコンテンツ最適化が実現しうる。

実装面では、ウェブブラウザ上で動作するAIチャットインターフェースに、視線追跡用のウェブカメラAPIとマウスイベントのロギング機能を組み込む形が現実的な導入経路となる。ただし、視線データや操作ログは個人の行動を詳細に記録するものであり、収集・利用にあたってはGDPRや個人情報保護法に基づく明示的な同意取得と目的の限定が不可欠である。プライバシー設計を怠れば、むしろユーザーの信頼を損なうリスクがある点に留意が必要だ。

今後の課題として、研究チームはデータ収集の規模拡大と、より多様なユーザー層での検証を挙げている。現時点では59名という限られた被験者から得られた知見であり、業種や利用文脈によって視線・マウス行動のパターンが異なる可能性がある。企業がこの手法を自社のAIシステムに適用する場合、まず限定的なパイロット運用でフィードバックシグナルの有効性を検証する段階的なアプローチが現実的と言えよう。データ収集サイトとコードは公開されており、研究者・開発者による追試・応用が可能な状態にある。

トップに戻る