AI×経営戦略2026年6月20日

マウス・視線でAIを自動改善、新手法

米マサチューセッツ大学などの研究チームが、ユーザーのマウス操作と視線データからAIの回答品質を自動改善する手法を開発した。明示的な評価入力を不要とし、AI改善コストの大幅削減が見込まれる。

米マサチューセッツ大学アマースト校などの研究チームは、大規模言語モデル（LLM）の品質改善に際し、ユーザーが意識せずに発信するマウスの軌跡や視線の動きを活用する新手法を発表した。従来のAI改善作業で不可欠とされてきた人手による評価作業を大幅に代替できる可能性を示しており、企業のAI運用コスト構造に根本的な変化をもたらしうる成果として注目される。

研究チームは「IFLLM」と名付けたデータセットを独自に構築した。クラウドソーシングサービス「Amazon Mechanical Turk」の作業者59名に複数回にわたる質問応答を実施させ、その際のマウス軌跡1336件分と、ウェブカメラを通じた視線データを収集した。分析の結果、ユーザーはAIの回答を読む際に多様な視線パターンとマウス操作を示すことが判明した。こうした暗黙的なフィードバックを報酬モデルに組み込むことで、テキストのみを用いた従来手法の正解率55%を64%に向上させた。さらに8種類のLLMに対して直接選好最適化（DPO）を適用した実験では、回答品質の相対的改善幅が従来比でほぼ3倍に達した。

この技術が持つ最大のビジネス上の意義は、AI改善に要する人件費とリードタイムの圧縮にある。現在、LLMを業務用途に最適化するためには、専門のアノテーターが大量の回答ペアを評価する「人間によるフィードバックに基づく強化学習（RLHF）」が主流である。高品質なアノテーション1件あたりのコストは数ドルから数十ドルに上ることもあり、大規模な専用モデルの構築には数億円規模の投資が必要になる場合もある。本手法はユーザーが通常業務でシステムを利用するだけでフィードバックが自動収集されるため、このコスト構造を根本から変える可能性がある。

業種別に見ると、影響が特に大きいのは金融、医療、法務の各セクターである。これらの領域では専門用語や文脈への精度要求が高く、汎用LLMをそのまま展開することが難しい。金融機関のリサーチ部門では、アナリストが調査レポート生成AIの回答を確認する際の視線・操作データを蓄積することで、専門性の高い回答品質評価を継続的かつ低コストで行える。KPIとして回答の正確性スコアや修正率の低下が直接測定可能となる。医療機関の電子カルテ入力支援システムでは、医師や看護師が入力画面上で示す読み返し行動をシグナルとして活用し、臨床現場に即した文章生成モデルの継続改善サイクルを構築できる。

カスタマーサポート部門への応用も有望である。コンタクトセンターにおけるオペレーターのチャット応答確認行動を暗黙的フィードバックとして取得すれば、顧客対応AIの応答適切率や一次解決率といった主要KPIの改善を自動的に促進できる。従来は月次や四半期単位で実施していたモデル評価・更新サイクルを日次に短縮することも技術的に可能となる。

一方、実装にあたって留意すべき課題も存在する。視線データの収集にはユーザーの明示的な同意取得と適切な個人情報管理体制の整備が不可欠であり、特に欧州のGDPRや日本の改正個人情報保護法への対応が求められる。また、ウェブカメラを用いた視線追跡は照明環境や個人差により精度にばらつきが生じるため、収集データの品質管理にも相応のコストがかかる点は否めない。

研究チームはデータ収集ツール、データセット、およびソースコードを公開しており、企業が自社システムへの統合を検討するための基盤は整っている。AI投資の費用対効果を高める手段として、暗黙的フィードバックの活用は今後の企業AI戦略における重要な差別化要因となっていく見通しである。

トップに戻る