AIの回答、入力順で変化 信頼性に警鐘
最先端のマルチモーダルAIが同一証拠でも情報の提示順序によって異なる回答を返すことが研究で判明した。法務・医療・金融など判断の一貫性が求められる業務への導入に重大なリスクを示す。

研究の概要
スタンフォード大学の研究チームは、18種類の主要なマルチモーダル大規模言語モデル(MLLM)を対象に、入力情報の提示順序が出力結果に与える影響を体系的に検証した。独自に開発した監査フレームワーク「Facet-Probe」を用い、選択肢の並び順・証拠テキストの順序・画像セットの順序など5つの観点から評価を実施した。
結果は深刻である。調査対象のモデル全18種においてゼロ件も「順序不変性」を満たすものはなく、各観点における回答の反転率は**24〜50%**に達した。最も性能の高いモデルでさえ、試行の13.4%で異なる回答を出力した。また、プロンプトの工夫による回答安定化はテキスト領域では一定の効果を示すものの、画像を含む視覚的推論には転用できないことも確認された。
研究チームはベイズ型の項目反応モデルを用いて、順序に起因するノイズとモデル固有の偏りを分離する手法を導入し、「クロスオーダー反転率」を標準的な性能指標として採用するよう業界に提言している。
ビジネスへの示唆
この知見が直撃するのは、AIを意思決定支援に活用している業種・部門である。
- 医療分野:複数の検査画像や診療記録をAIに提示して診断支援を行う場合、資料の提示順序によって推奨される診断や治療方針が変わりうる。臨床判断の一貫性(診断精度KPI)に直接影響する。
- 法務・コンプライアンス部門:契約書レビューや規制適合性の審査にMLLMを活用する場合、条項の並び順次第で適合・非適合の判定が変動するリスクがある。監査証跡の信頼性が損なわれる。
- 金融・投資部門:財務資料や市場レポートの要約・分析業務において、文書の入力順序が最終的な投資判断や与信評価に影響する可能性がある。意思決定の再現性(監査KPI)が問われる。
- マーケティング部門:広告クリエイティブの評価やA/Bテスト分析にAIを用いる場合、画像と文章の提示順序によってスコアが変動し、施策優先順位の判断が誤る恐れがある。
企業のAI推進部門にとっての実務上の課題は二層構造である。第一に、現行システムが順序に依存した回答を生成していないか検証するリスク監査の実施が急務となる。第二に、同一タスクを複数の異なる入力順序で実行し回答の一致度を確認する「クロスオーダー検証」を標準的なQAプロセスへ組み込む必要がある。特に規制産業においては、AI出力の一貫性を担保しなければ内部統制や規制当局への説明責任を果たせない場面が増える。
今後の展望
研究チームは、プロンプトエンジニアリングによる対策には構造的な限界があると結論付けており、根本的な解決にはモデルの訓練段階またはアーキテクチャ設計への介入が必要だと指摘する。これはAIベンダー各社にとって、次世代モデル開発の優先事項を再考させる提言でもある。
新興のAI評価ガイドライン(EU AI法の技術基準を含む)は、信頼性の基本要件として順序不変性に相当する特性を求め始めている。「クロスオーダー反転率」が業界標準の評価指標として定着すれば、モデル選定の基準そのものが塗り替わる可能性がある。調達部門は今後、ベンダーに対してこの指標の開示を要求する立場になることが予想される。
関連トピック
同セクションの記事
AIが自律的に有害画像を排除、自己改善型コードブック登場
英オックスフォード大らの研究チームが、自動回帰型画像生成AIの安全性を人手によるアノテーションなしに反復的に高める手法を発表した。企業が生成AIを活用する際のコンプライアンスコストを大幅に削減できる可能性がある。

新最適化手法でAI学習コスト大幅削減
行列直交化に基づく分散学習最適化手法「DMuon」が公開された。従来比で最大163倍の最適化ステップ高速化を実現し、大規模AIモデルの開発コストと期間を抑制できる可能性がある。

LLM障害分析の精度、実態は2割どまり
大規模言語モデルによる障害根本原因分析の正解率が平均20.7%にとどまることが新ベンチマーク研究で判明した。AI活用を進めるITオペレーション部門にとって、信頼性評価の再設計が急務となる。
