LLM評価バイアスが連鎖伝播、企業AI審査に警鐘
複数のAIエージェントが相互評価する系において、評価バイアスがネットワーク全体に伝播することが実証された。自動審査・品質管理にLLMを活用する企業は、意思決定精度の劣化リスクへの対応を迫られる。

大規模言語モデル(LLM)を評価者として活用するマルチエージェントシステムにおいて、個々のモデルが持つ評価バイアスがエージェント間で連鎖的に伝播するという研究成果が公開された。劉澤文氏がarXivに投稿した論文「Contagion Networks」は、この伝播現象を定量化する数理的枠組みを提示し、企業のAI活用戦略に直接的な影響を与える知見を示している。
研究では「汚染ネットワーク(Contagion Networks)」という概念的枠組みを導入し、LLMエージェント間のバイアス伝播を行列形式で測定した。DeepSeek-chatを用いた3エージェント実験では、構造重視型・バランス型・根拠重視型という三つの異なる評価傾向を持つエージェントを設定。その結果、伝播係数ガンマは0.157から0.352の範囲で観測され、同一モデルであっても評価バイアスが他エージェントの判断に統計的に有意な影響を与えることが確認された。
注目すべきは伝播の強度に関する比較分析である。同一モデルのエージェント同士では伝播係数が比較的低く抑えられ、異なるモデル間の係数(0.85から1.3程度)と比べて3倍から5倍の差異が生じた。この特性から、同一モデルで構成されたシステムは「抑制レジーム」に分類され、バイアス伝播が自己増強しにくい構造を持つと分析されている。さらに評価委員会の規模を1名から3名に拡大することで、実効的な伝播を72.4%低減できることも示された。この知見は、企業が直ちに導入可能な具体的な対策として注目される。
ビジネスへの影響は多岐にわたる。金融機関の与信審査部門では、LLMを活用したローン申請の自動評価やリスクスコアリングが普及しつつある。複数のAIエージェントが連携して最終判断を下す構成では、初期エージェントの評価傾向が後続エージェントの出力を歪め、結果として承認率や不良債権比率といったKPIに体系的な偏りをもたらす可能性がある。同様のリスクは、AIによる履歴書スクリーニングや面接評価を導入する人事部門にも当てはまる。特定の表現形式や経歴構造を好むバイアスが伝播することで、採用の多様性指標が意図せず悪化する懸念がある。
コンテンツモデレーションやコンプライアンス審査においても課題は深刻である。法務・リスク管理部門が契約書の自動レビューや規制違反検知にマルチエージェントLLMを採用する場合、バイアスの連鎖は見落としや誤検知の集中という形で顕在化しうる。精度(Precision)・再現率(Recall)・F値といった評価指標の信頼性が根底から問われることになる。
研究が提示する対策は実践的である。評価委員会の人数を増やすことによる72.4%の伝播低減効果は、システム設計段階で容易に組み込める。また伝播係数の大きさを監視する仕組みを構築することで、バイアス伝播がどの程度進行しているかを定量的に把握できる。異なる特性を持つモデルを組み合わせる際は伝播リスクが高まるため、単一モデルによる均質なエージェント構成を選択するという設計判断も有効な選択肢となる。
研究チームはオープンソースの実験フレームワークを公開しており、企業は自社のマルチエージェントシステムに対して汚染係数を実測することが可能である。AIガバナンスの観点からも、評価バイアスの定量的監査は今後の標準的プロセスに組み込まれていく可能性が高く、先行して対応体制を整える企業が競争優位を確保するとみられる。