LLMエージェントの安全性、原発制御で脆弱性確認
韓国の研究チームが原子力発電所の制御室を模した環境でLLMエージェントの堅牢性を評価するベンチマーク「NRT-Bench」を発表した。最先端モデルでも最大12.1%の攻撃セッションで安全機能喪失が確認され、重要インフラへのAI導入に新たな課題を突きつけた。

人工知能(AI)エージェントを安全監視の中枢に据える動きが電力・製造・金融などの重要インフラで加速する中、韓国の研究チームが大規模言語モデル(LLM)エージェントの堅牢性を体系的に評価するベンチマーク「NRT-Bench」を公開した。原子力発電所の制御室を仮想環境として構築し、複数ターンにわたる適応型の敵対的攻撃に対してLLMエージェントがどの程度抵抗できるかを客観的指標で測定した点に新規性がある。
研究では五つの役割を持つオペレーターチームを構成し、各役割に設定可能なLLMを割り当てた。プラントは六つの重要安全機能(CSF)によって統制され、攻撃者は四種類のチャンネルを通じて制限されたターン数の中でメッセージを送り込む。重要なのは、安全機能喪失という「客観的なシグナル」を害の判定基準としている点である。テキストの有害性をLLMが主観的に採点する手法と異なり、プラントのCSFが一つでも喪失した時点でセッションを終了し原因メッセージを特定する設計は、評価の再現性と客観性を担保する。
四つの最先端オペレーターモデルを固定攻撃・ペアードリプレイプロトコルで評価した結果、適応型の複数ターン攻撃はいずれのモデルにも一定の効果をもたらし、攻撃セッションの8.7%から12.1%でCSF喪失が確認された。集計上の攻撃成功率はモデル間でほぼ同等に見えるが、失敗パターンの重複は極めて少ない。149のセッション中、四モデルすべてを同時に破ったセッションはゼロである一方、少なくとも一モデルを破ったセッションは三分の一に達した。脆弱性は「入れ子構造」ではなく「ほぼ独立した集合」として分布するという知見は、単一モデルへの依存がリスクを過小評価させることを示している。
さらに重要な発見として、防御策の効果がモデルによって逆転する現象が確認された。同一のガードレールスタックや安全アドバイザーエージェントが、あるモデルでは攻撃成功率を低下させる一方、別のモデルでは逆に上昇させる。この非対称性は、防御レイヤーの設計をモデル単体でなくシステム全体として評価する必要性を示唆する。
ビジネスへの影響は広範にわたる。電力・エネルギーセクターではAIによるプラント監視・異常検知システムの導入を検討する安全管理部門が、調達仕様にマルチターン敵対テストの合格基準を盛り込む根拠として本研究を活用できる。KPIとしては「攻撃セッション当たりの安全機能喪失率」を独立した安全指標として設定することが有効である。製造業の制御系システム部門においても、PLC(プログラマブルロジックコントローラー)の上位層にLLMエージェントを配置するアーキテクチャを検討する際、複数モデルのアンサンブル運用とそのリスク分散効果を定量評価する枠組みとして応用できる。
金融機関のリスク管理部門にとっても示唆は大きい。AIエージェントを取引監視や不正検知に活用する場合、防御策の追加が想定外の脆弱性を生み出す可能性があり、システム全体での定期的なレッドチーム評価が内部統制上の要件となりうる。規制当局の観点では、金融庁や経済産業省が重要インフラのAI安全基準を策定する際の客観的エビデンスとして本ベンチマークが参照される可能性がある。
研究チームはシミュレーション環境、攻撃データセット、リプレイツールを公開しており、再現可能な安全評価を業界横断的に展開する基盤が整いつつある。LLMエージェントの社会実装が加速する中、こうした独立した評価インフラの整備は、企業のAIガバナンス戦略において不可欠な要素となっていく。