AIの「記憶力」を定量評価、企業導入に新指標
マルチモーダルAIが過去の観測を忘れず行動できるかを測る新ベンチマーク「RNG-Bench」が登場した。自律エージェントの実用化を左右する記憶能力の欠如を可視化し、企業のAI選定基準を刷新する可能性がある。

香港中文大学などの研究チームは、マルチモーダル大規模言語モデル(MLLM)が過去の視覚情報を再構成しながら多段階の意思決定を行う能力を評価するベンチマーク「RNG-Bench(Reconstructive Non-Markov Games)」を発表した。現在広く使われる評価指標の多くは、AIが常に完全な状態情報にアクセスできる前提で設計されており、実業務における不完全情報下での運用能力を正確に測定できていないという問題意識が背景にある。
RNG-Benchは二種類のゲームで構成される。一つは「Matching Pairs」で、特定の位置に一時的に表示されたカードの内容を記憶し、後から正確に照合する能力を問う。もう一つは「3D Maze」で、一人称視点の映像を統合して空間地図を構築する能力を評価する。いずれも格子サイズ、視覚パターン、観測モダリティという三つの難易度軸を制御した統一評価環境で実施され、最難関の設定では約12万8000トークン、350枚の画像入力が一エピソードで要求される。現時点では最先端のMLLMでも性能が飽和しておらず、ほとんどのエラーが意思決定の失敗ではなく過去の観測を忘却することに起因することが「Memory Gap」指標の分析で判明した。
この研究が企業のAI活用戦略に与える影響は広範にわたる。まず製造業における工場自動化部門では、ロボットアームや搬送AGVが作業履歴を保持しながら柔軟に判断する能力が生産効率のKPIに直結する。既存の状態観測型評価で高スコアを示すモデルが、実際の生産ラインでは直前の工程記録を参照できない状況で判断精度が大幅に低下するリスクがあり、RNG-Benchはその落差を事前に検出する手段となる。
金融業界でも影響は大きい。証券会社のアルゴリズムトレーディング部門や保険会社のリスク審査部門では、AIエージェントが複数ステップにわたる取引履歴や顧客との過去のやり取りを踏まえた判断を求められる。Memory Gap指標を導入すれば、モデルの記憶劣化が意思決定の質に与える影響を数値化し、モデル更新や再学習のタイミングを合理的に判断できるようになる。コンプライアンス部門にとっても、AIの判断根拠として過去情報が適切に活用されているかを監査する際の客観的な根拠となりうる。
ヘルスケア分野では、電子カルテを参照しながら診断支援を行うAIや、長期的なリハビリ計画を管理するシステムにおいて、患者の過去状態を正確に保持する能力が医療品質の基盤となる。現行の評価フレームワークでは見えにくかったこの能力の欠陥を、RNG-Benchが定量的に露出させることで、医療機器メーカーや病院情報システムベンダーがモデル選定基準を見直す動きが加速するとみられる。
マーケティング分野のパーソナライゼーションエンジンや、カスタマーサポートの自動応答システムでも、会話の文脈を長期にわたって保持する記憶能力は顧客満足度スコアや解決率といったKPIに直接影響する。特に複数ターンにわたる問い合わせ対応では、過去の発言を忘却したAIが引き起こす応答の矛盾が顧客離脱につながるリスクがある。
研究チームはさらに、Qwen3.5-9Bモデルを最適方策のロールアウトとフィルタリングされたモデルデモンストレーションでファインチューニングすることで、RNG-Bench上の性能が向上し、既存のマルチモーダルベンチマークへの転移も確認されたと報告している。汎用能力を損なわずに記憶能力を強化できるという知見は、特定業務向けモデルの開発コスト削減に寄与する可能性がある。
AI調達担当者や最高デジタル責任者(CDO)にとって、RNG-Benchは仕様書上の性能数値では見えにくい実運用上のリスクを事前に評価するための実用的なツールとなる。ベンダー選定時の評価項目にMemory Gap指標を加えることで、不完全情報下での自律エージェント導入における失敗コストを低減できると期待される。