AIエージェント並列処理、応答速度を最大11倍改善
米研究チームが開発した「Parallel-Synthesis」は、LLMエージェントの並列処理における情報統合を直接キャッシュベースで行う手法で、初回応答時間を最大11倍短縮しつつ精度を維持することが示された。

米国の研究者らが発表した論文によると、大規模言語モデル(LLM)を複数のエージェントが並列稼働するワークフローに適用する際の根本的な非効率を解消する新技術「Parallel-Synthesis」が開発された。数学的推論、科学的質疑応答、コード生成、データベース診断など9種類のベンチマークで検証した結果、7つのデータセットで既存手法と同等以上の精度を達成しながら、初回トークン生成までの時間(TTFT)を2.5倍から最大11倍削減することに成功した。
従来のLLMエージェントシステムでは、複数のサブタスクを並列処理した後、それぞれの出力テキストを単純に連結して最終的な回答を生成するアーキテクチャが一般的であった。この方式では並列処理の構造が破棄されるうえ、連結されたテキストを再度読み込む「プリフィル計算」が冗長に発生し、処理遅延とコスト増大の原因となっていた。Parallel-Synthesisはこの問題を、各エージェントが生成したKVキャッシュ(注意機構の中間表現)を直接統合する手法で解決する。キャッシュのばらつきを補正する「キャッシュマッパー」と、非逐次的なキャッシュインターフェースに対応した微調整済みアダプターの組み合わせにより、テキスト変換を経ずに並列ブランチからの直接合成を可能にした。
この技術がもたらす事業上の影響は複数の業種にわたる。金融機関のリスク管理部門では、市場データの異常検知や複数シナリオのストレステストを並列で実行し、リアルタイムに統合判断を下すシステムへの適用が期待される。応答遅延の短縮は、アラート発報から意思決定までのサイクルタイムというKPIを直接改善する効果を持つ。
医療分野においても、電子カルテの解析、画像診断補助、薬剤相互作用チェックを独立したエージェントが並列処理し、その結果を医師向けのサマリーとして即時提供するワークフローに適合する。診断支援システムの応答速度向上は、外来診察における患者回転率や医師一人当たりの診察件数といった運用効率指標に影響を与える。
ITサービス企業やクラウドプロバイダーのAIインフラ部門にとっては、コスト削減の観点が重要である。LLMの推論コストはトークン処理量に比例するため、プリフィル計算の削減は直接的にAPI利用コストやGPUリソース消費量の低減につながる。大量のエージェントリクエストを処理するプラットフォームでは、同一のインフラ投資でスループットを大幅に向上させることが可能となる。
また、Parallel-Synthesisはプラグアンドプレイ型のフレームワークとして設計されており、既存のLLMエージェントシステムへの組み込みに際してアーキテクチャの大規模な変更を必要としない点も実用上の利点である。エンタープライズ向けAIプラットフォームを展開するソフトウェアベンダーにとっては、製品差別化の要素として組み込みやすい技術といえる。
課題として、キャッシュマッパーおよびシンセサイザーアダプターの学習には専用のトレーニングデータと計算リソースが必要であり、モデルのバージョンアップのたびに再学習が求められる可能性がある。また、9つのベンチマーク中2つでは既存手法にやや及ばない結果が示されており、タスクの種類によって効果に差異があることも考慮が必要である。
今後の展開として、研究チームはより大規模なエージェント数や長文コンテキストへの対応、および異種モデル間でのキャッシュ互換性の確保を課題として挙げている。LLMを基盤とした自律型AIエージェントの業務活用が加速するなか、推論効率の向上を狙った同様のアーキテクチャ研究が産学双方でさらに進展するとみられる。