AIエージェントの推論コストを最大87%削減する新技術登場
浙江大学などの研究チームが、LLMエージェントの長期セッションにおける文脈管理を最適化する「TokenPilot」を発表した。推論コストを最大87%削減しつつ性能を維持し、企業のAI運用コスト構造を根本から変える可能性がある。

浙江大学を中心とする研究チームは、大規模言語モデル(LLM)エージェントの推論コストを大幅に削減する文脈管理フレームワーク「TokenPilot」を開発し、論文として公開した。実験では、連続モードにおいて最大87%のコスト削減を達成しており、企業のAIインフラ投資対効果に直接影響を与える成果として注目される。
LLMエージェントは、複数の作業ステップにわたって会話履歴や中間結果を蓄積しながら動作する。セッションが長くなるにつれてトークン数が増加し、APIコールのたびに処理コストが膨張するという構造的問題を抱える。既存の対策としてテキストの間引きや動的なメモリ削除が用いられてきたが、これらの手法はプロンプトの文字列構造を不規則に変化させるため、クラウド推論基盤が持つプレフィックスキャッシュを無効化し、かえってコストを増大させる副作用があった。
TokenPilotはこの矛盾を「二段階粒度の文脈管理」で解消する。グローバルレベルでは「Ingestion-Aware Compaction」と呼ばれる機構がプロンプトの冒頭部分を安定させ、外部環境から取り込む情報のノイズを入口段階で除去する。ローカルレベルでは「Lifecycle-Aware Eviction」が各文脈セグメントの残存有用性を継続監視し、タスクとの関連性が失われたと判断した時点でのみ段階的に削除する保守的スケジュールを採用する。この設計によりキャッシュの連続性を維持しつつトークン削減を両立させる。
性能評価はPinchBenchとClaw-Evalの二つのベンチマークで実施され、孤立モードでそれぞれ61%と56%、連続モードで61%と87%のコスト削減を達成した。従来システムと比較した性能劣化は軽微であり、コストと品質のトレードオフは実用水準にあるとされる。
ビジネスへの影響は複数の業界にわたる。金融業界では、AIエージェントを活用した長期的な顧客対応やポートフォリオ監視において、月次のAPI利用コストというKPIを直接改善できる。カスタマーサポート部門では、マルチターンの問い合わせ対応を担うエージェントの運用費を削減することで、AIチャット導入の損益分岐点を早期に達成しやすくなる。ヘルスケア分野では、電子カルテと連携して長期にわたる患者情報を参照するエージェントの実用化コストが下がり、導入障壁が低減する。
IT部門にとっても意義は大きい。生成AIシステムの総所有コスト(TCO)削減は経営層への導入承認を得やすくする根拠となり、AI推進部門の予算交渉における交渉力を高める。トークン使用量や推論コストを主要KPIとして管理するMLOpsチームは、TokenPilotの導入によりインフラ最適化の指標を大幅に改善できる。
フレームワークはオープンソースライブラリ「LightMem2」に統合済みであり、即時の検証と段階的な本番導入が可能な状態にある。今後は自律型AIエージェントの普及とともに長期セッション管理の重要性が増すと見られ、コスト効率を重視する企業にとって早期評価の価値がある技術といえる。