AI×経営戦略

AIがストリーム入力中に推論、AdaSRが実用化

東京大学などの研究チームが、音声・映像などのストリーミング入力を受け取りながらリアルタイムで推論するAIフレームワーク「AdaSR」を発表した。応答遅延と精度を両立し、コールセンターや監視システムなど幅広い産業での実装を可能にする。

AIがストリーム入力中に推論、AdaSRが実用化
広告

大規模言語モデル(LLM)を活用したAI推論システムは従来、入力データをすべて受け取ってから処理を開始する「読んでから考える」方式を採用してきた。この方式は静的なテキスト処理には適しているものの、音声通話や映像監視など情報が連続的に流れ込む実環境では、応答遅延が大きくなるという根本的な制約があった。

研究チームが開発したAdaSR(Adaptive Streaming Reasoning)は、入力ストリームを受信しながら段階的に推論を実行し、ストリーム完了後に最終的な深い推論を行うという二段階の階層的アーキテクチャを採用している。さらに、いつ考えるか・どの段階にどれだけの計算資源を割り当てるかを動的に学習する仕組みを持つ点が従来手法と異なる。

最適化手法としては、独自に開発した「HRPO(Hierarchical Relative Policy Optimization)」を導入している。HRPOはストリーミング推論フェーズと深層推論フェーズに政策最適化を分解し、単一の系列レベルで報酬を均等配分する従来のRLHF手法と比較して、より細粒度の利得割り当てを実現する。フォーマット報酬・精度報酬・適応的思考報酬の三要素を統合することで、推論プロセスの妥当性確保、最終的なタスク性能の維持、および遅延を意識した計算配分の促進を同時に達成している。実験では教師ありファインチューニングのベースラインと比較して、推論精度・計算効率・ストリーミング遅延の三指標でバランスの取れた改善を確認した。

ビジネスへの影響は複数の産業にまたがる。コールセンター・カスタマーサポート部門では、オペレーターの発話途中からAIが応答候補を生成できるため、平均処理時間(AHT)の短縮と顧客満足度スコア(CSAT)の向上が期待できる。金融機関のコンプライアンス部門においては、取引映像や音声ログをリアルタイムで監視しながら異常検知を行うシステムへの応用が見込まれ、不正検出率および検出速度という二つのKPI改善に直結する。

医療分野では、手術室の映像をリアルタイムで解析しながら術中の異常状態を即座に警告するシステムへの応用が考えられる。現状の映像解析AIは録画後の事後処理が主流であるため、ストリーミング推論の実用化は患者安全指標の改善という観点で医療機器メーカーにとって差別化要素となり得る。製造業の品質管理部門でも、ライン映像をストリームで処理しながら不良品を検出する用途での活用が想定され、不良品流出率の低減に寄与する。

一方で、実装にあたっていくつかの課題も残る。HRPOによる学習には多段階の報酬設計が必要であり、各企業のユースケースに合わせたチューニングコストが発生する。また、ストリーミング推論の精度は入力の品質や雑音の影響を受けやすく、実環境への展開には追加の頑健性評価が求められる。コードはGitHubで公開されており、技術的な参入障壁は比較的低い。

動画・音声AIへの需要が高まる中、ストリーミング推論はLLM活用の次の主戦場となりつつある。今後は推論精度のさらなる向上とともに、エッジデバイスへの軽量化展開が商用化の鍵を握るとみられる。

出典: AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization, Junlong Tong, Wenqi Xu, Yingqi Fan, Anhao Zhao, Xuan Lu, Yang Tan, Xiaoyu Shen, arXiv:2606.14694v1

本記事はAIにより執筆され、Affectosphere Group が監修しています。

広告