AI×製造

AI動画理解、能動的推論で精度と効率を両立

香港中文大学などの研究チームが、長時間動画を必要な箇所だけ選択的に解析するAIエージェント「OmniAgent」を発表した。処理コストを動画の長さから切り離すことで、監視・製造・メディア分野の業務変革につながる可能性がある。

AI動画理解、能動的推論で精度と効率を両立
広告

香港中文大学とアリババグループの研究者らが共同で開発したAIエージェント「OmniAgent」は、長時間動画の理解において従来モデルが抱えてきた根本的な課題を解決する手法を提示した。論文はarXivで公開されている。

従来の動画理解AIは「全フレーム一括処理」の方式を採用しており、動画が長くなるほど計算コストが線形に増大する構造的な問題を抱えていた。1時間を超える監視カメラ映像や製造ラインの記録映像を解析する場合、膨大な計算資源が必要となり、リアルタイム運用の妨げとなっていた。

OmniAgentはこの問題を「部分観測マルコフ決定過程(POMDP)」に基づく反復的な「観察・思考・行動」サイクルとして再定式化することで克服した。AIが質問の難易度や重要度を判断しながら、必要な音声・映像の手がかりだけを選択的に抽出してテキスト形式の記憶に蓄積する仕組みである。これにより推論の複雑さが動画の長さに依存しなくなる。

性能面でも注目すべき成果が報告されている。10のベンチマークで既存のオープンソースモデルを上回る最先端の精度を達成したほか、長時間動画評価の標準的な指標であるLVBenchでは、70億パラメータの本モデルが10倍以上大きな720億パラメータのQwen2.5-VL-72Bを上回った(50.5%対47.3%)。推論ターン数を増やすほど性能が向上する「テスト時スケーリング」の特性も確認されており、計算資源の投入量に応じた精度向上が期待できる。

ビジネス上の影響は複数の産業分野に及ぶ。製造業においては、品質管理部門が生産ラインの長時間記録映像から不良発生の瞬間だけを効率的に特定できるようになり、検査工数の削減と不良品流出率(エスケープ率)の低下が見込まれる。従来は専任オペレータが目視確認していた工程の自動化が現実的なコスト水準で実現する可能性がある。

小売・流通業では、店舗内の防犯カメラや物流センターの作業映像を対象に、異常検知の精度向上と誤検知率の削減が期待される。警備人員の配置最適化や事故対応の迅速化といったKPIに直接影響する。

メディア・エンターテインメント業界では、映像ライブラリのメタデータ自動生成やコンテンツモデレーションへの応用が考えられる。数時間に及ぶ収録映像から特定のシーンを抽出する編集支援ツールとして活用すれば、ポストプロダクション工程の人件費削減と納期短縮が実現する。

法務・コンプライアンス部門にとっても潜在的な恩恵は大きい。訴訟対応や社内調査において、大量の会議録画や監視映像から証拠となる場面を効率的に特定する作業に活用できる。現状では法務担当者や外部弁護士が多大な時間をかけて行っているeディスカバリー作業の効率化につながる。

技術的な実用化に向けた課題も残る。本研究はオープンソースモデルとしての公開を前提としており、企業が自社環境に導入するためには、学習データの整備やシステム統合に一定の初期投資が必要となる。また、音声と映像を統合的に処理するオムニモーダルの特性を活かすには、音声データの品質管理体制を整える必要がある。

研究チームは強化学習手法「TAURA」を用いて、エージェントが「重要な発見を行うターン」への信用割り当てを適切に学習できるよう設計しており、この手法が商用サービスへの応用においても安定した動作を支える基盤となると見られる。動画解析AIの計算効率と精度を同時に高めるこのアプローチは、企業のAI投資対効果(ROI)改善の観点から今後注目を集める技術となりそうだ。

出典: Native Active Perception as Reasoning for Omni-Modal Understanding, Zhenghao Xing, Ruiyang Xu, Yuxuan Wang, Jinzheng He, Ziyang Ma, Qize Yang, Yunfei Chu, Jin Xu, Junyang Lin, Chi-Wing Fu, Pheng-Ann Heng, arXiv:2606.19341v1

本記事はAIにより執筆され、Affectosphere Group が監修しています。

広告