映像×音声AI、推論精度が20%向上
動画と音声を統合的に理解するAIの学習データセット「OmniVideo-100K」が公開された。映像監視や広告分析など、音と映像の関係性を問われる業務領域で大幅な精度向上が見込まれる。

中国科学院と廈門大学の研究チームは、動画中の音声と映像を横断的に推論するAIモデル向け学習データセット「OmniVideo-100K」を構築し、その有効性を実証した。既存のモデルに対するファインチューニングで最大20.59%の性能向上を確認しており、産業応用への道を大きく開くものである。
従来の動画QA(質問応答)システムは「映像キャプション化→QA生成」という二段階処理を採用してきた。この方式では動画を短いクリップに分割し、音声と映像をそれぞれ独立して記述するため、音と映像の発生源の対応関係が断絶される問題があった。また、クリップをまたいで同一の人物や物体が異なる表現で記述されるなど、整合性の欠如も課題となっていた。
研究チームが提案したのは二つの革新的な機構である。第一の「エンティティ固定型映像スクリプト化」は、動画全体を要約・主要エンティティ一覧・区間ごとの音視覚記述で構成された構造化スクリプトに変換する。エンティティ一覧をグローバルな事前情報として活用することで、クリップをまたいだ参照の一貫性を確保し、音声と映像の対応関係を再構築する。
第二の「手がかり誘導型QA生成」は、スクリプトからクリップをまたぐ複数モーダルの手がかりをモデルに抽出させ、その高品質な手がかりに基づいてQAペアを生成する。これにより、長期的な時系列を考慮した深度ある質問が自動生成可能となる。同データセットを用いてVITA-1.5、Qwen2.5-Omni-7B、Qwen3-Omni-30Bをファインチューニングした結果、既存ベンチマークであるDaily-OmniおよびJointAVBenchにおいても最大12.64%の汎化性能向上が確認された。
ビジネスへの影響は複数の業種に及ぶ。小売・流通業では、店頭カメラと音声センサーを組み合わせた顧客行動分析に活用できる。顧客が商品を手に取る動作と発話内容を紐づけて解析することで、商品配置の最適化やコンバージョン率(CVR)向上に寄与する。
メディア・広告業においては、テレビCMや動画広告のブランド安全性確認(ブランドセーフティ)審査の自動化が期待される。音声と映像が意図せず不適切な組み合わせになっていないかをAIが自動検出することで、審査担当者の工数を削減し、掲載ミスによるブランド毀損リスクを低下させる。KPIとしては審査処理時間の短縮と誤掲載件数の削減が挙げられる。
セキュリティ・警備業では、監視カメラ映像と周辺音響を統合した異常検知の精度向上に直結する。従来は映像単独で不審者を検出していたが、音声との複合的な分析により誤検知率を下げ、警備員の対応工数を最適化できる。
コンテンツ制作・放送業においては、長尺動画の自動インデックス化や字幕・メタデータ生成の品質向上に貢献する。音声発話と映像上の話者を正確に対応付けることで、多言語字幕の整合性が高まり、字幕制作コストの削減につながる。
今後の課題としては、実運用環境での音声品質のばらつきへの対応や、日本語を含む多言語への拡張が求められる。研究チームはOmniVideo-Testとして人手検証済みのテストセットも公開しており、産業界が独自データで評価を行う際の基盤として活用可能である。音視覚AIの実用化競争は今後さらに加速するとみられ、データ品質と推論深度を両立するアーキテクチャの確立が業界の焦点となろう。