動画AI評価、生成過程から直接判定可能に
京都大学らの研究チームが動画生成AIの品質評価を生成途中の「ノイズ状態」から直接実施できる手法「PRISM」を開発した。従来比で大幅な計算コスト削減が見込まれ、映像制作・広告業界のAI活用コスト構造を根本から変える可能性がある。

動画生成AIの品質評価は従来、生成が完了した最終映像をピクセル単位で分析する方式が主流であった。しかしこの手法は、拡散モデルによる生成プロセスとは切り離された評価となるうえ、VAE(変分オートエンコーダー)によるデコード処理に膨大な計算資源を要するという構造的な課題を抱えていた。
香港大学などの研究チームが発表した「PRISM」(拡散モデル中間状態における選好表現)は、この課題に正面から挑む手法である。動画拡散モデルがノイズを徐々に除去していく生成途中の「ノイズ付き潜在変数」から、映像としての品質優劣を直接判定する軽量なアーキテクチャを実現した。具体的には、拡散モデルの基盤部分を凍結したまま、クエリベースの集約ヘッドと呼ばれる小規模モジュールを追加するのみで選好信号を読み取る。
実験では、従来手法と比較して最高水準の選好精度を達成しつつ、ノイズへの高い耐性を示した。この耐性は「早期段階でのBest-of-Nサンプリング」を可能にする点で特に注目される。複数の動画候補を生成する際、デノイジング処理の最初期段階で質の低い候補を除外できるため、最終的な計算量を大幅に圧縮しながら出力品質を向上させることができる。さらに、生成モデルの生成性能が高いほど評価能力も向上するという正の相関が確認されており、モデルの自己改善サイクルへの応用も視野に入る。
ビジネス上のインパクトは主に三つの領域で顕在化すると見られる。第一は広告・マーケティング部門における制作コストの削減である。テレビCMやSNS向け動画広告の自動生成においては、複数の候補映像から最適案を選定するプロセスが必須となる。PRISMを活用すれば、選定に要するGPUコストを従来の数分の一に抑えられる可能性があり、制作本数あたりの単価低下につながる。CPCやCPMといった広告効率指標の改善にも間接的に寄与する。
第二はエンターテインメント・映像制作業界でのプロダクション効率化である。映画やゲームのコンセプト映像を大量生成してディレクターが選別する「AIコンテ生成」ワークフローでは、生成コストが活用規模の上限を決める要因となっている。生成初期での候補絞り込みが可能になれば、同一予算でより多くのバリエーションを試すことができ、クリエイティブの幅が広がる。
第三は企業内のAIインフラ運用コスト管理である。生成AIを自社サービスに組み込む企業のシステム部門では、推論コストの削減が重要なKPIとなっている。動画生成における不要な計算を早期に打ち切るPRISMの仕組みは、クラウドサービスの従量課金コストを直接圧縮する効果を持つ。
今後の展開として、PRISMが示した「生成能力と評価能力の正の相関」という知見は、動画生成AIの開発サイクル自体を短縮する可能性を持つ。モデルが自らの出力を評価しながら改善するフィードバックループが構築できれば、人手による評価データの収集コストも低減される。動画生成AIの商用化競争が激化するなか、評価効率の向上は製品開発速度と運用コストの両面で競争優位を左右する要素となる。