AI動画生成、被写体忠実性と柔軟性を両立
中国の研究チームが発表した「DomainShuttle」は、指定した被写体の特徴を保ちながら異なるスタイルや世界観の動画を自動生成する技術で、広告・EC・エンタメ業界のコンテンツ制作コストを抜本的に変える可能性がある。

研究の概要
被写体駆動型テキストto動画生成(S2V)とは、参照画像として与えた商品・人物・キャラクターの外見的特徴を維持しつつ、テキスト指示に従って動画を自動生成する技術である。従来手法は「同一ドメイン内での忠実な再現」に特化しており、アニメ調や油絵調といった異なるスタイルへの応用、いわゆるクロスドメイン生成では品質が大きく劣化する課題を抱えていた。
DomainShuttleはこの課題を三つの技術的工夫で解決した。第一に「Domain-MoT」と呼ぶドメイン対応モジュールで、動画と参照画像の特徴を分離しながらもドメイン固有の表現を学習する。第二に「Video-Reference DualRoPE」スキームにより、参照画像トークンと動画トークンをそれぞれ独立した空間座標系に配置し、被写体の位置や形状を正確に制御する。第三に「Cross-Pair Consistent Loss」という損失関数で、照明や背景など被写体と無関係な要素の影響を排除し、本質的な特徴のみを抽出する。これらの組み合わせにより、同一ドメインでの高い忠実度と、クロスドメインでの高い生成柔軟性を同時に実現した。
ビジネスへの示唆
この技術が最も直接的な恩恵をもたらすのは、コンテンツ制作コストと制作期間がKPIとして重視される以下の領域である。
- EC・小売業のマーケティング部門: 商品画像一枚から、リアル・アニメ・3DCGなど複数スタイルの動画広告を自動生成できる。撮影費や編集工数の削減が見込まれ、広告制作費の30〜50%圧縮も現実的な目標となる。
- ゲーム・エンターテインメント: 既存キャラクターのデザインを維持しつつ異世界観のシーンを動画化でき、IP展開の速度を高められる。
- 広告代理店のクリエイティブ部門: A/Bテスト用に多様なスタイルバリエーションを短時間で量産でき、クリエイティブのPDCAサイクルを加速させる。
- ファッション・ビューティー: 実物サンプルなしにバーチャルモデルで新商品の着用動画を作成し、シーズン前のマーケティング施策を前倒しできる。
特に注目すべきは、従来は「被写体の忠実な再現」か「クロスドメインの柔軟性」かという二項対立が制作ワークフローを制約していた点である。DomainShuttleはこのトレードオフを技術的に解消しており、一つのモデルで複数のユースケースに対応できる汎用性が実務採用のハードルを下げる。
今後の展望
現時点ではアカデミアの研究段階にあるが、同技術の商用化が進めば、映像制作プラットフォームや生成AI APIサービスへの統合が加速するとみられる。日本国内では、広告主がコンテンツ内製化を強化する動きが続いており、こうしたS2V技術はその流れを後押しする基盤インフラとなり得る。
一方、著作権・肖像権への対応や、生成動画の品質保証プロセスの整備は引き続き課題であり、法務部門・コンプライアンス部門との連携が商用展開の前提条件となる。競合他社との差別化を動画マーケティングに求める企業は、本技術の動向を注視すべき局面に入っている。
同セクションの記事
購買履歴の時間間隔を相対化、推薦精度が向上
ユーザーの行動履歴における時間間隔を商品ごとに相対評価する推薦フレームワーク「TRUST」が発表された。既存手法の根本的な仮定を覆し、ECや動画配信の推薦精度向上に直結する成果として注目される。

AI画像編集、領域指定ドラッグで精度向上
拡散モデルを用いた新たな画像編集技術「ICRDrag」が登場した。領域単位での直感的な形状変形を高精度で実現し、製造・広告・EC業界のビジュアル制作コスト削減に直結する可能性がある。

生成AI新手法、画質と効率を両立
南京大学などの研究チームが画像生成AIの新フレームワーク「MIMFlow」を発表した。従来比32.8%の性能向上を達成しつつ処理トークン数を半減させており、コスト削減と品質向上の同時実現が企業の生成AI活用を加速させる可能性がある。
