動画編集AI「Goku」、200万件データで精度8%向上
中国科学技術大学らの研究チームが、200万件の高品質動画編集ペアを含む大規模データセット「Goku」を公開した。指示ベースの動画編集精度が最大8%向上し、映像制作・広告・EC業界のコンテンツ制作コスト削減に直結する可能性がある。

研究の概要
中国科学技術大学らの研究チームは、指示ベースの動画編集に特化した大規模データセット「Goku」と、それを活用したモデル「Goku-Edit」を発表した。既存の動画編集AIは外観変更など単一タスクに限定されており、実務で求められる複雑な編集指示への対応が課題であった。
Gokuデータセットは200万件の高品質な動画編集ペアで構成され、外観変更にとどまらず被写体の動き制御といった構造的操作まで対応範囲を拡張した初めての試みである。データ合成においては、複雑な編集処理を制御可能なサブ問題に分解するパイプラインを採用し、段階的フィルタリングシステムによりデータの信頼性を担保している。
モデル設計では、複雑な編集指示を深く理解するため**MLLM(マルチモーダル大規模言語モデル)をテキストエンコーダとして採用した。また、構造制御を専任するマスクブランチと外観レンダリングを担うメインブランチを分離した「デカップルド・デュアルブランチ設計」により、処理の干渉を防ぐ。評価ベンチマーク「Goku-Bench」では1,000件の人間検証済みテストケースと7種の独自指標を整備し、既存オープンソースモデルと比較して指示追従性能が最大8%**向上することを確認した。
ビジネスへの示唆
この技術が実用化された場合、影響が特に大きい業界・部門は以下の通りである。
- 広告・マーケティング部門: テレビCMやデジタル広告の差し替え編集を自動化し、制作リードタイムとエージェンシーへの外注費を削減できる。キャンペーンごとにターゲット層に合わせた動画バリエーション生成が低コストで実現し、広告ROIの向上が見込まれる。
- EC・リテール業界: 商品プロモーション動画の背景変更や被写体の動き調整をシステム内で完結させることで、撮影コストを抑えつつ季節・地域別のコンテンツローカライズが可能になる。掲載コンテンツの更新頻度向上はコンバージョン率改善に寄与する。
- 映像・エンターテインメント制作: ポストプロダクション工程における人手による細部修正を自動化し、VFXスタジオや放送局の制作工数を削減する。特に被写体の動き制御という新機能は、従来モーションキャプチャや追加撮影が必要だった場面での代替手段となり得る。
- 人材・研修部門: 企業向けeラーニング動画を既存素材から低コストで多言語・多シナリオ展開する際の編集自動化に活用できる。
導入効果の主要KPIとしては、動画制作コスト削減率、コンテンツ制作リードタイム短縮、広告クリエイティブのA/Bテスト実施件数増加などが挙げられる。
今後の展望
GokuおよびGoku-Editはオープンソースとして公開される見通しであり、商用プラットフォームへの統合が現実的な選択肢となってきた。動画生成AI市場は2030年代にかけて急成長が予測されており、データセット規模と評価基準の整備はエコシステム全体の底上げにつながる。
一方、自動生成された編集動画の著作権帰属やフェイク映像への悪用リスクは依然として未解決の課題である。企業が導入を検討する際には、法務・コンプライアンス部門と連携したガバナンス体制の整備が不可欠となる。技術の成熟と規制整備が並走する形で、動画コンテンツ制作の産業構造は今後数年で大きく変容するとみられる。
関連トピック
同セクションの記事
表情認識AIが進化、感情分析に新手法
ViTベースの動画モデルに追加学習なしで組み込める表情認識フレームワーク「MiRA」が発表された。小売・金融・医療など感情データを業績指標に連動させる企業に直接影響を与える技術革新である。

AI作曲システムが商用水準に迫る
中国の研究チームが発表したAI楽曲生成システム「LeVo 2」が、専門家による聴取評価で商用サービスに匹敵する品質を達成した。音楽制作コストの大幅削減と、広告・ゲーム・映像産業のコンテンツ制作工程の再編につながる可能性がある。

AI画像生成の精度向上技術、DEFARが登場
清華大学らの研究チームが、生成AIの推論精度を自己修正するフレームワーク「DEFAR」を発表した。学習と推論の乖離という構造的欠陥を内部信号だけで補正し、高品質な画像生成の安定性と拡張性を大幅に高める。
