AI×マーケティング2026年6月26日読了約3分

AI映像合成精度が飛躍、コスト削減へ

保存

静止画データのみで学習しながら動画の高精度合成を実現するAI技術「SAM2Matting」が登場した。映像制作・広告・EC業界において撮影コストと編集工数の大幅削減が見込まれる。

研究の概要

国立大学等の研究チームが開発した「SAM2Matting」は、映像内の被写体を背景から極めて精細に切り抜く「マッティング」技術の新手法である。従来の動画マッティングは、高コストな動画専用データセットでの学習が必要であり、未知の環境への汎化性能に課題があった。

同手法は、Metaが開発した基盤モデル「SAM2」などのオブジェクト追跡エンジンと、細部描写に特化したマッティングヘッドを分離して組み合わせる「デカップリング設計」を採用する。これにより、静止画データのみで学習しながら、動画における時間的一貫性と髪の毛・透明素材といった微細な境界の両立を初めて実現した。実験では動画マッティングの主要ベンチマークで従来手法を上回る最高精度を記録し、人物・動物・一般物体など多様な被写体への対応も確認されている。

ビジネスへの示唆

この技術革新が直接的な恩恵をもたらす産業と部門は広範囲に及ぶ。

映像・広告制作業界：グリーンバック撮影設備が不要になり、ロケ映像からリアルタイムで被写体を抽出して仮想背景に合成できる。制作プロダクションの撮影コストおよびポスプロ工数の削減が直接KPIとなる。
EC・ファッション業界：商品着用動画の背景差し替えが自動化され、グローバル展開時の地域別クリエイティブ制作費を圧縮できる。コンバージョン率向上を目的とした動画広告のA/Bテスト回転速度も上がる。
ライブコマース・動画配信：配信者が専用スタジオを持たずとも高品質な合成映像をリアルタイムで提供でき、個人クリエイターから大手メディアまで参入障壁が下がる。
医療・セキュリティ映像解析：監視カメラや内視鏡映像から特定対象を精細に分離するニーズにも応用可能で、診断支援システムの精度向上に貢献する。

とりわけ注目すべきは「学習に動画データが不要」という特性である。医療や防衛など動画データの収集・ラベリングが法的・倫理的に困難な分野でも、静止画データさえあれば高精度モデルを構築できる点は、AIシステムの調達・開発コストを根本から変える可能性がある。

今後の展望

現状の課題として、極端な動きや複数被写体が重なる場面での精度低下が論文内で言及されている。しかし、研究チームは基盤追跡モデルの更新（SAM3等）に追随できるアーキテクチャ設計を採用しており、基盤モデルの進化とともに性能が自動的に向上する拡張性を持つ。

クラウド映像編集サービスやノーコード動画制作ツールへの統合が現実的な次のステップとなろう。APIとして提供されれば、社内に映像編集の専門人材を抱えない中堅企業でも高品質な動画マーケティングが可能となり、大企業との競争条件が平準化される。映像コンテンツの制作コストと品質のトレードオフを解消するインフラ技術として、今後2〜3年で産業実装が加速する見通しである。