AI×製造読了 約4

AI動画生成に3D幾何学を統合、RayPEが実用化へ

香港大学などの研究チームが、AIによる動画生成モデルに3次元空間の幾何学情報を組み込む新技術「RayPE」を発表した。映像制作や自動運転、不動産など複数産業のコスト構造を変える可能性がある。

AI動画生成に3D幾何学を統合、RayPEが実用化へ
広告

研究の概要

香港大学らの研究チームは、動画生成AIにカメラの3次元的な位置関係を正確に認識させる位置エンコーディング技術「RayPE」を開発した。論文はarXivにて公開されている。

従来の動画拡散モデル(Video Diffusion Transformer)は、映像フレーム内の各トークンを縦・横・時間軸の座標のみで管理していた。この方式はカメラが実際にどの方向を向き、どの位置から撮影しているかという3次元的な文脈を持たないため、複数フレーム間で視点が変化する場面でオブジェクトの形状や奥行きが破綻しやすいという根本的な課題があった。

RayPEはこの問題を、物理光学で用いられる「プリュッカー座標」と呼ばれる6次元の光線表現を活用して解決する。各トークンにカメラ光線の方向と位置を符号化した情報を付加し、Transformerの注意機構(Attention)のクエリとキーに加算的に注入する設計である。注目すべきは、この追加モジュールが既存の学習済みモデルのパラメータ数を0.1%未満しか増加させない点だ。ゼロ初期化により、導入直後は既存モデルの挙動を完全に維持しつつ、追加学習によって3D一貫性を段階的に獲得できる。

実験では、カメラ制御性の向上、フレーム間の3D空間一貫性の改善、動画品質全般の向上が確認された。

ビジネスへの示唆

この技術が事業に与える影響は、映像コンテンツ制作から産業シミュレーションまで幅広い。

映像・エンターテインメント業界では、ゲームのシネマティックシーンやVFX工程において、AIが生成するカメラワークの3D整合性が保証されることで、現状必要な手動修正コストの大幅削減が見込まれる。VFXスタジオのポストプロダクション部門では、フレーム修正工数という指標が改善対象となり、制作リードタイムの短縮に直結する。

自動運転・ロボティクス分野では、訓練用の合成データ生成において3D一貫性は不可欠である。現実と整合する仮想シーンの自動生成が精度向上すれば、実走行データ収集コストの低減と開発サイクルの加速が期待できる。研究開発部門のシミュレーションデータ生成コストとモデル精度(mAP等)が直接的なKPIとなる。

不動産・建築業界では、物件の内覧動画や設計案の3Dウォークスルー映像を低コストで自動生成できるようになる。マーケティング部門は、撮影スタッフや3DCGオペレータの稼働時間を削減しながら、コンバージョン率向上を目指せる。

RayPEの導入コストが低い理由として以下が挙げられる。

  • 既存の学習済みモデルへの追加学習で対応可能
  • 追加パラメータが全体の0.1%未満であるため推論コストの増加が軽微
  • SfM・SLAM・メトリックなど異なるカメラデータ形式に対応した正規化機構を内蔵

この低い移行コストは、すでに動画生成AIを業務に導入している企業にとって、アップグレードの経済合理性を高める要因となる。

今後の展望

RayPEの汎用性は、既存の大規模動画生成基盤モデルへの組み込みを現実的な選択肢にしている。OpenAIのSoraやGoogle DeepMindのVeo、あるいは中国勢の動画生成モデルなど、商用プラットフォームへの応用が今後の焦点となる。

企業が自社の動画生成パイプラインにRayPEを統合する場合、まず生成動画の3D一貫性を定量評価するベンチマーク整備が必要になる。次いで、保有するカメラキャリブレーションデータの品質がモデル精度に直結するため、データ管理体制の見直しも求められる。

生成AIによる映像制作の競争が激化するなか、3D空間の正確な表現能力は差別化の核心的要素となりつつある。RayPEのような幾何学的整合性を担保する技術は、単なる画質向上にとどまらず、産業用途への応用可能性を大きく広げるものである。

関連トピック

出典: RayPE: Ray-Space Positional Encoding for 3D-Aware Video Generation, Minghao Yin, Jiahao Lu, Wenbo Hu, Wang Zhao, Shan Ying, Kai Han, arXiv:2606.27345v1

本記事はAIにより執筆され、Affectosphere Group が監修しています。

同セクションの記事

広告