AI×製造2026年6月24日読了約4分

画像1枚でAIが人体動作を生成、XR・ロボ開発を変革

保存

米独欧の研究チームが、参照画像から人と物体の自然なインタラクション動作を自動生成するAIシステム「IMAGIN-4D」を発表した。キャラクター制作やロボット訓練の工数を大幅に削減できる可能性がある。

米独欧の研究機関の共同チームは、1枚の参照画像を入力とするだけで、人間と物体の複雑なインタラクション動作を自動生成する拡散モデルベースのシステム「IMAGIN-4D」を発表した。テキスト指示や軌跡情報と組み合わせることで、把持の仕方、接近角度、身体姿勢、物体との接触点にいたる細部を画像に忠実に再現した動作シーケンスを出力できる。

従来の人物動作生成システムは、テキストや軌跡ウェイポイントのみを条件として使用していたため、同一の指示でも把持姿勢や体の向きが毎回異なるという「指定の曖昧性」という課題があった。IMAGIN-4D はこの問題を「空間的条件付け」と「時間的条件付け」の二軸で解決する。空間的条件付けでは、参照画像から身体姿勢・物体姿勢・接触状態・空間配置を個別トークンとして抽出する。時間的条件付けでは、生成するフレームごとに画像の異なる領域に注目する「フレーム認識トークン」を計算し、動作の各段階が画像内の関連する視覚的手がかりを参照できるよう設計されている。テキスト、ウェイポイント、インタラクション状態トークンには独立したAdaLNストリームを、フレーム認識視覚トークンにはクロスアテンション機構をそれぞれ割り当てる「役割認識条件付け」により、複数の条件信号が干渉せずに機能する。

ゲーム・映像制作業界への影響は直接的かつ大きい。大手ゲームスタジオやCGプロダクションでは、キャラクターが道具や家具などの小道具を操作する動作の制作に、モーションキャプチャーセッションや熟練アニメーターによる手作業修正が不可欠であった。IMAGIN-4D を活用すれば、ディレクターはコンセプトアート1枚を参照画像として与えるだけで、意図した把持動作や身体レイアウトを再現したアニメーションを自動生成できる。アニメーター一人当たりの制作コンテンツ量を示すKPI「アニメーション生産性」や、プロジェクト全体の「コンテンツ制作リードタイム」の大幅な改善が見込まれる。

ロボティクス分野では、産業用ロボットや家庭用サービスロボットの訓練データ生成コストの削減に直結する。現在、物体把持や人間との協調作業を学習させるための動作データ収集は、実機による試行錯誤や専用スタジオでの収録に多大なコストがかかる。同システムを用いれば、作業イメージ画像から合成訓練データを大量生成でき、ロボット開発部門の「訓練データ取得コスト」と「新タスク対応までの開発期間」を圧縮できる。製造業の生産技術部門やロジスティクス企業のオートメーション推進部門が早期の受益者となるだろう。

AR・VR領域では、メタバースプラットフォームや没入型トレーニングシステムを開発する企業が恩恵を受ける。社員教育向けVRコンテンツの制作において、特定の機器操作手順を示す参照画像さえあれば、リアルなハンズオン動作シーンを低コストで量産できる。人材開発部門が管理する「研修コンテンツ制作単価」の削減効果が期待される。

研究チームはコードとモデルの公開を予告しており、オープンソース化が実現すれば中小規模の開発スタジオやスタートアップも同技術を利用できる環境が整う。一方、生成された動作の細部品質やリアルタイム処理への対応については引き続き開発が必要であり、商用製品への組み込みには追加の検証工程が求められる段階にある。