AI、複数人動作データを自動修正
京都大学らが開発したMOCHIは、複数人が物体を共同操作する動作データのノイズを自動修正する技術である。製造業や医療、エンタメ分野でのAI訓練データ取得コストを大幅に削減する可能性がある。

複数の人間が一つの物体を協調して扱う動作——例えば重い資材を二人で運ぶ、患者を複数の医療スタッフが移送する——のデジタルデータ収集は、これまで極めて困難な作業であった。手と物体の接触点のズレ、動きの揺れ、指の関節情報の欠損といったノイズが不可避的に生じるためである。
Leeらが発表した「MOCHI(Motion Enhancement of Collaborative Human-object Interactions)」は、こうした欠陥データを二段階の処理で自動修正するフレームワークである。第一段階では拡散モデルを応用した最適化手法により、ノイズを含む身体入力から物理的に妥当な把持動作を生成する。第二段階では単人用の動作事前分布を活用しつつ、人間同士および人間と物体の相互作用情報を最適化目標として組み込み、全参加者の全身動作を一括して精緻化する。実験では既存のモーションキャプチャデータおよび生成AIが合成したデータの双方で有効性が確認された。
この技術がもたらすビジネス上の直接的な恩恵は、まず製造・物流業界において顕著である。産業用協働ロボット(コボット)の開発において、人間作業者との協調動作を学習させるための高品質な訓練データは長年の課題であった。従来はモーションキャプチャスタジオでの長時間の収録と専門家による手動修正が必要であったが、MOCHIを活用することでデータ整備工数を大幅に削減できる。製造業の研究開発部門では、AIロボット訓練データの収集・精製にかかるコストと期間という二つのKPIに直接影響する。
医療・介護分野でも応用が期待される。複数のスタッフが患者を移乗させる動作のデータは、介護支援ロボットや手術支援システムの開発に不可欠である。しかし患者が介在する実環境での大規模データ収集は倫理的・実務的制約が大きい。MOCHIがノイズの多い少量データから高品質なデータを生成できるならば、医療機器メーカーの開発部門は収録コストを抑えながらモデルの精度向上という相反する目標を同時に追求できる。
ゲーム・映像コンテンツ産業においては、MOCHIが提供する「キーフレームベースのMHOI生成」機能が注目される。アニメーターは特定の姿勢を数点指定するだけで、複数キャラクターが物体を協調して扱う自然なモーションシーケンスを生成できる。キャラクターアニメーション制作におけるリビジョン回数および制作日数の削減が見込まれ、ゲームスタジオや映像プロダクションの制作コストKPIを改善する余地がある。
加えて本研究は、物体形状を変えることでデータ拡張が可能であることも示している。これはEコマース企業の商品ビジュアライゼーション部門にとっても有用であり、異なる形状・サイズの商品を扱う動作映像を低コストで大量生成し、購買率向上施策に活用できる。
課題としては、本技術が依然として初期のモーションキャプチャデータを入力として必要とする点が挙げられる。完全な合成データのみでの動作生成精度については引き続き研究が必要であり、商用展開には実環境での検証が求められる。また計算コストについても実用化に向けた最適化が今後の焦点となる。