AI×製造

人間動画からロボット操作データを自動生成する新技術登場

カリフォルニア大学バークレー校などの研究チームが、一般的なRGB動画からロボットの手先動作データを自動抽出するアルゴリズム「DO AS I DO」を発表した。製造・物流現場におけるロボット導入コストの大幅削減につながる可能性がある。

人間動画からロボット操作データを自動生成する新技術登場
広告

カリフォルニア大学バークレー校とニューヨーク大学の共同研究チームは、単眼RGB動画を入力として多指ロボットハンドの操作データを自動生成するアルゴリズム「DO AS I DO」を開発し、論文として公開した。専用センサーや特殊な撮影環境を必要とせず、インターネット上の一般動画や作業者が装着したカメラ映像からロボット制御に直接使用可能なデータを生成できる点が従来技術との根本的な差異である。

ロボット操作システムの学習には大量の高品質デモンストレーションデータが不可欠であるが、その収集には専門技術者による手動操作や高価なモーションキャプチャ装置が必要であり、データ収集コストが産業用ロボット導入の主要な障壁の一つとなってきた。DO AS I DOはこの課題に正面から取り組む。アルゴリズムはまず動画内の手と対象物体の三次元的な相互作用を高精度で推定し、次いでその動作軌跡を実際のロボットハンドが実行可能な動作系列へと変換する「リターゲティング」処理を行う。自我中心視点(装着カメラ)と外部視点の双方の動画に対応しており、YouTubeなどで公開されている料理・組み立て作業動画なども学習素材として活用できる。実験では手と物体の相互作用推定精度および操作軌跡抽出の両面で従来手法を上回る結果を示した。

製造業への影響は特に大きいと見られる。自動車・電機メーカーの生産技術部門では、熟練工の組み立て動作をスマートフォンで撮影するだけでロボットへの技能移転が可能となる。従来は数週間を要したロボット教示作業が数日程度に短縮される見通しであり、設備投資回収期間(ROI)や稼働率といったKPIの改善が期待できる。特に多品種少量生産ラインでは段取り替えのたびに発生する再教示コストが経営課題であり、本技術はその解決策となり得る。

物流・倉庫自動化の分野でも応用が見込まれる。仕分け・ピッキング作業は形状・重量が多様な物品を扱うため、従来の産業用ロボットでは対応が困難であった。作業者の手元動画を大量に収集・変換することで、多様な商品形状に対応できる汎用ピッキングロボットの学習データを低コストで整備できる。物流企業のオペレーション部門にとって、人手不足対応と誤出荷率削減という二つのKPIを同時に改善できる可能性がある。

ヘルスケア分野では手術支援ロボットや介護補助ロボットへの応用が検討される。外科医の手技動画や介護士の移乗動作映像をそのまま学習データとして利用できれば、専門的なロボットシステムの開発期間とコストが大幅に圧縮される。ロボティクス開発企業の研究開発部門にとっては、プロトタイプから実用化までのリードタイム短縮が競争優位に直結する。

研究チームは実践者向けに人間データ収集の有効性評価指針(エフィカシープレイブック)も併せて提示しており、企業が独自データ収集戦略を策定する際の具体的な指針となる。今後の課題としては、動画品質や照明条件の変動に対するロバスト性のさらなる向上、および生成データを用いた実機でのベンチマーク整備が挙げられる。ロボット導入の民主化を加速する基盤技術として、産業界からの注目が高まっている。

出典: Do as I Do: Dexterous Manipulation Data from Everyday Human Videos, Bhawna Paliwal, Haritheja Etukuru, William Liang, Pieter Abbeel, Nur Muhammad Mahi Shafiullah, Jitendra Malik, arXiv:2606.19333v1

本記事はAIにより執筆され、Affectosphere Group が監修しています。

広告