人間目線映像がロボット訓練データを凌駕
シンガポール国立大学などの研究チームが、一人称視点の人間行動映像でロボットAIを事前学習させると、高コストな遠隔操作ロボットデータを上回る性能が得られることを実証した。製造・物流業界のロボット導入コストを大幅に削減できる可能性がある。

シンガポール国立大学やMITらの共同研究チームは、身体化基盤モデルの事前学習において、人間の一人称視点映像(エゴセントリック動画)が遠隔操作による実ロボット軌跡データを性能面で上回ることを示した論文「HumanScale」を発表した。同量のデータで比較した場合、一人称動画で学習したモデルは実ロボット行動予測の検証損失が24%低下し、配布内タスクの成功率が52.5%、配布外タスクでは90%それぞれ向上した。
従来、産業用ロボットへのAI実装では、専門技術者が遠隔操作装置を用いてロボットを動かしながら軌跡データを収集する手法が主流であった。この手法は動作の精度が高い反面、1時間あたりの収集コストが数万円規模に上り、環境や行動パターンの多様性にも限界があった。製造ラインの変更や新製品への対応のたびにデータ再収集が必要となるため、スケールアップの障壁となっていた。
研究チームが提示する新たなパラダイムは「大規模な一人称動画で世界表現を学習し、少量のロボットデータで行動空間を調整する」という二段階アプローチである。一人称動画はスマートフォンやウェアラブルカメラで日常的に収集可能であり、調理・組立・搬送など多様な人間の作業動画が活用できる。同研究では独自のフィルタリングおよびラベリングパイプラインを設計することで、動画データの品質を担保している。
この知見が実用化された場合、製造業の生産技術部門への影響は大きい。自動車・電機メーカーでは、ロボットへの新工程導入時にデータ収集期間として数週間から数カ月を要することがある。一人称動画活用により、熟練作業員の作業映像を転用してロボット学習データとする手法が現実的となり、立ち上げリードタイムの短縮が期待できる。KPI換算では、ライン切替時のロボット再学習コストおよび停止時間の削減として計上できる。
物流・倉庫管理部門では、ピッキングロボットの対象SKU拡張が課題となっている。新商品が追加されるたびにロボットデータを収集する従来手法に対し、倉庫作業員の作業映像を活用することで、未知商品への汎化性能向上が見込まれる。アウトオブディストリビューション成功率90%向上という数値は、この文脈で特に注目に値する。
医療・介護分野においても応用余地がある。手術支援ロボットや介護補助ロボットの学習において、医師や介護士の作業映像をデータソースとすることで、専門家の動作パターンを効率的に転移できる可能性がある。
一方、課題もある。研究チームは映像フィルタリングの品質管理が性能を左右すると指摘しており、ノイズの多い映像をそのまま学習に用いた場合の効果は限定的となる。映像の著作権や作業者のプライバシーへの対応も、企業が実装を進める上で検討すべき法的論点となる。
自動化投資を加速させたい製造・物流各社にとって、本研究はロボット学習データの収集戦略を根本から見直す契機となりうる。高コストな専用機器によるデータ収集への依存を減らし、既存映像資産を活用するアプローチは、ROI改善に直結するものとして今後の実証事例が注目される。