3D幾何推論で汎用ロボット制御精度が向上
ソウル大学などの研究チームが、3次元空間の幾何学的理解を活用した新たなロボット制御モデル「GAM」を発表した。製造・物流現場での複雑な接触作業の自動化精度を高め、産業用ロボット導入の経済性を大きく改善する可能性がある。

ソウル大学、スイス連邦工科大学チューリッヒ校(ETH Zurich)などの国際研究チームは、言語指示に従いながら3次元空間の物体配置や接触を高精度で推論できるロボット制御モデル「Geometric Action Model(GAM)」を開発した。論文はarXivで公開されている。
現行の視覚言語行動モデル(VLA)や映像世界モデル(WAM)は、大規模基盤モデルの意味的・時系列的な学習成果を活用する一方、2次元画像フレームを主な入力としているため、部品の把持や組み付けといった接触を伴う精密作業に必要な3次元幾何情報の扱いが暗黙的にとどまっていた。この制約が、現場での作業失敗率や再調整コストの高止まりにつながっていると研究チームは指摘する。
GAMは、事前学習済みの幾何基盤モデル(GFM)を知覚・時系列予測・行動デコードの共通基盤として再利用する設計を採用した。GFMを中間層で分割し、浅い層を観測エンコーダとして用いる一方、分割点に因果的未来予測器を挿入することで、言語指示・固有感覚・行動履歴を条件とした将来の潜在トークンを生成する。予測されたトークンは残りのGFMブロックを通じて伝播・デコードされ、単一のバックボーンが将来の幾何情報と制御行動を同時に出力する仕組みとなっている。シミュレーションおよび実機のベンチマーク群において、同規模の基盤モデルベースラインと比較して精度・堅牢性・推論速度・モデルサイズの全指標で優位性が示された。
ビジネス上の影響は製造業に特に大きい。自動車・電機メーカーの生産技術部門では、ネジ締めや基板実装など接触を伴う工程の自動化が長年の課題であった。GAMが示す3D幾何推論の強化は、こうした工程における作業成功率(タスク完了率)や段取り替え時間というKPIの改善に直結する。従来モデルでは困難だった多品種少量生産ラインへの適用可能性も広がる。
物流・倉庫管理部門でも恩恵が見込まれる。不定形荷物のピッキング失敗率はオペレーション効率の主要指標であり、3次元的な把持推論の向上はピッキング精度の改善と人的補完コストの削減につながる。eコマース需要の拡大を背景に自動化投資を加速させている物流事業者にとって、ROI算出の前提となる作業信頼性の向上は導入判断を後押しする材料となる。
医療機器・精密機器メーカーの研究開発部門においても、GAMの軽量かつ高速な推論特性は実験自動化ロボットへの組み込みを容易にする。創薬プロセスにおける液体分注や標本操作など、微細な接触制御が求められる作業の自動化が現実味を帯びる。
コスト面では、単一バックボーンによる設計がモデルの軽量化と高速化を実現しており、エッジコンピューティング環境での運用コスト削減にも貢献する。クラウド依存度を下げることで、通信遅延に敏感なリアルタイム制御への適用も現実的となる。
今後の課題として、実環境での長期安定性検証や多様なロボット機構への汎化性能の確認が挙げられる。研究チームはオープンソース公開を視野に入れており、産業界による応用開発が加速する見通しである。ロボット自動化市場が拡大するなか、幾何推論を基盤とした制御モデルは次世代産業ロボットの標準技術候補として注目される。