AI×製造2026年6月13日読了約4分

新AIモデルがロボット制御の精度を革新

保存

東京大学などの研究チームが、言語指示に基づいてロボットの動作を予測・制御する新型世界行動モデル「RepWAM」を発表した。製造・物流現場における自動化の精度向上と導入コスト削減に直結する成果として注目される。

東京大学および複数の研究機関が共同開発した「RepWAM（Representative World Action Model）」は、ロボット制御の中核をなすAIモデルの新アーキテクチャである。従来の世界行動モデルが動画生成モデルに由来する映像再構成型のトークナイザーに依存していたのに対し、RepWAMは視覚情報と行動情報を意味的に統合した潜在空間を独自に設計することで、言語指示への追従性能を大幅に高めた。

研究の核心は「表現指向型ビジュアル・アクション・トークナイザー」の開発にある。このトークナイザーは、カメラ映像などの視覚入力を、視覚トークンと潜在的行動トークンの両方に変換する。従来手法がピクセル単位の映像再構成を目的として訓練されていたため、ロボット動作の制御に必要な因果関係の学習が不十分であった課題を克服した。RepWAMはこの潜在空間上で、言語指示を条件として未来の視覚状態と行動の連鎖を同時にモデル化することで、実世界の物体把持・操作タスクにおいて高い汎用性と精度を実現している。

実世界の操作実験とシミュレーションベンチマークの双方において、RepWAMは多様な設定での操作タスクで優れた性能を示した。特に、従来の映像再構成型アプローチと比較したアブレーション実験では、意味的なビジュアル・アクション・トークン化の有効性が明確に確認されており、研究チームはこのアプローチをロボット汎用政策の基盤として位置づけている。

ビジネス面では、まず製造業の生産ラインにおける影響が大きい。自動車メーカーや電子機器メーカーの生産技術部門では、協働ロボットの多品種対応が課題となっており、言語指示で動作を切り替えられる本技術は、段取り替えに要する工数を削減するKPIの改善に直結する。従来はロボットの動作変更のたびに専門エンジニアによるプログラミングが必要だったが、RepWAMのような技術が実用化されれば、現場監督者が自然言語で指示を与えるだけで対応可能となる。

物流・倉庫業においても応用可能性は高い。ピッキング作業の自動化は各社が取り組む課題だが、不定形・多品種の商品への対応が技術的ボトルネックとなっている。RepWAMが実現する高い汎用操作能力は、ピッキング成功率や処理スループットといったKPIを押し上げる手段として、物流センターの設備投資計画に組み込まれる可能性がある。

医療・介護分野では、手術支援ロボットや患者補助ロボットへの応用が期待される。医療機器メーカーの研究開発部門にとって、言語指示に基づく精密操作モデルは次世代製品の差別化要素となり得る。

一方、課題も残る。研究はまだ実験段階にあり、実用展開には安全性検証や産業用ハードウェアとの統合が必要である。また、訓練データの収集コストや、各企業の設備固有の動作環境への適応が実装上の障壁となる。コードと学習済みモデルの重みは公開予定であり、スタートアップ企業や大学の産学連携部門がこれを起点にアプリケーション開発を加速させることが見込まれる。

世界行動モデルの研究は、ロボティクス産業における次の競争軸を形成しつつある。RepWAMが示す表現指向型アプローチは、汎用ロボット実現に向けた技術的マイルストーンとして、産業界の投資判断に影響を与えるものと見られる。