ロボットAI、層数半減で性能維持
ロボット制御用大規模AIモデルの冗長な中間層を最大50%削減しても性能を維持できることが判明した。学習時間を4割以上短縮し、推論速度も3割向上するこの知見は、製造・物流業界のロボット導入コストを根本から変える可能性がある。

ベトナム国立大学やドイツ人工知能研究センター(DFKI)、スタンフォード大学などの国際研究チームは、ロボット操作を制御する視覚・言語・行動統合モデル(VLAモデル)が内部に大量の冗長な層を抱えていることを突き止め、それを排除する無訓練型の圧縮手法を開発した。論文はarXivにて公開された。
研究の対象となったのはpi_0やGR00T-N1.5といった数十億パラメータ規模のVLAモデルである。これらは動画やロボット動作の膨大なデータで事前学習された基盤モデルだが、個別の工場環境や作業内容に合わせてファインチューニングする際には、大型GPUクラスターと長時間の計算を要するため、中堅・中小規模の製造業者には導入障壁が高かった。
チームは「中心化カーネルアライメント(CKA)」と呼ばれる類似度指標を用い、単一のフォワードパスのみでモデル内の冗長な層ペアを特定し、それを物理的に除去する手法を開発した。この処理は完全に訓練不要であり、フルスケールのモデルを読み込んで動的に層を選択する既存手法と異なり、追加の最適化コストがかからない。圧縮後のモデルを対象にファインチューニングを行うことで、学習時間を40〜50%削減し、推論速度を最大30%向上させながら、元のモデルと同等以上の操作精度を達成した。
検証はLIBERO・RoboCasa・SimplerEnvの3つのシミュレーション環境に加え、4種類の実機ロボットを用いた10種類の現実作業にわたって実施された。精度の維持は単一環境での測定ではなく、多様な実世界タスクで確認されており、汎用性の高さが示されている。
ビジネスへの影響は複数の産業・部門にわたる。製造業の生産技術部門では、新製品ラインや新工程が発生するたびにロボットをカスタマイズする必要があるが、これまで数日から数週間を要したファインチューニングが半分以下の時間で完了するようになれば、製品切り替えサイクルの短縮と機会損失の低減が直接的なKPIとして改善される。特に多品種少量生産を行う電子部品や食品加工の現場では、柔軟な生産体制の構築が競争優位に直結する。
物流業界においては、ピッキングロボットの導入・調整コストが主要な課題となっている。GPUサーバーへの投資を抑えつつ推論速度が向上すれば、エッジコンピューティング環境での自律搬送ロボット展開が現実的になり、倉庫の人件費率や誤出荷率といったKPIの改善に貢献する。
医療・ヘルスケア分野では、手術支援ロボットや調剤自動化ロボットへの応用が期待される。厳密な精度要件を維持しながら計算資源を削減できれば、病院や薬局レベルでのAIロボット導入コストが下がり、普及速度が加速する可能性がある。
AIインフラの観点では、クラウドリソースへの依存度低下と電力消費の削減がカーボンニュートラル目標にも寄与する。データセンター運用部門にとっては、同一の計算リソースで処理できるロボットの台数を増やせる点が重要な指標となる。
今後の課題は、圧縮率と精度のトレードオフを現場ごとに最適化する方法論の標準化である。研究チームはコードの公開も示唆しており、ロボットSIer(システムインテグレーター)やAIソフトウェアベンダーがこの手法を組み込んだ商用ツールを提供する動きが今後加速するとみられる。VLAモデルの圧縮は、産業用ロボットのAI化を「大企業の専有技術」から「中堅企業が活用できる標準技術」へと転換させる契機となりうる。