一人称映像AI「UNIEGO」が現場監視を刷新
米研究チームが、ウェアラブルカメラ映像のみから複数視点・複数センサーの知識を統合するAIエンコーダー「UNIEGO」を発表。製造・医療・物流の現場作業分析に直結する精度向上を実現した。

米国の研究グループは、一人称(エゴセントリック)映像の理解精度を飛躍的に高める統合型AIフレームワーク「UNIEGO」を発表した。ウェアラブルカメラ一台の映像だけを入力として、RGB映像・深度センサー・骨格データおよび外部視点カメラなど9種類の教師モデルが持つ知識を単一のエンコーダーに凝縮する点が技術的な核心である。
これまでの多教師蒸留手法では、アーキテクチャや特徴空間が異なる複数モデルを直接統合しようとすると勾配が競合し、精度が低下する課題があった。UNIEGOはこの問題を「プロキシモデル」という中間層を設けることで解決する。多様な教師の知識をいったんプロキシが一様な表現空間に変換し、次段階の「選択的プロキシ蒸留(SPD)」が各学習サンプルごとに信頼性の高いプロキシのみを選んで知識を転送する。さらに、UNIEGOのパラメーター初期値をプロキシの凸結合として設定することで学習の安定性を確保した。動作認識・映像検索・動作セグメンテーションの三タスクにわたる公開ベンチマークで最高水準の性能を記録している。
ビジネス上の波及効果は製造業の生産現場で特に顕著になるとみられる。組立ラインの作業員にスマートグラスを装着させるだけで、熟練工の技術動作を高精度に識別・記録できるようになる。品質管理部門はヒューマンエラー検知率をKPIとして設定しやすくなり、従来の固定カメラ多点設置と比べてインフラコストを大幅に削減できる可能性がある。作業標準化の速度が上がることで、OJT期間の短縮や製品不良率の低減にも直結する。
医療分野では、外科手術の手技評価や看護師の処置記録への応用が期待される。手術映像の自動セグメンテーション精度が向上すれば、医師の技能評価指標を客観的なデータで補完できる。病院経営においては、手術室の稼働率向上や研修プログラムの効率化がKPIとして機能する。現状、専門家による手技評価は主観に依存する割合が高く、AIによる定量的補完の需要は高い。
物流・倉庫管理においても、ピッキング作業の誤出荷率低減や作業動線の最適化に活用余地がある。倉庫内の固定カメラ設置が困難な棚間通路でも、作業員装着のカメラ映像から作業行動を分類・分析できる。オペレーション部門は作業効率(ピックアウトレート)やエラー率を指標としてシステム導入効果を測定できる。
一方、実用化に向けた課題も残る。ウェアラブルデバイスのバッテリー消費やリアルタイム推論に必要な計算資源の確保は、エッジ展開時の障壁になり得る。また、作業員の映像を常時収集することへのプライバシー対応は、労務管理部門および法務部門が導入前に整理すべき論点である。個人情報保護法制との整合性確認や従業員への説明責任が求められる。
研究チームは三つの公開ベンチマークで従来手法を上回る結果を示しており、今後は産業用データセットへの適用拡大と軽量化が開発の焦点になるとみられる。企業の情報システム部門は、既存の映像管理インフラとの統合可能性を早期に評価する段階に入っている。