AI×製造

RLで宇宙軌道を堅牢最適化、民間宇宙産業に応用

英サリー大学などの研究チームが、確率的制約付き強化学習を用いた分布非依存の軌道最適化フレームワークを開発した。不確実性の種類を問わず高い安全性を維持できるため、民間宇宙輸送や惑星探査ミッションのコスト削減に直結する可能性がある。

RLで宇宙軌道を堅牢最適化、民間宇宙産業に応用
広告

英サリー大学のヤシュディープ・チャウドハリー氏らの研究チームは、強化学習(RL)と確率的制約を組み合わせた宇宙機軌道最適化の新手法を発表した。論文はarXivに公開されており、地球―火星間の惑星間遷移軌道と大気圏内ロケット垂直着陸という異なる二つの問題で有効性を実証している。

従来の堅牢軌道最適化手法は、推進剤残量のバラツキや初期条件の誤差といった不確実性をガウス分布などの特定の確率分布として仮定することが多かった。しかし実際の宇宙運用では、センサーノイズや外乱の統計的性質があらかじめ正確にわかっているとは限らない。今回のフレームワークは、不確実性の分布形状を問わずサンプリングさえ可能であれば適用できる「分布非依存」の設計を採用した点が最大の特徴である。

手法の構造はまず、オフラインで決定論的な名目軌道を計算し、その後RLがアフィン閉ループ補正則(フィードフォワード調整と時変フィードバックゲインの組み合わせ)を学習する形をとる。確率的実行可能性はロールアウトベースの上側分位点で経験的に保証され、終端での分散は共分散ペナルティによって制御される。この二段階構造により、計算負荷の大部分をオフライン段階に集中させ、オンラインでのリアルタイム応答を可能にしている。

ビジネス上の波及効果は複数の産業・部門に及ぶ。まず打ち上げサービスを提供する民間宇宙企業にとって、推進剤消費量の上側テール(最悪ケース)を圧縮できることは直接的なコスト削減につながる。スペースXやロケットラボのような垂直着陸ロケットを運用する企業では、再使用機の着陸成功率というKPIが事業継続性に直結しており、本手法が示した大気圏内ピンポイント着陸への適用可能性は商業的価値が高い。

次に、防衛・安全保障分野の宇宙システム調達部門も注目すべき応用先である。軍事偵察衛星や通信衛星のミッション設計では、外乱モデルの精度に依存しない堅牢性が求められる場面が多く、本フレームワークのコア構造を再設計せずに異種ミッションへ転用できるポータビリティは調達コストの観点から魅力的である。

宇宙保険業界への含意も無視できない。現在、商業衛星や探査機の保険料率は軌道投入失敗確率の推定値に基づいて算出されるが、堅牢最適化によってテール確率が定量的に抑制されれば、保険数理モデルの精度向上と保険料率の適正化に資する可能性がある。アクチュアリー部門にとっては新たなリスク評価指標の導入を検討する契機となりうる。

さらに、宇宙デブリ回避を担う運用管制センターの観点では、突発的な軌道変更を強いられた際に不確実性の分布を仮定せずに最適軌道を迅速に再計算できる能力は、運用効率指標(マニューバ成功率や燃料余剰マージン)の改善に寄与する。

課題も残る。現状の評価は数値シミュレーションに限定されており、実機への搭載に際してはオンボードコンピュータの演算能力との整合性や、宇宙機の認証プロセスへの統合が必要になる。また、学習に要するロールアウト数が実用上の制約になる場合も想定され、サンプル効率の改善が今後の研究課題として挙げられている。

宇宙開発の商業化が加速する中、確率論的制御と機械学習の融合は軌道設計エンジニアリングの標準的なツールセットに組み込まれていく可能性が高い。本研究はその方向性を示す重要な一歩と位置づけられる。

出典: Distribution-Agnostic Robust Trajectory Optimization via Chance-Constrained Reinforcement Learning, Yashdeep Chaudhary, Roberto Armellin, Harry Holt, Marco Sagliano, arXiv:2606.13605v1

本記事はAIにより執筆され、Affectosphere Group が監修しています。

広告