AIが障害根本原因を自動特定、精度16%向上
大規模ネットワーク障害の根本原因をAIが自動特定するフレームワーク「NetCause」が発表された。クラウド事業者の運用コスト削減とSLA遵守率向上に直結する技術として注目される。

米カーネギーメロン大学やAmazonの研究者らが共同開発した「NetCause」は、大規模ネットワークで発生する障害の根本原因を自動的に特定する機械学習フレームワークである。反事実推論(カウンターファクチュアル・シミュレーション)と呼ばれる手法を用いることで、従来の静的ルールや相関ヒューリスティクスに依存した分析手法と比べ、根本原因の特定精度を16.1%改善した。
従来のネットワーク障害分析では、ベテランエンジニアが手動でアラートを精査し、障害の伝播経路を追跡する作業が中心であった。しかし、クラウドインフラの複雑化に伴い、物理層と論理層にまたがる依存関係が増大し、人手による根本原因の特定には多大な時間と専門知識が求められる状況となっていた。NetCauseは、ネットワークインシデントをグラフ・時系列プロセスとしてモデル化し、反事実シミュレーションによって根本原因候補を優先順位付けすることで、この課題に対応する。
同フレームワークは、大手クラウドプロバイダーの本番ネットワークから6カ月間にわたり収集した1,500件以上のインシデントデータを用いて学習されており、専門家が正解ラベルを付与した31件のインシデントで評価が行われた。推論処理はGPUで数秒以内に完了し、一般的なテレメトリ収集の遅延時間を大幅に下回るため、実運用環境への即時適用が可能である。
ビジネス面での影響は、複数の業種・部門に及ぶ。クラウドサービス事業者やデータセンター運用企業においては、ネットワーク運用センター(NOC)の障害対応時間(MTTR:平均復旧時間)の短縮が直接的な効果として期待される。MTTRが短縮されれば、サービスレベル合意(SLA)の遵守率が向上し、顧客への補償コスト削減にもつながる。金融機関や通信キャリアなど、ネットワーク可用性が収益に直結する業態では特に恩恵が大きい。
製造業においても、スマートファクトリー化に伴いOT(運用技術)ネットワークの複雑性が増しており、設備停止時間の最小化を目的とした障害分析ツールとして活用できる可能性がある。具体的なKPIとしては、障害検知から原因特定までのリードタイム、インシデント対応に要するエンジニア工数、そして月次の非計画停止時間が改善対象となる。
IT部門のコスト構造においても変化が生じると見られる。現状、シニアネットワークエンジニアが習熟した知識をもとに行っていた根本原因分析の一部を自動化することで、人的リソースを予防保全や設計改善といった高付加価値業務に再配置できる。特に、エンジニア不足が深刻な中堅クラウド事業者やマネージドサービスプロバイダーにとって、運用効率化の手段として有力な選択肢となりうる。
一方で課題もある。NetCauseの学習フェーズは計算コストが高く、初期導入には相応のGPUリソースと高品質なインシデントデータの蓄積が前提となる。また、モデルが解釈可能なランキング形式で根本原因候補を提示する設計は、運用者の意思決定支援を重視したものであり、完全自動化ではなく人間との協調運用を前提としている点は留意が必要である。
今後は、より多様なクラウドプロバイダーや通信事業者のネットワーク環境への適用検証が進むとみられる。ネットワーク運用の自動化(NetOps)市場が拡大する中、反事実推論を活用した解釈可能なAI分析基盤の実用化は、インフラ運用の在り方を根底から変えうる技術として引き続き注目される。