XGBoostで不要データを高速消去、侵入検知AIに忘却機能
ポルトガルの研究チームが、ネットワーク侵入検知に使われるXGBoostモデルから特定データを高速削除する手法「XGBoost-Forget」を開発した。AIガバナンス強化が急務となる企業のセキュリティ運用に変革をもたらす可能性がある。

ポルトガル・ポルト大学の研究グループは、機械学習モデルから特定のデータを削除する「機械的忘却(Machine Unlearning)」技術を、ネットワーク侵入検知システム向けに実装した手法を発表した。論文はarXivに公開されており、企業のサイバーセキュリティ基盤における個人情報保護対応の自動化に向けた重要な一歩として注目される。
従来の機械的忘却研究は、画像認識や自然言語処理などの深層学習モデルを対象としたものが主流であった。一方、実際の企業ネットワーク監視では、通信ログや端末情報といった表形式データを扱うXGBoostなどの勾配ブースティング系モデルが広く採用されている。この領域における忘却技術の研究は著しく遅れており、実務上の空白地帯となっていた。
今回開発された「XGBoost-Forget」は、IoTデバイスのネットワークトラフィックを収録した「IoT-23」と、汎用的な侵入検知データセット「GeNIS」の2種類を用いて評価された。その結果、モデルの予測精度をほぼ維持しながら、モデル全体を再学習する場合と比較して大幅に短い時間で対象データの削除を完了できることが確認された。忘却の質を測る複数の指標においても、削除されたデータがモデルの挙動に与える影響が十分に除去されていることが示された。
この技術が企業にもたらす実務上の意義は多岐にわたる。まず金融機関や通信事業者のセキュリティオペレーションセンター(SOC)では、EUの一般データ保護規則(GDPR)や国内の個人情報保護法に基づく「忘れられる権利」への対応が喫緊の課題となっている。現状ではAIモデルに学習済みの個人データを削除するには、全データを除外したうえでモデルを一から再構築する必要があり、運用コストと停止時間が障壁となっていた。XGBoost-Forgetはこのボトルネックを解消し、コンプライアンス部門と情報セキュリティ部門の連携コストを大幅に削減できる。
製造業においても、工場内のIoT機器から収集する稼働データを活用した異常検知システムへの応用が期待される。退職した従業員の操作ログや、契約終了した取引先の接続情報を法的要件に従い迅速に削除しつつ、不正アクセス検知の精度を維持することが可能となる。対象KPIとしては、インシデント検知率の維持、コンプライアンス違反件数の削減、モデル再学習にかかる計算コストの低減が挙げられる。
ヘルスケア分野では、病院の医療情報ネットワークを守るセキュリティシステムへの導入が見込まれる。患者の同意撤回や診療契約終了に伴うデータ削除要求に対し、AIシステムを停止することなく対応できれば、医療サービスの継続性とデータ主権の両立が実現する。
研究チームは今後、より大規模なデータセットへの適用や、他のツリー系モデルへの手法拡張を検討するとしている。AIシステムのライフサイクル管理が企業統治の核心的課題となる中、忘却機能を標準装備した侵入検知基盤の実用化に向けた議論が加速するとみられる。