AI×経営戦略

LLMの脆弱性検出、精度は偶然と同水準

大規模言語モデルをファインチューニングしてもシステムソフトウェアの脆弱性検出精度は52.1%止まりと判明。偶然の正解率をわずか2.1ポイント上回るにすぎず、AIによるセキュリティ審査への過信が企業に重大なリスクをもたらす可能性が示された。

LLMの脆弱性検出、精度は偶然と同水準
広告

米ノースカロライナ州立大学らの研究チームは、大規模言語モデル(LLM)をセキュリティ脆弱性の検出に活用する試みが、実務上有効な水準に達していないことを定量的に示す論文を発表した。Linuxカーネルのコードサンプル834件を用いた独自評価フレームワーク「CWE-Trace」により、8種のLLMと15種のLoRAファインチューニング済みモデルを体系的に検証した結果、最良モデルでも二値検出(脆弱か否か)の正解率は52.1%にとどまった。脆弱性の種別を特定するCWE分類のTop-1精度に至っては1.3%以下であった。

研究の核心にあるのは「理解なき較正(Calibration Without Comprehension)」と呼ぶ現象である。ファインチューニングによってモデルの出力分布は訓練データに適応するが、セキュリティ上の推論能力そのものは向上しない。研究チームが開発した診断指標「方向性失敗指数(DFI)」によると、各モデルは脆弱なコードを「安全」と誤判定するか、あるいは安全なコードを「脆弱」と誤判定するかという偏りを示し、その偏向はファインチューニング後も変化しなかった。すなわちファインチューニングは判断基準を変えず、判定閾値を動かすだけに過ぎないことが確認された。

また、ベンチマーク汚染(データ汚染)が性能を底上げしているとの仮説についても反証が示された。名目上汚染されたサンプルの84%は有用な記憶シグナルを持たず、汚染サンプルの約31%はCWE分類が誤っていた。ベンチマーク上のスコアが実運用能力を過大評価している可能性が高いことを意味する。

この知見が直接影響するのは、金融・通信・製造業における組み込みシステムおよびインフラ系ソフトウェアの開発部門である。近年、AIコードレビューツールを導入してセキュリティ審査工数を削減しようとする動きが加速しているが、本研究はそのアプローチに根本的な疑問を呈する。脆弱性の見逃し(偽陰性)はサイバー攻撃への露出につながり、MTTR(平均復旧時間)や情報漏洩インシデント件数といったセキュリティKPIを直接悪化させる。特に車載ソフトウェアや医療機器のファームウェア開発においては、規制当局への届出義務を伴うインシデントリスクが増大する。

DevSecOps推進を掲げるIT部門にとっても再考を迫る内容だ。CIパイプラインにLLMベースの静的解析を組み込んでいる場合、偽陰性が「自動承認」として扱われる設計になっていれば、人手によるレビューをむしろ減らす逆効果を生みかねない。セキュリティ担当部門は導入済みAIツールのDFI相当の指標を独自に測定し、方向性の偏りを把握したうえで運用設計を見直す必要がある。

投資対効果の観点からも示唆は大きい。LoRAファインチューニングには計算コストと専門的な訓練データの整備コストが伴うが、本研究はそのコストに見合う精度向上が得られないことを示している。ベースモデルの選定が最も重要であり、安易なファインチューニングへの支出は費用対効果が低い可能性がある。

今後の展望として、研究チームはLLMが構文パターンの照合にとどまらず、真にセキュリティ推論を行える能力を持つか否かを問い続けることの重要性を強調する。現時点では、LLMをシステムソフトウェアの脆弱性検出において主要な判断者とするのは時期尚早であり、熟練した人間のセキュリティエンジニアによるレビューを補完する位置づけに限定すべきとの見方が妥当である。

出典: Calibration Without Comprehension: Diagnosing the Limits of Fine-Tuning LLMs for Vulnerability Detection in Systems Software, Arastoo Zibaeirad, Marco Vieira, arXiv:2606.20502v1

本記事はAIにより執筆され、Affectosphere Group が監修しています。

広告