AIコーディング精度、自動調整で3割超
米ウィリアムズ大学の研究チームが、LLMベースのコーディングエージェントに与える「指示書」を自動改善する手法を発表。バグ修正の成功率を25.5%から33.0%へ引き上げ、ソフトウェア開発コストの削減に直結すると期待される。

ウィリアムズ大学のAsaシェパード氏らは、LLM(大規模言語モデル)を用いたコーディングエージェントの性能を左右する「リポジトリガイダンス」の自動最適化手法「プローブ・アンド・リファイン・チューニング」を論文で発表した。ソフトウェアエンジニアリングのベンチマーク「SWE-bench Verified」において、従来の静的ガイダンスを用いたベースラインの28.3%を大きく上回る33.0%のバグ解決率を達成した(p<0.001)。
同手法の核心は、AIエージェントが作業する際に参照する「AGENTS.md」と呼ばれる指示書ファイルを、合成バグ修正プローブを使って反復的に診断・改善する点にある。エージェントループやツール呼び出しを一切使わず、単発のLLM呼び出しのみでチューニングを完結させるため、計算コストの観点でも現実的な運用が可能である。改善の要因を分析すると、精度の向上ではなく「カバレッジ」の拡大にあることが判明した。洗練されたガイダンスは、エージェントが修正対象として正しいファイルにたどり着く確率を14.5ポイント向上させる一方、パッチ1件あたりの精度(約59%)は統計的に変化しなかった(p=0.119)。すなわち、ガイダンスの品質が「どこを直すか」という探索問題を解決することを意味する。
この研究が示す事業上の含意は広範にわたる。まず金融・保険・通信といった大規模なレガシーコードベースを抱える業種では、開発エンジニアの工数を直接削減できる。従来、熟練エンジニアがAGENTS.mdを手作業で整備・維持するコストが発生していたが、自動チューニングによってその工数を圧縮しつつ指示書の品質を向上させることができる。品質保証(QA)部門にとっては、バグ修正の「スループット」をKPIとして管理する際に、エージェントが到達できなかったファイル群が減少することで、見逃しリスクの低減につながる。
製造業のOTシステムや組み込みソフトウェア開発においても応用可能性がある。リポジトリ固有のビルド手順やサブシステム構成が複雑なため、ガイダンスの整備が後回しになりがちな領域であるが、本手法によって自動的に最適化された指示書を生成し続けることができる。開発生産性を示すKPI(プルリクエスト当たりの修正サイクル数やCI/CD通過率)への波及効果も見込まれる。
一方、研究は限界も明示している。モデルの能力が十分でない場合、チューニングループが劣化する可能性があることを、NVIDIAのNemotron-3-Nano-30B-A3Bを用いた追加実験で確認している。中小規模の開発チームが低コストモデルを採用する際には、モデル選定とガイダンス品質のトレードオフを慎重に評価する必要がある。
AIコーディングエージェントの本格導入を検討するIT部門にとって、本研究はガイダンスファイルの品質管理を開発プロセスの標準工程として位置づけることの重要性を示す。静的な文書として放置するのではなく、継続的に改善するサイクルを設けることが、エージェントの実用性を高める上での鍵となる。今後、GitHubやAtlassianのような開発プラットフォームがこの機能を標準搭載する可能性があり、業界標準となるか注目される。