AIコーディング精度、反復調整で3割超に向上
米ウィリアムズ大の研究が、リポジトリ誘導ファイルを合成バグ修正で反復改善する手法を発表。AIコーディングエージェントのバグ解決率を25.5%から33.0%へ引き上げ、ソフトウェア開発コスト削減に直結する成果として注目される。

人工知能(AI)を活用したコーディングエージェントの実用化が加速する中、ウィリアムズ大学のAsa Shepard氏とJeannie Albrecht氏は、エージェントに与える「リポジトリ誘導情報」の品質がバグ修正成功率を左右する決定的な要因であることを実証した。研究成果は論文「Probe-and-Refine Tuning of Repository Guidance for Coding Agents」として公開されている。
研究の中核をなすのは「プローブ・アンド・リファイン・チューニング」と呼ばれる手法である。コーディングエージェントは、コードベース自体には記載されていない高次の運用知識、すなわちどのファイルがどのサブシステムを担うか、テストスイートの実行方法、過去に誤った修正につながったワークフローなどを必要とする。エンジニアは従来、「AGENTS.md」と呼ばれるファイルにこうした文脈情報を手動で記載してきたが、その効果については先行研究で評価が分かれていた。
新手法は、合成的に生成したバグ修正タスク(プローブ)をエージェントに試行させ、その結果を単一のLLM呼び出しで診断・修正するサイクルを反復することで誘導ファイルを自動改善する。エージェントループやツール使用をチューニング中に排除した設計により、計算コストを抑えながら誘導情報の精度を高められる点が特徴だ。
SWE-bench Verifiedを用いた4回の独立試験では、Qwen3.5-35B-A3Bモデルを200ステップで動作させた場合、プローブ・アンド・リファインが平均33.0%の解決率を記録。誘導なしの基準値25.5%、静的知識ベースのみの28.3%をそれぞれ統計的に有意な水準(p<0.001)で上回った。改善の主因は「カバレッジの向上」にあり、精製された誘導情報によってエージェントが正しいファイルに到達できるケースが14.5ポイント増加した。一方、パッチ1件あたりの精度は約59%で統計的に一定であり、誘導情報はコード変更の質よりも「どこを修正するか」の判断を改善することが明らかになった。
ビジネスへの含意は広範にわたる。金融機関や保険会社など大規模なレガシーコードベースを抱える企業では、AIコーディングエージェントの導入効果がリポジトリ誘導情報の整備不足によって限定されてきた。本手法を活用すれば、開発・品質保証部門はAIエージェントのバグ修正成功率というKPIを従来比で約7.5ポイント改善できる可能性がある。特にインシデント対応時間(MTTR)の短縮や、リリースサイクルの加速に直結する効果が期待される。
SaaS企業やシステムインテグレーターにとっては、複数顧客のコードベースに対してエージェントを展開する際のオンボーディングコスト削減が主要な恩恵となる。従来は上級エンジニアが手動で誘導ファイルを整備する必要があったが、自動チューニングによりその工数を大幅に圧縮できる。開発生産性を示すKPI、例えば1スプリントあたりの解決チケット数やコードレビュー待ち時間の改善にも寄与しうる。
ただし、研究ではモデルの能力が一定水準を下回る場合、チューニングループが機能劣化することも確認されている。NVIDIA-Nemotron-3-Nano-30B-A3Bを用いた交差モデル実験では、診断出力の質が不十分になるとチューニング効果が消失した。このため、手法の導入に際しては使用するLLMの選定が重要な経営判断となる。コスト効率を追求してモデルを小型化する場合、誘導チューニングの恩恵を十分に享受できないリスクを考慮しなければならない。
今後の展望としては、本手法が自律的なソフトウェア開発パイプラインの標準的な構成要素となる可能性が高い。CI/CDプロセスにプローブ・アンド・リファインを組み込むことで、コードベースの変化に応じた誘導情報の継続的な自己更新が実現し、AI開発支援ツールの競争軸が「モデル性能」から「リポジトリ知識の品質管理」へと移行する契機ともなりうる。