LLMのコード生成、Python偏重の実態が判明
ロシアの研究チームが12言語対応のAIコード評価基準「Multi-LCB」を開発し、主要LLMがPythonに過学習していることを実証した。企業のシステム開発部門におけるAIツール選定に直接影響する知見である。

人工知能によるコード生成能力の評価において、既存の標準指標がPythonに偏っていることを示す研究結果が発表された。Maria Ivanovaらの研究チームは、12のプログラミング言語に対応した新たな評価基準「Multi-LCB」を開発し、24種類の大規模言語モデル(LLM)を検証した結果、多くのモデルがPythonでは高い性能を示す一方、Java、C++、Rustなど他言語では性能が大幅に低下することを明らかにした。
従来の評価基準であるLiveCodeBench(LCB)は競技プログラミングの問題を活用した信頼性の高い指標として広く採用されてきたが、評価対象がPythonのみに限定されていた。Multi-LCBはこの制約を解消し、LCBのPython問題を他言語の等価タスクに変換することで、汚染対策や評価プロトコルを維持しつつ多言語評価を可能にした。将来のLCB更新にも自動的に対応する設計となっており、継続的な比較評価が可能となる。
研究の核心的な発見は「Pythonへの過学習」と「言語固有の汚染」の存在である。一部のモデルは特定言語の訓練データが過剰に含まれていることで見かけ上の高評価を得ており、実際の汎用的なコード生成能力を反映していない可能性がある。これは企業がAIコーディングツールを導入する際の選定基準の再考を迫るものである。
ビジネスへの影響は特にシステム開発部門と情報システム調達部門に及ぶ。金融機関ではCOBOLやJavaで記述されたレガシーシステムの保守にAIツールを活用する動きが加速しているが、Python偏重のモデルでは期待される生産性向上効果が得られない恐れがある。製造業においてもC++やRustで記述された組み込みソフトウェアの開発支援にLLMを活用する試みが広がっており、同様のリスクが存在する。開発工数削減率やコードレビュー通過率といったKPIの達成見通しを根本から見直す必要が生じる可能性がある。
IT部門の調達担当者にとっては、ベンダーが提示するベンチマーク数値の解釈に新たな視点が求められる。Python単体での評価スコアが高くても、自社の主要開発言語での性能が伴わない場合、投資対効果は大幅に低下する。Multi-LCBの登場により、複数言語での性能比較が標準的な調達評価項目となることが予想される。
SIerやソフトウェア開発企業にとっては、顧客への提案精度向上の機会でもある。多言語対応能力の優劣が明確に可視化されることで、プロジェクトの技術スタックに応じた最適なAIツールを選定し、開発期間短縮という具体的な価値提案が可能になる。
今後の展開として、研究チームはLCBの更新に伴いMulti-LCBも自動的に拡張される仕組みを整えており、LLM各社がこの評価基準に対応する形でモデルの多言語対応強化に取り組むことが見込まれる。企業のAI活用戦略においては、導入前に自社の開発言語環境に即した多言語評価を実施することが、リスク管理上の標準手順として定着していくとみられる。