トピック: Data Contamination

全セクション横断 3 件

最新研究により、大規模言語モデルをファインチューニングしても脆弱性検出の精度は偶然水準をわずかに上回るに過ぎず、真の安全性推論を欠くことが定量的に示された。セキュリティ投資の根拠が問われる。

ロシアの研究チームが12言語対応のAIコード評価基準「Multi-LCB」を開発し、主要LLMがPythonに過学習していることを実証した。企業のシステム開発部門におけるAIツール選定に直接影響する知見である。

ロシアの研究チームが12言語対応のLLM評価指標「Multi-LCB」を公開した。Python偏重だった従来評価の盲点を突き、企業がAIコーディング支援ツールを選定する際の判断基準を根本から刷新する可能性がある。