トピック: Post-Training

全セクション横断 4 件

大規模言語モデルの強化学習訓練で生じる「エントロピー崩壊」を抑制する手法「STARE」が発表された。推論精度が最大8ポイント向上し、AIモデルの実用化コスト削減に直結する成果である。

米イェール大学の研究チームが、AIの推論モデルを構造化された評価基準で訓練する「ルーブリック条件付き自己蒸留」を発表した。従来手法を上回る精度を示し、企業のAI内製化コスト削減に直結する可能性がある。

中国・英国の研究チームが拡散型大規模言語モデル向けの自己蒸留学習手法「d-OPSD」を発表した。従来手法比で最適化ステップを約90%削減しつつ推論精度を向上させ、AI開発コストの大幅圧縮につながる可能性がある。

米研究者らがロボットポリシーの推論時誘導と自己改善を可能にするフレームワーク「VERITAS」を発表した。人間の介入なしに専門家デモと同等の学習効率を実現する本技術は、製造・物流業界の自動化コスト構造を根本から変える可能性を持つ。