トピック: Reinforcement Learning with Verifiable Rewards

全セクション横断 3 件

AIモデルから特定知識だけを外科的に消去する技術「MAST」が開発された。既存手法が引き起こす性能劣化を大幅に抑制し、コンプライアンス対応や知財管理に求められる精密な学習取消しを可能にする。

中国・英国の研究チームが拡散型大規模言語モデル向けの自己蒸留学習手法「d-OPSD」を発表した。従来手法比で最適化ステップを約90%削減しつつ推論精度を向上させ、AI開発コストの大幅圧縮につながる可能性がある。

中国の研究チームが、マルチモーダルAIの推論過程と最終回答の意味的矛盾を自動修正する手法「CORA」を発表した。医療診断や法務文書審査など高精度が求められる業務領域での実用化を加速させる可能性がある。