トピック: Direct Preference Optimization (DPO)

全セクション横断 2 件

米マサチューセッツ大学などの研究チームが、ユーザーのマウス操作と視線データからAIの回答品質を自動改善する手法を開発した。明示的な評価入力を不要とし、AI改善コストの大幅削減が見込まれる。

言語モデルが現在の推論戦略の成功確率を内部で線形に符号化していることが明らかになった。AIの意思決定プロセスの透明性が高まり、企業の信頼性管理に新たな手段をもたらす可能性がある。