トピック: Multi-hop Question Answering

全セクション横断 2 件

米研究者がオペラッドと呼ばれる数学的構造をLLMの多段階推論評価に応用する手法を発表。12モデル・4データセットで精度との高い相関を確認し、AIシステムの信頼性管理に新たな指標をもたらす可能性がある。

米研究チームが大規模言語モデルの推論誤りをリアルタイムで検出する新指標「演算的一貫性」を開発した。正解ラベル不要で精度予測が可能となり、AI導入企業のリスク管理に直結する成果である。