トピック: Group Relative Policy Optimization

全セクション横断 7 件

香港大学などの研究チームが、画像内の微細な証拠を見落としやすい視覚言語モデルの弱点を、モデル再訓練なしに推論時だけで補正する手法「SPOT-E」を発表した。医療画像診断や製造業の外観検査など、証拠の見逃しが致命的となる業種への実用展開が期待される。

コンピュータを自律操作するAIエージェントの行動履歴から再利用可能なスキルを自動生成する手法が発表された。業務自動化の透明性向上に寄与する一方、異なる業務への転用には課題が残ることが実証された。

米中研究チームが開発したDeepRubricは、証拠ツリーを活用した強化学習手法により、高品質なAIリサーチエージェントの訓練コストを従来比13分の1に削減することに成功した。企業内調査業務の自動化競争に新局面をもたらす。

米プリンストン大学らの研究チームが、長大なデータの中から決定的な根拠を見つけ出すAIの能力を強化する強化学習手法「ContextRL」を発表した。エージェント型AIの信頼性向上に直結し、企業の業務自動化投資に影響を与えうる成果である。

中国の研究チームが、マルチモーダルAIの推論過程と最終回答の意味的矛盾を自動修正する手法「CORA」を発表した。医療診断や法務文書審査など高精度が求められる業務領域での実用化を加速させる可能性がある。

中国の研究チームが科学論文246万件を構造化知識グラフに変換するAIパイプライン「Agents-K1」を発表した。製薬・素材・化学などの研究開発部門における情報収集コストと意思決定速度に直接影響する技術として注目される。

中国・香港の研究チームが、既存の画像生成AIにテキストと画像を交互に出力する「インターリーブ生成」能力を付与するマルチエージェント基盤「InterleaveThinker」を発表した。コンテンツ制作や製造現場の作業指導書自動生成に直結する技術として注目される。