トピック: Sample Efficiency

全セクション横断 3 件

米カリフォルニア大学バークレー校らの研究チームが、強化学習における報酬の希薄性問題を解決する新手法を発表した。製造・物流現場のロボット導入コストと学習期間を大幅に圧縮できる可能性がある。

マックス・プランク研究所などの研究チームが、深層強化学習の学習効率を高める「直接アドバンテージ推定」を部分観測環境でも機能するよう拡張した。製造・物流・金融の自動化投資対効果を押し上げる可能性がある。

米研究チームが開発した「UBP2」は、AIへの人間のフィードバック回数を抑えつつ高精度な報酬学習を実現する手法で、製造・物流・ロボティクス分野における自動化コストの大幅削減が期待される。