文章目录
什么是 PPO(Proximal Policy Optimization,近端策略优化)?
论文:https://arxiv.org/abs/1707.06347
提出了一系列用于强化学习的新策略梯度方法,它们通过与环境的交互在采样数据和使用随机梯度上升优化“代理”
文章出处登录后可见!
已经登录?立即刷新
论文:https://arxiv.org/abs/1707.06347
提出了一系列用于强化学习的新策略梯度方法,它们通过与环境的交互在采样数据和使用随机梯度上升优化“代理”
文章出处登录后可见!