Reinforcement Learning

  • 政策梯度如何让您登上月球

    实践 RL 课程 – 第 7 部分 – 策略梯度是一系列强大的强化学习算法,可以解决复杂的控制任务。在今天的课程中,我们将从头开始实施原版策略梯度并登陆月球🌗。如果您不熟悉强化学习,请查看课程简介以了解基础知识……

    技术文章 2022年5月13日
    2590