深度强化学习基本概念-王树森课程笔记

概率论知识

  • Random Value
    • 随机变量:深度强化学习基本概念-王树森课程笔记
    • 随机变量的观测值(没有随机性):深度强化学习基本概念-王树森课程笔记
    • 深度强化学习基本概念-王树森课程笔记:随机变量深度强化学习基本概念-王树森课程笔记的定义域
  • Probability Density Function:随机变量在某个确定的取值点附近的可能性
    • 概率密度函数:深度强化学习基本概念-王树森课程笔记
    • 连续分布:深度强化学习基本概念-王树森课程笔记
    • 离散分布:深度强化学习基本概念-王树森课程笔记
  • Expectation:函数深度强化学习基本概念-王树森课程笔记的期望
    • 期望:深度强化学习基本概念-王树森课程笔记
    • 连续分布:深度强化学习基本概念-王树森课程笔记
    • 离散分布:深度强化学习基本概念-王树森课程笔记
  • Random Sampling
    • 随机抽样

强化学习专业术语

  • state:状态 深度强化学习基本概念-王树森课程笔记

  • action:动作 深度强化学习基本概念-王树森课程笔记

  • agent:动作的发出者

  • policy:策略 深度强化学习基本概念-王树森课程笔记,根据观测到的状态做出决策来控制agent运动

    • 强化学习学的就是policy函数
    • agent动作随机,根据policy来做动作

  • reward:奖励深度强化学习基本概念-王树森课程笔记

    • agent做出一个动作后会得到一个奖励,通常需要自己定义
    • 奖励定义的好坏十分影响强化学习的结果
    • 强化学习的目标:获得的奖励总和尽量高
  • state transition:状态转移

    • 当前状态下做出一个动作后转移到新的状态
    • 状态转移可以是确定的也可以是随机的,通常是随机的(随机性来源于环境)
    • 状态转移函数深度强化学习基本概念-王树森课程笔记
  • trajectory:轨迹 (state, action, reward)

    • 深度强化学习基本概念-王树森课程笔记

  • agent与environment交互

    1. 环境给出当前state 深度强化学习基本概念-王树森课程笔记
    2. agent根据深度强化学习基本概念-王树森课程笔记做出动作深度强化学习基本概念-王树森课程笔记
    3. 环境更新状态state为深度强化学习基本概念-王树森课程笔记,并给agent奖励深度强化学习基本概念-王树森课程笔记
    💡 状态、动作奖励等变量如果被观测到了就用小写字母表示,没被观测到就是随机变量用大写字母表示
    

强化学习的随机性来源

  • action

    • action是由policy函数随机抽样得到的

      深度强化学习基本概念-王树森课程笔记

  • state transition

    • 环境用状态转移函数深度强化学习基本概念-王树森课程笔记算出概率,用概率随机抽样得到下一个状态深度强化学习基本概念-王树森课程笔记

      深度强化学习基本概念-王树森课程笔记

Rewards, Returns & Value Fuctions

  • Return:回报(aka cumulative future reward,即未来累计奖励)
    • 深度强化学习基本概念-王树森课程笔记时刻的回报 深度强化学习基本概念-王树森课程笔记深度强化学习基本概念-王树森课程笔记 时刻的奖励开始一直加到结束
    • 未来的奖励深度强化学习基本概念-王树森课程笔记没有现在的奖励深度强化学习基本概念-王树森课程笔记值钱→深度强化学习基本概念-王树森课程笔记的权重应低于深度强化学习基本概念-王树森课程笔记
  • Discounted return:折扣回报(aka cumulative discounted future reward)
    • 深度强化学习基本概念-王树森课程笔记:折扣率,深度强化学习基本概念-王树森课程笔记,超参数,需要自己调
      • 未来的权重和现在一样:深度强化学习基本概念-王树森课程笔记
      • 奖励越不重要,深度强化学习基本概念-王树森课程笔记越小
    • 深度强化学习基本概念-王树森课程笔记时刻的折扣回报 深度强化学习基本概念-王树森课程笔记
  • Value Function:价值函数
    • 深度强化学习基本概念-王树森课程笔记是随机变量,依赖于未来的所有动作深度强化学习基本概念-王树森课程笔记以及未来的所有状深度强化学习基本概念-王树森课程笔记

    • Action-value Function:动作价值函数,与当前的状态深度强化学习基本概念-王树森课程笔记和动作深度强化学习基本概念-王树森课程笔记以及policy函数深度强化学习基本概念-王树森课程笔记有关

      深度强化学习基本概念-王树森课程笔记

      • 直观意义:已知policy函数深度强化学习基本概念-王树森课程笔记深度强化学习基本概念-王树森课程笔记给当前状态下所有的动作深度强化学习基本概念-王树森课程笔记打分,从而得知动作的好坏
    • Optimal action-value function:最优动作价值函数,对深度强化学习基本概念-王树森课程笔记关于深度强化学习基本概念-王树森课程笔记求最大值,即选择使用让深度强化学习基本概念-王树森课程笔记值最大的深度强化学习基本概念-王树森课程笔记

      深度强化学习基本概念-王树森课程笔记

      • 直观意义:观测到状态深度强化学习基本概念-王树森课程笔记后对动作深度强化学习基本概念-王树森课程笔记做评价,agent可以根据此对动作做出决策
    • State-value function:状态价值函数,对深度强化学习基本概念-王树森课程笔记关于动作深度强化学习基本概念-王树森课程笔记求期望把深度强化学习基本概念-王树森课程笔记消掉,得到的深度强化学习基本概念-王树森课程笔记只与深度强化学习基本概念-王树森课程笔记和状态深度强化学习基本概念-王树森课程笔记有关

      深度强化学习基本概念-王树森课程笔记

      深度强化学习基本概念-王树森课程笔记

      • 直观意义:
        • 已知policy函数深度强化学习基本概念-王树森课程笔记,可以判断出当前的局势如何(状态越好数值越大)
        • 判断policy函数深度强化学习基本概念-王树森课程笔记的好坏。深度强化学习基本概念-王树森课程笔记越好,深度强化学习基本概念-王树森课程笔记越大

强化学习用AI控制agent

  1. Policy-based learning:策略学习,学习policy函数深度强化学习基本概念-王树森课程笔记,用深度强化学习基本概念-王树森课程笔记控制agent做动作
    • 每观测到一个状态深度强化学习基本概念-王树森课程笔记,把深度强化学习基本概念-王树森课程笔记作为policy函数的输入,深度强化学习基本概念-王树森课程笔记函数输出每一个动作的概率
    • 用得到的概率做随机抽样得到深度强化学习基本概念-王树森课程笔记
    • agent执行动作深度强化学习基本概念-王树森课程笔记
  2. Value-based learning:价值学习,学习最优价值函数深度强化学习基本概念-王树森课程笔记,用深度强化学习基本概念-王树森课程笔记控制agent做动作
    • 每观测到一个状态深度强化学习基本概念-王树森课程笔记,把深度强化学习基本概念-王树森课程笔记作为深度强化学习基本概念-王树森课程笔记函数的输入,用深度强化学习基本概念-王树森课程笔记函数对每一个动作做评价,得到每一个动作的Q值
    • 选择让深度强化学习基本概念-王树森课程笔记函数最大化的动作深度强化学习基本概念-王树森课程笔记作为下一个动作深度强化学习基本概念-王树森课程笔记深度强化学习基本概念-王树森课程笔记
  • 强化学习的任务就是学习深度强化学习基本概念-王树森课程笔记函数或深度强化学习基本概念-王树森课程笔记函数
  • 强化学习的目的是学会怎样控制agent,让agent根据当前的状态深度强化学习基本概念-王树森课程笔记来做出相应的动作深度强化学习基本概念-王树森课程笔记,争取在未来得到尽量多的奖励
  • 常用标准库:OpenAI Gym https://gym.openai.com/

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
社会演员多的头像社会演员多普通用户
上一篇 2022年5月11日
下一篇 2022年5月11日

相关推荐