站点图标 AI技术聚合

深度强化学习基本概念-王树森课程笔记

概率论知识

  • Random Value
    • 随机变量:深度强化学习基本概念-王树森课程笔记
    • 随机变量的观测值(没有随机性):
    • :随机变量的定义域
  • Probability Density Function:随机变量在某个确定的取值点附近的可能性
    • 概率密度函数:
    • 连续分布:
    • 离散分布:
  • Expectation:函数的期望
    • 期望:
    • 连续分布:
    • 离散分布:
  • Random Sampling
    • 随机抽样

强化学习专业术语

  • state:状态

  • action:动作

  • agent:动作的发出者

  • policy:策略 ,根据观测到的状态做出决策来控制agent运动

    • 强化学习学的就是policy函数
    • agent动作随机,根据policy来做动作

  • reward:奖励

    • agent做出一个动作后会得到一个奖励,通常需要自己定义
    • 奖励定义的好坏十分影响强化学习的结果
    • 强化学习的目标:获得的奖励总和尽量高
  • state transition:状态转移

    • 当前状态下做出一个动作后转移到新的状态
    • 状态转移可以是确定的也可以是随机的,通常是随机的(随机性来源于环境)
    • 状态转移函数
  • trajectory:轨迹 (state, action, reward)

  • agent与environment交互

    1. 环境给出当前state
    2. agent根据做出动作
    3. 环境更新状态state为,并给agent奖励
    💡 状态、动作奖励等变量如果被观测到了就用小写字母表示,没被观测到就是随机变量用大写字母表示
    

强化学习的随机性来源

  • action

    • action是由policy函数随机抽样得到的

  • state transition

    • 环境用状态转移函数算出概率,用概率随机抽样得到下一个状态

Rewards, Returns & Value Fuctions

  • Return:回报(aka cumulative future reward,即未来累计奖励)
    • 时刻的回报 时刻的奖励开始一直加到结束
    • 未来的奖励没有现在的奖励值钱→的权重应低于
  • Discounted return:折扣回报(aka cumulative discounted future reward)
    • :折扣率,,超参数,需要自己调
      • 未来的权重和现在一样:
      • 奖励越不重要,越小
    • 时刻的折扣回报
  • Value Function:价值函数
    • 是随机变量,依赖于未来的所有动作以及未来的所有状

    • Action-value Function:动作价值函数,与当前的状态和动作以及policy函数有关

      • 直观意义:已知policy函数给当前状态下所有的动作打分,从而得知动作的好坏
    • Optimal action-value function:最优动作价值函数,对关于求最大值,即选择使用让值最大的

      • 直观意义:观测到状态后对动作做评价,agent可以根据此对动作做出决策
    • State-value function:状态价值函数,对关于动作求期望把消掉,得到的只与和状态有关

      • 直观意义:
        • 已知policy函数,可以判断出当前的局势如何(状态越好数值越大)
        • 判断policy函数的好坏。越好,越大

强化学习用AI控制agent

  1. Policy-based learning:策略学习,学习policy函数,用控制agent做动作
    • 每观测到一个状态,把作为policy函数的输入,函数输出每一个动作的概率
    • 用得到的概率做随机抽样得到
    • agent执行动作
  2. Value-based learning:价值学习,学习最优价值函数,用控制agent做动作
    • 每观测到一个状态,把作为函数的输入,用函数对每一个动作做评价,得到每一个动作的Q值
    • 选择让函数最大化的动作作为下一个动作
  • 强化学习的任务就是学习函数或函数
  • 强化学习的目的是学会怎样控制agent,让agent根据当前的状态来做出相应的动作,争取在未来得到尽量多的奖励
  • 常用标准库:OpenAI Gym https://gym.openai.com/

文章出处登录后可见!

已经登录?立即刷新
退出移动版