深度强化学习基本概念-王树森课程笔记

Table of Contents

概率论知识

agent：动作的发出者
policy：策略，根据观测到的状态做出决策来控制agent运动
- 强化学习学的就是policy函数
- agent动作随机，根据policy来做动作
reward：奖励
- agent做出一个动作后会得到一个奖励，通常需要自己定义
- 奖励定义的好坏十分影响强化学习的结果
- 强化学习的目标：获得的奖励总和尽量高
state transition：状态转移
- 当前状态下做出一个动作后转移到新的状态
- 状态转移可以是确定的也可以是随机的，通常是随机的（随机性来源于环境）
- 状态转移函数：
trajectory：轨迹 (state, action, reward)

agent与environment交互

💡 状态、动作奖励等变量如果被观测到了就用小写字母表示，没被观测到就是随机变量用大写字母表示

Return：回报（aka cumulative future reward，即未来累计奖励）
- 时刻的回报从时刻的奖励开始一直加到结束
- 未来的奖励没有现在的奖励值钱→的权重应低于
Discounted return：折扣回报（aka cumulative discounted future reward）
- ：折扣率，，超参数，需要自己调
  - 未来的权重和现在一样：
  - 奖励越不重要，越小
- 时刻的折扣回报
Value Function：价值函数
- 是随机变量，依赖于未来的所有动作以及未来的所有状
- Action-value Function：动作价值函数，与当前的状态和动作以及policy函数有关
  - 直观意义：已知policy函数，给当前状态下所有的动作打分，从而得知动作的好坏
- Optimal action-value function：最优动作价值函数，对关于求最大值，即选择使用让值最大的
  - 直观意义：观测到状态后对动作做评价，agent可以根据此对动作做出决策
- State-value function：状态价值函数，对关于动作求期望把消掉，得到的只与和状态有关
  - 直观意义：
    - 已知policy函数，可以判断出当前的局势如何（状态越好数值越大）
    - 判断policy函数的好坏。越好，越大

Policy-based learning：策略学习，学习policy函数，用控制agent做动作
- 每观测到一个状态，把作为policy函数的输入,函数输出每一个动作的概率
- 用得到的概率做随机抽样得到
- agent执行动作
Value-based learning：价值学习，学习最优价值函数，用控制agent做动作
- 每观测到一个状态，把作为函数的输入，用函数对每一个动作做评价，得到每一个动作的Q值
- 选择让函数最大化的动作作为下一个动作：