本文通过整理李宏毅老师的机器学习教程的内容，简要介绍深度强化学习（deep reinforcement learning）中的 DQN（deep Q-network）算法。

李宏毅老师课程的B站链接：
李宏毅, 深度强化学习, Q-learning, basic idea
李宏毅, 深度强化学习, Q-learning, advanced tips
李宏毅, 深度强化学习, Q-learning, continuous action

1. 基本概念

DQN 是基于价值（value-based）而非策略（policy-based）的方法，学习的不是策略，而是一个评论家（critic）。critic 并不直接采取行为，而是评价行为的好坏。

1.1 状态价值函数（state value function）

有一种 critic 叫做状态价值函数（state value function） DQN（deep Q-network）算法简述，即以一个策略与环境做互动，当处于某一状态时，接下来直到游戏结束的累计激励的期望值。当策略不同时，即使状态相同，得到的激励也是不一样的，就不一样。

此外，由于无法列举所有的状态，因此 DQN（deep Q-network）算法简述实际上是一个网络，在训练时也就是一个回归（regression）问题。

具体地，衡量状态价值函数有两种不同的方法：基于蒙特卡洛的方法（Monte-Carlo based approach, MC）和基于时序差分的方法（temporal-difference approach, TD）。

基于蒙特卡洛的方法即是让 actor 与环境做互动，优化目标为，使各状态的 DQN（deep Q-network）算法简述与后续累计激励尽可能接近。
MC based approach

但是基于蒙特卡洛的方法在每次更新网络时，都需要把游戏玩到结束，但有些游戏的时间比较长，因此会采用基于时序差分的方法。该方法不需要把游戏玩到底，而是通过时序差分的方式，使相邻状态下的价值函数之差与前一状态的激励尽可能接近：
TD appraoch

由于游戏本身可能具有随机性，激励即为随机变量，其方差会对算法效果产生影响。基于蒙特卡洛的方法由于使用累计激励 DQN（deep Q-network）算法简述，方差会很大；而基于时序差分的方法使用单步激励，方差比较小，但是会遇到一个问题就是可能估计不准，也会影响学习结果。实际上，基于时序差分的方法比较常用，而基于蒙特卡洛的方法较少见。
MC v.s. TD 1

此外，两种方法产生的估计结果也可能不同，举例说明：
MC v.s. TD 2

1.2 状态-动作价值函数（state-action value function, Q function）

另一种 critic 叫做状态-动作价值函数（state-action value function），也叫 Q 函数，即在某一状态 DQN（deep Q-network）算法简述采取某一动作，假设一直使用同一个策略，得到的累计激励的期望值。

需要注意的是，对于策略 DQN（deep Q-network）算法简述来说，在状态不一定采取动作，但 Q 函数可以强制其采取动作，而后续仍使用策略继续进行，即。具体地，Q 函数有两种写法：
Q 函数的两种写法

只要有了 Q 函数，就可以做强化学习了，流程图如下：

其中：
DQN（deep Q-network）算法简述

所以，实际上并没有一个所谓的策略 DQN（deep Q-network）算法简述，是由 Q 函数推出来的。

下面证明为什么由 Q 函数推出来的 DQN（deep Q-network）算法简述比要好。

所谓的好，即是对所有状态而言，状态价值函数都更大，具体推导如下：
DQN（deep Q-network）算法简述

1.3 训练技巧

下面介绍几个 DQN 中一定会用到的技巧。

1.3.1 目标网络（target network）

第一个技巧是目标网络（target network）。

根据 Q 函数：
DQN（deep Q-network）算法简述

其中，等号左侧是网络的输出，右侧是目标，但是由于目标中含有 Q 函数，因此目标一直在变，会给训练带来困难。

解决办法是把其中一个 Q 网络（通常是等号右侧的目标网络）固定住，最小化模型输出与目标之间的均方误差（mean square error），当等号左侧的 Q 网络更新过几次之后，再用更新过的 Q 网络去替换目标网络，继续迭代。如下图所示：

1.3.2 探索（exploration）

第二个技巧是探索（exploration）。

如果在某一状态下，所有动作均未被采取过，此时采取某个动作得到了正向的激励，会导致后续出现此状态时只采取这个动作，而不去探索其他的动作：
exploration, background

这个问题就是探索-利用窘境（exploration-exploitation dilemma）问题。

解决方法有两种： DQN（deep Q-network）算法简述贪心（epsilon greedy）和玻尔兹曼探索（Boltzmann exploration）。

DQN（deep Q-network）算法简述贪心方法如下：
epsilon greedy

该方法有点像策略梯度，即根据 Q 函数定一个动作的概率分布。Q 值越大，采取该动作的概率越高，而指数运算使得概率不会为 0，即对于 Q 值小的动作也不代表不能尝试。

1.3.3 经验回放（experience replay）

第三个技巧是经验回放（experience replay），如下图所示：

经验回放

经验回放有两个好处：

其一，实际在做强化学习时，往往最耗时的步骤是与环境做互动，训练网络反而是比较快的（用 GPU 训练其实很快）。用回放缓存区可以减少与环境做互动的次数，因为在训练时，经验不需要全部来自于某一个策略。一些过去的策略所得到的经验可以放在缓存区里被使用很多次，这样的采样利用率是比较高效的。

其二，在训练网络时，我们希望一个批次里面的数据越多样越好。如果数据都是同样性质的，性能会比较差。如果数据缓存区里面的经验来自于不同的策略，容易满足多样性。

这里指的说明的是，缓存区中的经验数据，即便使用的策略 DQN（deep Q-network）算法简述与当前策略不同，也没有影响。原因是，我们每次迭代所使用的采样经验是基于一个状态，而不是一个轨迹（trajectory），所以不受 off-policy 的影响。

1.4 算法流程

算法流程

2. 进阶技巧

2.1 double DQN

在原始 DQN 算法中，由于网络存在误差，被高估的动作会被反复选择，因此 Q 值经常被高估。

为了解决这个问题，可同时使用两个网络，一个网络 DQN（deep Q-network）算法简述用于更新参数选择动作，另一个固定不动的网络用作目标网络计算 Q 值，即为 double DQN：

double DQN

参考文献：
Hado V. Hasselt, “Double Q-learning”, NIPS 2010
Hado V. Hasselt, Arthur Guez, David Silver, “Deep Reinforcement Learning with Double Q-learning”, AAAI 2016

2.2 dueling DQN

dueling DQN 与原始 DQN 唯一的差别，是改变了网络的架构：

dueling DQN I

改变架构的好处：有时可以通过更新 DQN（deep Q-network）算法简述而非即可达到效果
为了让网络倾向于更新而不是，可以对加一些约束。
dueling DQN II

参考文献：
Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot, Nando de Freitas, “Dueling Network Architectures for Deep Reinforcement Learning”, arXiv preprint, 2015

2.3 优先经验回放（prioritized replay）

对于输出与目标之间差距较大的训练数据，设置较大的被采样概率，即优先权（priority）。

实际在做 prioritized replay 时，不仅会改变采样的过程，还会因为改变采样过程而改变更新参数的方法。所以它不只是改变了采样数据的分布，还改变了训练过程。

prioritized replay

参考文献：
Prioritized Experience Replay

2.4 多步采样（multi-step）

通过连续多步的采样，可以在基于蒙特卡洛的方法和基于时序差分的方法间取得平衡：
DQN（deep Q-network）算法简述

multi-step

2.5 噪声网络（noisy net）

如前所述， DQN（deep Q-network）算法简述贪心探索相当于在动作空间加噪声，但有一个更好的方法叫做 noisy net，是在参数空间加噪声。它是指，每次在一个回合（episode）开始时，在Q 网络的每个参数上面加上一个高斯噪声（Gaussian noise），就把原来的 Q 函数变成 DQN（deep Q-network）算法简述 :