Mastering the game of Go with deep neural networks and tree search
战绩
具体方法
监督学习 + 强化学习 + MCTS
监督学习阶段
走棋网络(Policy Network)
SL-policy network :
采用监督学习的方式来学习人类数据,输入棋盘特征,输出落子的概率,通过最大化似然的方式优化;
网络结构 13-layer CNN:
棋盘特征:
liberties:气(每个落子气的数量,临近空的点)
准确率:57% (3毫秒)
快速走子(Fast rollout)
rollout policy :
线性softmax, 采用人工提取的围棋特征进行输入:
特征:24.2% (2微秒)
强化学习阶段
RL Policy Network + Value-Network
RL Policy Network
训练步骤:
-
将SL-policy network作为该阶段的初始网络RL Policy Network
-
将RL Policy Network与之前某个随机版本进行对决,得到输赢结果
-
根据输赢结果使用PG算法对参数进行更新:
-
目标函数:
-
Policy Gradient:
-
(其中reward函数: ,当游戏终止时,赢了reward=1,输了reward = -1)
-
Value Network
作用:??
与 之前的网络结构相同,不同之处是最终输出一个预测值,采用MSE作为目标函数:
效果:
蒙特卡罗树搜索
思想:模拟人类下棋的思路,将树搜索与policy,value-network相结合,多次模拟未来的棋局,最后选择次数最多的走法:
整体流程:
1.选择action:
其中
2. 评估状态:value network + fast rollout 共同评估(记录)
实验:
- 即使在,只使用value-network的情况下,也比其他go算法更强,这表明value-network为围棋中的蒙特卡洛评估提供了可行的替代方案。
- 当,效果最好,相互补充的作用:the value network approximates the outcome of games played by the strong but impractically slow pρ, while the rollouts can precisely score and evaluate the outcome of games played by the weaker but faster rollout policy pπ.
为什么能够战胜人类?
实验
文章出处登录后可见!
已经登录?立即刷新