Alpha-go论文分享

Mastering the game of Go with deep neural networks and tree search

战绩

具体方法

监督学习 + 强化学习 + MCTS

监督学习阶段

走棋网络(Policy Network)

SL-policy network Alpha-go论文分享:
采用监督学习的方式来学习人类数据,输入棋盘特征,输出落子的概率,通过最大化似然的方式优化;
网络结构 13-layer CNN:
Alpha-go论文分享

棋盘特征:
Alpha-go论文分享
liberties:气(每个落子气的数量,临近空的点)
准确率:57% (3毫秒)
Alpha-go论文分享

快速走子(Fast rollout)

rollout policy Alpha-go论文分享
线性softmax, 采用人工提取的围棋特征进行输入:
特征:24.2% (2微秒)
Alpha-go论文分享

强化学习阶段

RL Policy Network + Value-Network

RL Policy Network

训练步骤:

  • 将SL-policy network作为该阶段的初始网络RL Policy Network

  • 将RL Policy Network与之前某个随机版本进行对决,得到输赢结果

  • 根据输赢结果使用PG算法对参数进行更新:

    • 目标函数:
      Alpha-go论文分享

    • Policy Gradient:
      Alpha-go论文分享

    • Alpha-go论文分享 (其中reward函数: Alpha-go论文分享,当游戏终止时,赢了reward=1,输了reward = -1)

    • Alpha-go论文分享

Value Network

作用:??
Alpha-go论文分享

与 之前的网络结构相同,不同之处是最终输出一个预测值,采用MSE作为目标函数:
Alpha-go论文分享

效果:
Alpha-go论文分享

蒙特卡罗树搜索

思想:模拟人类下棋的思路,将树搜索与policy,value-network相结合,多次模拟未来的棋局,最后选择次数最多的走法:
Alpha-go论文分享
整体流程:

1.选择action: List item
Alpha-go论文分享
其中Alpha-go论文分享
2. 评估状态:value network + fast rollout Alpha-go论文分享共同评估(记录)
Alpha-go论文分享

实验:
Alpha-go论文分享

  • 即使在Alpha-go论文分享,只使用value-network的情况下,也比其他go算法更强,这表明value-network为围棋中的蒙特卡洛评估提供了可行的替代方案。
  • Alpha-go论文分享,效果最好,相互补充的作用:the value network approximates the outcome of games played by the strong but impractically slow pρ, while the rollouts can precisely score and evaluate the outcome of games played by the weaker but faster rollout policy pπ.

为什么能够战胜人类?

实验

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
社会演员多的头像社会演员多普通用户
上一篇 2022年6月13日
下一篇 2022年6月13日

相关推荐