多智能体强化学习—QMIX

多智能体强化学习—QMIX

论文地址:https://arxiv.org/pdf/1803.11485.pdf

1 介绍

  首先介绍一下VDN(value decomposition networks)顾名思义,VDN是一种价值分解的网络,采用对每个智能体的值函数进行整合,得到一个联合动作值函数。
为了简单阐述考虑两个智能体:(o-observations,a-actions,Q-action-value function)
在这里插入图片描述
  当智能体观察他自己的目标时,但不一定是队友的目标,那么有:
多智能体强化学习—QMIX

  当(多智能体强化学习—QMIX)不足以完全建模多智能体强化学习—QMIX,利用LSTM网络的历史观测获取额外信息(t时刻看到目标A,t+5时刻目标A被挡住了,利用t+5时刻的观测数据无法获得目标A的有效信息,只有利用历史观测数据从新定位目标A)
多智能体强化学习—QMIX
  值分解网络旨在学习一个联合动作值函数 多智能体强化学习—QMIX ,其中 多智能体强化学习—QMIX 是一个联合动作-观测的历史轨迹,多智能体强化学习—QMIX是一个联合动作。它是由每个智能体 多智能体强化学习—QMIX独立计算其值函数 多智能体强化学习—QMIX,之后累加求和得到的。其关系如下所示:
多智能体强化学习—QMIX
具体请看原论文:https://arxiv.org/pdf/1706.05296.pdf

  QMIX,和VDN类似,也是一种基于价值的方法,可以以集中的端到端方式训练分散策略。QMIX采用了一个网络,将联合动作值估计为每个智能体值的复杂非线性组合(VDN是线性加和),且仅基于局部观测。并且在结构上施加约束,使联合动作值函数与每个智能体动作值函数之间是单调的,保证集中策略和分散策略之间的一致性。
IGM(Individual-Global-Max):

多智能体强化学习—QMIX

  其中,多智能体强化学习—QMIX表示联合Q函数;多智能体强化学习—QMIX表示智能体 i的动作值函数。
IGM表示多智能体强化学习—QMIX多智能体强化学习—QMIX得到相同结果,这表示在无约束条件的情况下,个体最优就代表整体最优。为了保证这一条件,QMIX以单调条件进行限制:

多智能体强化学习—QMIX

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
xiaoxingxing的头像xiaoxingxing管理团队
上一篇 2023年2月26日 上午10:21
下一篇 2023年2月26日 上午10:22

相关推荐