多智能体强化学习—QMIX

xiaoxingxing • 2023年2月26日上午10:21 • 技术文章 • 阅读 158

多智能体强化学习—QMIX

论文地址：https://arxiv.org/pdf/1803.11485.pdf

1 介绍

首先介绍一下VDN（value decomposition networks）顾名思义，VDN是一种价值分解的网络，采用对每个智能体的值函数进行整合，得到一个联合动作值函数。
为了简单阐述考虑两个智能体：（o-observations，a-actions，Q-action-value function）
在这里插入图片描述
当智能体观察他自己的目标时，但不一定是队友的目标，那么有：
多智能体强化学习—QMIX

当( 多智能体强化学习—QMIX )不足以完全建模,利用LSTM网络的历史观测获取额外信息（t时刻看到目标A，t+5时刻目标A被挡住了，利用t+5时刻的观测数据无法获得目标A的有效信息，只有利用历史观测数据从新定位目标A）

值分解网络旨在学习一个联合动作值函数多智能体强化学习—QMIX ，其中是一个联合动作-观测的历史轨迹，是一个联合动作。它是由每个智能体独立计算其值函数，之后累加求和得到的。其关系如下所示：

具体请看原论文：https://arxiv.org/pdf/1706.05296.pdf

QMIX，和VDN类似，也是一种基于价值的方法，可以以集中的端到端方式训练分散策略。QMIX采用了一个网络，将联合动作值估计为每个智能体值的复杂非线性组合（VDN是线性加和），且仅基于局部观测。并且在结构上施加约束，使联合动作值函数与每个智能体动作值函数之间是单调的，保证集中策略和分散策略之间的一致性。
IGM（Individual-Global-Max）：

多智能体强化学习—QMIX