赞
踩
多智能体强化学习问题不仅有环境交互问题,还有智能体之间的动态影响,因此为了得到最优策略,每个智能体都需要考察其他智能体的动作及状态得到联合动作值函数。以何种形式怎么获取其他智能体的信息成为了研究焦点。
本文主要关注协作学习。
简写 | 全称 | 翻译 |
---|---|---|
Dec-POMDP | Decentralized-Partially Observable Markoc Decision Process | 非中心部分可观马尔可夫决策过程 |
C \mathbb C CDec-POMDP | collective Dec-POMDP | 形式化了不确定性下的集体多智能体顺序决策问题 |
CTDE | Centralized Training Decentralized Execution | 中心化训练去中心化执行 |
CTCE | Centralized Training Centralized Execution | 中心化训练中心化执行 |
本文主要关注协作学习
[Multi-Agent Determinantal Q-Learning] 给出了另一种分类方式:
3. 协作学习简单的可以分为三种方式:
VDN,QMIX,QTRAN
)MADDPG,COMA,MASQL,MAAC
)Stabilising experience replay, DRQN
)CTDE框架居多。基于值函数的方法中一个基本的挑战是:“如何正确地分解代理之间的联合值函数以进行分散执行。”
对于协作任务是可去中心化的任务,要求每个代理的值函数上的局部最大值应该等于联合值函数上的全局最大值。
解决Dec-POMDP问题。
满足联合值函数与局部值函数单调性相同的可以进行分布化策略的条件,即使得’局部值函数最大对应的动作也使得联合动作值函数最大’。
核心思想:联合Q函数等于所有智能体的局部值函数求和。
基本思想:对每个智能体的Q函数相加,整合为一个联合的Q函数。其中局部Q函数只依赖于每个智能体的局部观测。联合的Q函数等于局部值函数的累加。For example,联合动作-值函数 Q t o t = ∑ i = 1 n Q i ( τ i , a i ; θ i ) Q_{tot}=\sum_{i=1}^{n}Q_i(\tau_i,a_i;\theta_i) Qtot=∑i=1nQi(τi,ai;θi),其中 τ = ( τ 1 , . . . , τ n ) \tau=(\tau_1,...,\tau_n) τ=(τ1,...,τn)为联合动作-观测历史, τ i = ( a i , 0 , o i , 0 . . . , a i , t , o i , t ) \tau_i=(a_{i,0},o_{i,0}...,a_{i,t},o_{i,t}) τi=(ai,0,oi,0...,ai,t,oi,t), i i i 为agent的索引, t t t 是step的索引。
是 VDN 算法的后续工作,它的出发点是 VDN 做联合 Q-value 分解时只是进行简单的加和(线性),没有办法捕捉到智能体之间更复杂的相互关系。QMIX的主要创新是采用一个混合网络对单智能体局部值函数进行合并,并在训练学习过程中加入全局状态信息辅助,来提高算法性能。
核心思想:用 Mixed network(一个神经网络)拟合所有智能体的局部值函数与联合值函数的非线性关系,来替代VDN中线性的加和。
VDN是对局部Q函数加和得到联合Q函数,指导多智能体行动,是线性的;
QMIX认为VDN这种线性的合并方式无法拟合复杂的函数关系,比如非线性的。因此他提出了更一般的单调性条件,i.e., 联合Q函数对局部Q函数的偏导≥0;
QTRAN的动机是他认为VDN和QMIX无法处理非单调收益的合作问题。作者声称其所提的QTRAN能分解任何可分解的任务。
在QMIX的基础上引入了一个改进的学习目标,以及特定的网络设计。
对 VDN 以及 QMIX 算法的进一步改进。将根据局部 Q 函数采用神经网络去逼近联合 Q 函数分为两步
文章认为现有的 value-based CTDE 方法,例如 VDN / QMIX / QTRAN 的性能会受到其定义的函数族的限制。具体地,限制了集中值函数的表征能力;并且阻碍了在应用于值函数分解时的有效探索。
为了解决这个问题,文章认为如果在算法执行的过程中,每个智能体执行的动作之间差异足够大,那么可以认为对于每个智能体而言其最优动作不受到其余智能体动作的影响。这样就意味着在每个智能体的值函数上分别求得的局部最优等价于在联合值函数上求得的全局最优。
因此,本文也是仅考虑了离散状态和空间
。随着智能体数量的增多,其状态空间跟动作空间迅速扩大,这给计算以及探索带来了非常大的困难。
借用平均场论(Mean Field Theory,MFT)的思想,将一个智能体与其邻居智能体之间的相互作用简化为两个智能体之间的相互作用(该智能体与其所有邻居的均值),以极大地简化智能体数量带来的模型空间的增大
成立的前提是:单个智能体的最优策略的学习是基于智能体群体的动态;同时,集体的动态也根据个体的策略进行更新。
由于每个智能体的策略还是需要全局的状态信息,并不算真正的分布式算法,并且算法的性能依赖于通信获取邻居智能体的动作
i.e.,
a
k
a_k
ak。 不可否认的是,这是一个解决大规模MA学习的方法,并且理论证明很严格。
集中式
MARL中,联合动作
a
a
a的维度随智能体数量
n
n
n的增多极速扩大的情况。因为每个智能体是同时根据联合策略估计自身的值函数,因此当联合动作空间很大时,学习效率及学习效果非常差.仅对联合动作a做了近似,状态信息s仍然是全局信息。
paper中同时提到了连续的算法也可以用该思想设计,比如说DPG
充分利用Actor-critic的架构,中心化学习(共享/独立)Critic 但是每个智能体独立的 Actor,处理算法可扩展性问题,提高抗环境非平稳能力
通过中心化学习一个联合的critic解决以下问题:由于策略梯度是由根据其余智能体当前策略得到的一个期望联合 Q-value 来进行放缩的,其余智能体的当前策略不一定是最优的回应该智能体的策略,会导致策略梯度估计不准确。仍然存在relative overgeneralization问题
每个Agent的Critic部分能够获取其余所有Agent的动作信息,进行中心化训练和非中心化执行,即在训练的时候,引入可以观察全局的Critic来指导Actor训练,而测试的时候只使用有局部观测的actor采取行动。
MADDPG的一个启发就是,如果我们知道所有的智能体的动作,那么环境就是稳定的,就算策略在不断更新环境也是恒定的,因为模型动力学是稳定的。
假定每一个智能体拥有自己独立的 critic- and actor-network,并且有独立的回报函数,可以同时解决协作、竞争以及混合环境下的多智能体问题。
CTDE框架:假定每个智能体在训练时都能够获取其余所有智能体的局部观察以及动作,因而 critic network 独立,但需要中心化训练。
由于每个智能体的 critic 网络是基于全局信息的,因而可以处理环境非平稳问题。也就是每个智能体i的Q函数 Q i Q_i Qi是由所有的智能体的联合动作和观测所求得的。
提出估计其余智能体 policy 的方法。(因为假设中心化训练每个智能体的 critic network 时,需要知晓所有智能体当前时间步的局部观察以及动作,知晓每个智能体的动作(即策略)是一个比较强的假设。)每个智能体均维护一个其余智能体 actor network 的估计,通过历史每个智能体的数据,使用损失函数监督训练这个估计的 actor network。
Policies Ensemble:给每个智能体同时训练 k 个 actor network 的方式,使得智能体对于其他智能体策略的变化更加鲁棒。(因为训练出的针对每个智能体的 policy 容易对其余智能体过拟合,但是其余智能体的 policy 随着训练过程的进行是不断更新的。其中每个 actor 都有独立的 experience replay)
只有一个buffer。其中存储的是 ( s , a , r , s ′ ) (\mathbf s,\mathbf a,\mathbf r,\mathbf s') (s,a,r,s′),所有智能体的联合观测、动作和奖励。
更详细的:多智能体强化学习:MADDPG算法
旨在解决 Dec-POMDP 问题中的 multi-agent credit assignment 问题
multi-agent credit assignment 问题:多智能体信用分配问题。这个问题简单概括来说,由于 Dec-POMDP 问题中所有智能体共享同一个全局回报,因而每个智能体不知道自己的行为到底对这个全局回报产生了多大的影响
信令消耗
);默认策略得到的回报可能并不在仿真器的建模之中,因而需要进行估计;默认策略的选取是完全主观的。类似于 MADDPG 的遵循 CTDE 框架的 MASQL(论文中没有这样进行缩写) 算法,本质上是将 Soft Q-Learning 算法迁移到多智能体环境中,因而与将 DDPG 算法迁移到多智能体环境中的 MADDPG 算法类似,不过 MASQL 算法解决的是 Dec-POMDP 问题。
将 MADDPG 采用的 DDPG 算法替换为 SAC(soft actor-critic)算法,并将 COMA 提出的 counterfactual baseline 引入进来,因而可以同时处理协作、竞争以及混合环境,遵循 CTDE 框架。
核心思想体现在: 将注意力机制引入到 Q function 的构建之中,并在critic网络进行参数共享。
(MADDPG中每个智能体对应的 Q function 都是将其余智能体的局部观察以及动作无差别的作为输入,但是在现实场景中,智能体对于其余智能体的关注度是不一样的。)
注意力权重度量了两个智能体embedding的相似程度
。这样可使智能体更多关注与自己相似的智能体,提高信息利用率。聚焦于使用 ER 训练 Q-function 时增加稳定性
。
解决 partial observation
的问题, 采用 DRQN 算法。
提出了 concurrent experience replay trajectories
的概念,即每个智能体在独立训练自己的 Q-function 时,从 ER 中 sample 出来的数据需要从 episode 层面以及时间层面上对齐。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。