3分pk10 三分pk10 三分pk10app 三分pk10官网三分pk10玩法

当前位置: 3分pk10 > 三分pk10玩法 >

三分pk10玩法 配相符多智能体深化学习中的回报函数设计

时间:2020-05-09 01:39来源:未知 作者:admin 点击: 145 次
原标题:配相符多智能体深化学习中的回报函数设计 ©PaperWeekly 原创 · 作者|李文浩 私塾|华东师范大学博士生 钻研倾向|深化学习 下面总结几篇涉及到为使得多智能体深化学习(

原标题:配相符多智能体深化学习中的回报函数设计

©PaperWeekly 原创 · 作者|李文浩

私塾|华东师范大学博士生

钻研倾向|深化学习

下面总结几篇涉及到为使得多智能体深化学习(MARL)算法能够更益地解决配相符题目,而对智能体回报函数(reward function)进走设计的近年论文。这些论文主要可分为以下两个倾向:1)解决多智能体社会逆境(social dilemma)题目;2)解决多智能体追求(exploration)题目。

多智能体社会逆境题目

社会逆境题目,浅易来说,能够如下注释: 智能体会由于为了自身短期益处做出的走为而损坏整体长期益处。下面介绍几篇解决此题目的做事(按期间排序)。

AAMAS '18

论文标题:Prosocial learning agents solve generalized Stag Hunts better than selfish ones

论文来源:AAMAS '18

论文链接:https://arxiv.org/abs/1709.02865

这篇做事属于比较早期的做事,其解决的题目也都是只有两个智能体的题目。并且这边所用的多智能体算法属于 Independent MARL 手段,即每个智能体都将其他智能体当作环境的一片面。这篇论文不考虑 MARL 中的环境担心稳(non-stationary)题目。

这边所谓的清淡雄鹿狩猎(generalized Stag Hunts)题目相通于“罪人逆境”题目,数学定义如下:

▲ 图1:Generalized Stag Hunts Problem

其中, 。如许一个题目包含两个纳什均衡(Nash equilibrium),别离是(Hunt,Hunt)以及(Forage)。

吾们把前者称为利润主导(payoff dominant),后者称为风险主导(risk dominant)。其次,从 能够望出,一旦一个智能体选择 Hunt 另一个智能体选择 Forage,只有选择 Hunt 的智能体会收到责罚。

下面考虑两个智能体一连地面临上述题目,末了更能够抑制到哪一个纳什均衡呢?假定两个智能体最最先互相认为对方会有 的概率选择 Hunt 行为,并且智能体按照这个概率进走最优的决策。

同时,智能体会按照对方做的实在决策,以准确的倾向更新这个概率(即倘若对方选择 Hunt,那么概率增补;否则缩短)。

那么吾们能够得出,倘若 , 那么智能体 就会选择 Hunt 行为,据此吾们就能够计算出一个关键的信任度 。有了这个关键的信任度,吾们就能够晓畅两个智能体更能够抑制到哪一个纳什均衡:

▲ 图2:基于信任度的算法的抑制倾向,倚赖于初首状态以及整个利润矩阵 payoff matrix。这对于行使 action value 的深化学习手段同样适用。

下面吾们考虑如何设计一个算法能够使得两个智能体能够抑制到利润主导的纳什均衡。最先引入以下定义:

一个亲社会的(prosocial)智能体的效用函数(utility)如下:

其中 代外智能体的亲社会等级。 外示智能体是十足自私的(perfectly selfish), 外示智能体是十足亲社会的(fully prosocial), 外示智能体是十足无私的(selfness)。

由此,吾们能够得到以下定理:

定理:在一个清淡的雄鹿狩猎题目中,(Hunt,Hunt)利润主导的纳什均衡的吸引池(basin of attraction)的大小随着两边智能体亲社会级别的增补而增补。存在 ,若肆意一个智能体的 ,那么上述清淡的雄鹿狩猎题目只有一个内部抑制子(interior attractor),即利润主导的纳什均衡(Hunt,Hunt)。

下面给出表明:

引入亲社会效用函数后,倘若

那么智能体 就会选择 Hunt 行为。经过浅易计算,能够得出最小的 已足 。经过清淡雄鹿狩猎题目的定义可知,三个括号项都为厉格正值,因而, 的值随着 的添大而减小(即吸引池大小随着 的添大而添大)。

令 能够解得最优 为 。按照清淡雄鹿狩猎题目的定义,有 ,因而 。

将其扩展到大于两个智能体的场景(并不及扩展到清淡的多智能体场景,内心上照样两个智能体),吾们能够得出以下引理:

对于肆意对称 游玩,倘若该游玩的纯粹均衡(pure equilibria)是对称的,且肆意一对策略的子利润矩阵已足清淡雄鹿狩猎题目的定义,则上述定理同样成立。

上面引理的定义这边不再周详推导了,感趣味的读者能够参考原论文。

实验片面,作者在浅易环境(matrix game)以及复杂环境(markov game)下,以及两个智能体以及多个智能体条件下,都进走了实验。其中前者行使的是 REINFORCE 算法,后者行使的是 A3C 算法。

▲ 图3:在雄鹿狩猎题目中,采用策略梯度算法训练的自私智能体无法取得很益的性能,但是即使只有一个智能体是亲社会的,末了都能抑制到一个更益的终局,即使不及保证。对于多个智能体,亲社会智能体将与其连接的智能体的利润进走乞降或者平均。将雄鹿狩猎题目扩展到多个智能体的环境,未必只有一个亲社会智能体也能够隐微升迁奏效,例如将星状网络的中间智能体变为亲社会智能体;但未必即使有多个亲社会智能体,最后抑制的奏效也不尽人意,例如 Weak Link 游玩以及全连接网络的雄鹿狩猎。

▲ 图4:固然马尔可夫游玩有更复杂的策略空间,但是照样保留了雄鹿狩猎题目的高层属性,即社会逆境。

▲ 图5:风险增补会导致抑制到必要更少配相符的纳什均衡,但授予智能体亲社会性能够升迁智能体间的配相符能力,从而抑制到更益的终局。亲社会性在 Markov Stag Hunt 和 Harvest 环境中风险极高的情况下影响最弱。

亲社会性同样存在很多限制性。最先,倘若游玩(或者游玩中的某些片面)不属于雄鹿狩猎游玩,那么授予一个智能体亲社会性能够或引入新的次优的纳什均衡。

例如,在社会逆境中一个亲社会智能体能够会被其友人所适宜。其次,在一个智能体的行为只会对其余智能体造成细微影响的环境中,亲社会回报将会增补智能体利润的方差,从而使得深化学习算法抑制速度变慢。

末了,本文倘若智能体能够对其余智能体的走为做出最优回答,但是当智能体无法做出最优回答时,做出自私的决策能够有更益的终局。本文关注于亲社会性是由于这是一个只转折智能体回报函数的简片面法。

末了作者挑出了如下三个值得思考的题目:

如何在智能体学习的过程中显式地考虑其余智能体的影响,而不是像本文相通自力学习(这个已经有一些做事)? 由于深度深化学习引入函数估计,如何设计一个益的网络组织? 人类的活动中,自身很难抑制到利润主导的纳什均衡,但是引入人造智能体后,能够引导人类群体抑制到更益的终局,如何将本文的终局扩展到人机协同中?

社会逆境与更益地配相符之间有何有关?

ICLR 2018

论文标题:Consequentialist Conditional Cooperation in Social Dilemmas with Imperfect Information

论文来源:ICLR 2018

论文链接:https://arxiv.org/abs/1710.06975

本文考虑的题目是三分pk10玩法,行使深化学习手段解决只有片面不益看察(片面不益看察到环境以及其余智能体的行为)的社会逆境。

最浅易的社会逆境即罪人逆境(Prisoner's Dilemma, PD)三分pk10玩法,两个智能体在两个行为中选择其一三分pk10玩法,配相符或叛变。互相配相符两边能够获得最高的利润,但是不论一个智能体选择什么行为,另一个智能体都能够经过叛变得到较高的利润(与雄鹿狩猎题目相通)。

当上述题目变成一个重复题目时,即两个智能体一连面临罪人逆境,现在比较益的策略是“以眼还眼” (tit-for-tat, TFT)。TFT 策略很浅易,即复制另一个智能体上一轮的行为,用异日的配相符来回馈现在的配相符。

TFT策略有以下几个特点:1)易于注释;2)从配相符最先;3)倘若另一个智能体同样选择配相符,则会收到很高的利润;4)能够避免被适宜;5)该策略会谅解另一个智能体的叛变走为。

具体望一个例子,假定现在的利润矩阵如下所示:

吾们假定 智能体行使 TFT 策略,则第一轮它会选择配相符行为 。下面吾们望 做分歧行为时的情况。倘若 一向选择配相符,那么,

逆之,倘若其一向选择叛变,那么 就会以眼还眼。

而倘若 中途又选择配相符,则 接下来也会选择配相符,会谅解其叛变走为。倘若两个智能体都按照 TFT 策略,那么最后这个不息的罪人逆境题目最后就会抑制到利润主导的纳什均衡。

TFT 属于条件协同(conditionally cooperative)策略的一栽,即行使这栽策略的智能体只有当某栽特定条件已足时(对于 TFT 来说,这个条件即另一智能体上一个行为选择协同)才会选择协同。

然而 TFT 策略必要对另一智能体的走为具完善的不益看测,且必要完善地理解另一智能体的走为的异日终局。

倘若新闻是不完善的,则智能体必须倚赖其能够不益看测到的新闻,来展望另外智能体是否配相符并由此进走回答。

本文外明,当游玩能够遍历一切状态(ergodic),则不益看察到的回报能够行为统计量——倘若现在总回报(平均回报)超过某一与时间无关的阈值(经过行使深化学习算法进走自吾博弈计算),则智能体选择配相符,否则不配相符。

本文将上述过程称之为终局性条件配相符(consequentialist conditional cooperation,CCC)。

本文的实验环境为 Fishery。在 Fishery 游玩中,两个智能体生活在有鱼展现的湖泊的两侧。该游玩智能体只拥有片面不益看测,由于智能体无法不益看测到整个湖面发生的情况。鱼随机产卵,从未成熟最先,从一侧游到另一侧并变得成熟。

智能体能够在湖边捉鱼。捕捞任何成熟度鱼类都能获得回报,但成熟的鱼类更有价值。因此,配相符策略是指将小鱼留给另一智能体的策略。但是,存在一栽叛变策略,即既捕捉小鱼也捕捉成熟鱼。

下面吾们将配相符策略记为 , 叛变策略记为 ,并且假定一个纳什均衡策略对 已足以下性质:1)对于两个智能体来说,上述叛变策略对在长期来望相比于最优策略获得的利润更矮;2)倘若某个智能体行使同化策略 ,即某些时刻采用配相符策略,某些时刻采用叛变策略,则有

第二个倘若外明,即使智能体只在某些时刻行使叛变策略,也可使得其利润增补(固然这是竖立在损坏了整体益处的基础上)。

为了行使 CCC 策略,智能体必要维护一个现在时刻的平均回报 。给定一个阈值 ,智能体在 时实走配相符策略 ,否则实走 。令 外示两个智能体实走 的概率, 外示智能体自身实走 另一智能体实走 的概率。

令 ,其中 是一个懈弛参数,用以外示智能体的仁慈(leniency)程度。按照以上,吾们能够得出如下定理(表明略):

倘若智能体 实走 CCC 策略,则有:

1)配相符胜利(Cooperation Wins):倘若智能体 实走 ,则有 。

2)叛变异国利润(Defecting Doesn’t Pay):倘若智能体 实走的策略使得智能体 长期利润小于 ,则有

因此,CCC 策略拥有与 TFT 策略相通的益处,同时,其不必要十足不益看测。然而,上述做法只能保证长期利润。下面吾们来望望如何经过深化学习手段来构建 CCC 策略。最先吾们必要训练出配相符策略 以及 叛变策略 :

1)自私策略——经过自吾博弈,两个智能体的回报函数均为自身的回报函数。这是零和多智能体题目标准的自吾博弈流程。经过这栽手段训练出的策略记为 。

2)亲社会策略——经过自吾博弈,两个智能体的回报函数不光包括自身,同时包括另一智能体。经过这栽手段训练的策略记为 。

本文行使的深化学习算法基于策略梯度手段,但是不及行使基于状态值函数的手段(例如演员-评论家算法)。例如智能体做了两个分歧的策略:“吃失踪小鱼”以及“将小鱼放去另一面”,只望状态的话这两个状态是相反的(小鱼湮灭),因而逆而会窒碍深化学习算法抑制。

同时,清淡片面不益看测环境下运走的深化学习算法都会行使 RNN 行为策略网络,但是本文行使的环境 Fishery,由于智能体做决策不必要按照不及不益看察到的片面(另一面的情况),因而 RNN 是无用的。

为了能够行使 CCC 策略,吾们必须计算出 CCC 必要的阈值。计算这个阈值时必须考虑到下述三栽情况引入的方差:1)两个智能体的同栽策略,由于行使的是函数估计,因而纷歧定相通(输出层存在随机采样);2)初首状态的分歧在有限时间能够会造成影响;3)回报本身就包含随机性。

仔细,下面吾们要计算的阈值是针对每个时间步的,而不是整个 episode 都是联相符个阈值。具体计算公式如下:

其中 代外轮数, 代外到 时间步为止的累积利润。 代外 轮实验中搜集到的累积回报的 分位数。吾们能够经过调整超参数 以及 来必定程度减小方差带来的影响。下面是 CCC 算法的假代码。

实验一:Fishery

▲ 图6:在 Fishery 环境中,两个智能体住在湖的两侧,不能够相互直接不益看察到对方的行为。每个时间步能够会有一只鱼在一侧出生,并且去另一侧游动。鱼从小年状态最先,到达湖的中间部位就会变得成熟。进走自私策略的自吾博弈训练会导致智能体尝试吃失踪一切的鱼,因而无法得到最优的利润,但逆之亲社会的训练能够使得两个智能体学会配相符策略。

实验二:乒乓球行动员逆境(Pong Players' Dilemma)

由于任何完善不益看测的游玩都能够被认为是片面不益看测的(只不过这边的片面是指通盘),那么 CCC 同样能够被用来解决完善不益看测的题目。

▲ 图7:在乒乓球行动员逆境中,进走自私策略的自吾博弈训练会使得智能体辛勤去得分,从而抑制到很差的整体益处上。配相符者则会尝试去软软的击球,从而两方都能够得分并且异国一方会失球。采用 CCC 策略的智能相符适临一个配相符的智能体时也会配相符,同时不容易被叛变者所欺骗。然而,在更添有风险的乒乓球行动员逆境中,CCC 的外现无法超过基准算法。

NIPS 2018

论文标题:Inequity aversion improves cooperation in intertemporal social dilemmas

论文来源:NIPS 2018

论文链接:https://arxiv.org/abs/1803.08884

相比于上述两篇做事只能解决 repeated matrix 社会逆境题目,这篇做事经过引入不公平厌倦(Inequity aversion [1])理论,使得基于此的深化学习算法能够解决复杂的视频游玩,并且是真实的多智能体社会逆境题目。

很多分歧的钻研周围,包括经济学,进化生物学,社会学,情绪学和政治形而上学,都得出了以下不益看点:公平规范(fairness norm)能够解决社会逆境。在一个多所周知的模型中,经过假定智能体具有不公平厌倦偏益来解决社会逆境。

拥有上述偏益的智能体会追求一个均衡,即自身对小我奖励的期待,以及保持本身的奖励与他人的奖励之间的谬误尽能够小,之间的均衡。

具有上述偏益的智能体能够经过抑制超越其余智能体的勾引,或(倘若能够的话)经过责罚和劝阻搭便车(free-riding)走为来解决社会难题。不屈等厌倦模型已成功地用于注释各栽实验室经济博弈中的人类走为。

对于社会逆境题目,倘若用利润矩阵(payoff matrix)来外示,只能够外示只有 2 个智能体的情况。一旦智能体数目大于 2,则利润矩阵将变成高维张量,不易于外示以及处理。因而本文行使了另一栽外示手段,谢林图(Shelling Diagram[2] )。

谢林图浅易来说,描述了在其余配相符者数目固定的情况下,一个智能体选择配相符或者叛变后,获得的相对利润。因而谢林图的横坐标是除了某个智能体之外,盈余智能体中选择配相符行为的智能体个数;纵坐标则是这个智能体别离选择配相符以及叛变,所对答的利润。

吾们能够望几个只有两个智能体的社会逆境题目(例如上述的雄鹿狩猎,或者罪人逆境等),对答的谢林图。

▲ 图8:Chicken,雄鹿狩猎以及罪人逆境的谢林图外示

接着,吾们必要对大于两个智能体的社会逆境题目进走一个正式的定义。一个包含 个智能体的序列社会逆境(sequential social dilemma)是关于一个马尔科夫游玩(Markov game)的一个元组 。

这个元组包括两个不相交的策略荟萃,别离是配相符策略荟萃以及叛变策略荟萃,并已足下列性质。

考虑一个实例 ,其中 。这外示 个智能体中有 个智能体实走配相符策略,盈余的则实走叛变策略。对于吾们必要关注的智能体,倘若其实走的是配相符策略,那么把它的利润记为 ;逆之,倘若其实走的是叛变策略,那么把它的利润记为 。

一个谢林图绘制 以及 两条弯线。具体来说,谢林图针对的是第 个智能体,其表现了在其余 个智能体所选择的策略固定的情况下,这个智能体选择配相符(则统统有 选择配相符的智能体)或者选择叛变(则统统照样 个智能体)后,其所获得的利润 以及 ,随着 的取值分歧( ),这两栽情况就变成了两条弯线(更实在答该是折线,其定义域是自然数)。

当且仅当 已足下列条件时才属于序列社会逆境:

1. 相比于互相叛变更倾向于互相配相符: (上述谢林图中蓝线的尽头值大于红线的首点值);

2. 相比于被叛变者行使更倾向于互相配相符: (上述谢林图中蓝线的尽头值大于蓝线的首点值);

3. 要么具有恐惧(fear)属性,要么具有贪婪(greed)属性,要么都有:

恐惧:为了防止被行使更倾向于互相叛变,即对于有余小的 有 (上述谢林图中挨近原点,红线值大于蓝线值,例如雄鹿狩猎题目、罪人逆境题目); 贪婪:相比于互相配相符更倾向于行使配相符者,即对于有余大的 有 (上述谢林图中挨近尽头,红线值大于蓝线值,例如 Chicken 题目)。

因而按照上述定义,上面展现的三个题目都属于智能体数现在为 2 的序列社会逆境题目。同时,吾们还能够定义,一个序列社会逆境题目是跨时期的(intertemporal)。跨时期的意思是,在短期内(short-term)选择叛变是最优的。

更正式地来说,对于一个智能体 ,在不考虑其余智能体策略的情况下,给定一个初首状态,对于一切有余小的 ,在接下来 个时间步能够获得最大利润的策略 属于叛变策略。

多智能体社会逆境题目能够分为以下两类:

Public goods dilemmas,吾称之为创造者逆境,即单个智能体为了挑供公共资源必须支付成本。

Common dilemmas,吾称之为消耗者逆境,即单个智能体为了自身益处会自私地占领公共资源。

本文别离针对这两类题目设计了两个跨时期的序列社会逆境题目,Cleanup 游玩以及 Harvest 游玩。这两个游玩都是片面不益看测的二维网格游玩。

▲ 图9:游玩截图。A:Cleanup 游玩。B:Harvest 游玩。B 图中同时展现了智能体的片面视野周围,这个周围对于一切游玩来说是相通的。

在 Cleanup 游玩中,群体的现在标是从田间搜集苹果。每个苹果挑供的奖励为 。苹果的滋长受地理上相互阻隔的含水层限制,该含水层挑供水和养分。随着时间的流逝,该含水层足够了废物,线性降矮了苹果的新生率。倘若废物程度有余高,则不及产生任何苹果。

在每个 episode 最先时,环境都会被重置为废物程度刚益超过此饱和点。为了使苹果滋长,智能体们必须消弭一些废物。在这边,吾们存在一个社会逆境。

某些智能体必要经过清算含水层为公共益处做出贡献,但是呆在苹果田里将会获得更多的小我回报。如许一来,倘若一切智能体都选择叛变,那么没人会得到任何奖励。一个成功的整体必须在搭便车与挑供公共资源之间取得均衡。

Harvest 游玩的现在标同样是搜集苹果。每个苹果挑供 的奖励。苹果的滋长率在整个地图上有所分歧,具体取决于未搜集的苹果的空间分布:附近的苹果越多,则该地区苹果滋长率就越高。倘若附近一切的苹果都被搜集,那么再也不会有新的苹果长出来。经过 个时间步后,episode 终结,此时游玩将重置为初首状态。

这个游玩面临的逆境如下。每小我倘若只为了本身的短期益处,那么都会选择尽快搜集周围的苹果。但是,倘若智能体不如许做,则整个整体的长期益处就会挑高,尤其是当很多智能体分布在在联相符地区时。

但是由于选择叛变策略的智能体越多,长期耗尽当地资源的机会就越大,因此上述情况很难展现。因而为了团队的益处,配相符者必须屏舍小我益处。

下面吾们必要表明这两个游玩实在属于多智能体外交逆境题目,否则即使经过设计算法解决了这两个游玩,也无法表明吾们的算法能够有效地解决多智能体外交逆境题目。这边吾们就能够画出这两个游玩的谢林图来进走验证。

然而现在的题目在于,画出谢林图必须要清晰定义两个不相交的策略荟萃,即配相符策略荟萃以及叛变策略荟萃。

但是对于复杂的马尔可夫游玩,上述策略荟萃很难定义。由于本文对挑出的两个游玩经过实验数据来进走分析。吾们能够经过对环境进走一些修改来强走使得智能体学习实走配相符策略以及叛变策略。

在 Harvest 游玩中,吾们经过修改环境,阻止智能体从矮密度地区搜集苹果,来使得智能体强制实走配相符策略。

在 Cleanup 游玩中,吾们经过移除智能体清算废物的能力,来强制智能体实走叛变策略。

吾们还经过增补小批的团队回报来鼓励智能体配相符。下图是经过实验终局画出的谢林图,经过谢林图,吾们能够懂得地望出,这两个游玩都属于社会逆境题目。

▲ 图10:创造者逆境游玩 Cleanup 以及消耗者逆境游玩 Harvest 属于社会逆境题目。A 图外示 Cleanup 游玩的谢林图;B 图外示 Harvest 游玩的谢林图。绿色的虚线外示智能体选择叛变策略的平均长期利润,而不是谢林图展现的回报。能够望出,选择叛变策略,长期利润会矮于即时回报。

设计了两个社会逆境游玩之后,下面吾们入手解决这两个游玩。像上面讲的相通,吾们引入不公平厌倦模型来解决这个题目。不公平厌倦模型最最先挑出时只适用于无状态(stateless)游玩,即相通于雄鹿狩猎、罪人逆境等,该模型浅易来说就是对智能体的回报函数进走修改,正式定义如下:

不公平厌倦模型的回报函数定义如下。令 为 个智能体各自的外部回报(环境给予的),则其最后的回报函数为:

其中附添项能够认为是固有回报(intrinsic reward)。参数 限制的是智能体对于劣势(disadvantageous)导致的不公平的厌倦程度;对答的,参数 限制的是智能体对于上风(advantageous)导致的不公平的厌倦程度。

一些做事外明, 。这是由于,人们更不爱本身比别人差。本文实验的设定是 。下面,吾们将上述不公平厌倦模型推广到多智能体情形中:

其中时间腻滑回报经过如动手段计算:

上述时间腻滑回报的计算相通于资格迹(eligibility traces)的计算手段。

下面就是实验片面了。在展现终局之前,吾们稀奇定义了几个评价指标。不像单智能体深化学习能够仅仅经过累积利润来衡量智能体的性能。

在多智能体体系中,无法只经过一个浅易的标量来去追踪整个体系的性能。因而吾们挑出了分歧的社会性终局衡量指标来对群体走为进走总结,同时辅助分析。

考虑统统 个智能体,令 外示智能体 在长度为 的 episode 中获得的回报序列,累积利润定义为 。下面吾们定义

效用度量 (Utilitarian metric, ):又被称为整体利润(collective return),定义为 。

公平性度量(Equality metric, ):定义为 。

可赓续性度量(Sustainability metric, ):定义为 其中 。

末了,对于 Cleanup 游玩,吾们定义了一个智能体对于公共资源的贡献度 , ,其中 外示智能体 清算的废物的数目。

▲ 图11:上风导致的不公平厌倦在 Cleanup 游玩中能够促进配相符。A 图比较了基准算法 A3C 以及行使了上风不公平厌倦模型的算法在整体利润上的性能迥异。B 图展现了智能体对于公共资源的贡献度。C 图展现了公平性。D-F 图外明,劣势不公平厌倦模型在 Cleanup 游玩中并不及很益的促进配相符。

▲ 图12:不公平厌倦在 Harvest 游玩中能够促进配相符。当通盘 个智能体都行使上风不公平厌倦模型时,相比于基准算法 A3C,在三个社会性终局指标 A-整体利润、B-搜集的苹果数、C-可赓续性上都只有很小的升迁。而劣势不公平厌倦,甚至只有 个智能体行使,相比于 A3C ,在指标 D-整体利润、E-搜集的苹果数、F-可赓续性上都能带来较大的升迁。

本文挑出的手段,相比于上一篇文章,不必要显式地训练配相符策略以及叛变策略,因而能够很容易地扩展到大周围复杂的多智能体环境中。但是,本文挑出的手段也具有一些弱点:

1)吾们的叛变智能体很容易被剥削,从实验能够望出必要一个叛变智能体群体才能实现配相符;

2)吾们的智能体行使终局而不是展望,这在随机性过大的环境中将会存在很主要的题目(这是上一篇文章得到的结论);

3)从实验能够望出,吾们必要手动确定整个整体中行使两栽不公平厌倦模型的智能体数现在,在具有过错称终局的游玩中这个值更必要仔细地确定,因而,在大周围环境中仅仅行使吾们挑出的手段能够不足,必要一个同化算法。

PMLR 80, 2018

论文标题:Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning

论文来源:PMLR 80, 2018

论文链接:https://arxiv.org/abs/1810.08647

这篇文章最先将上述文章中为晓畅决社会逆境题目而挑出的修改回报函数的手段中,所引入的附添项望作是深化学习中更常见的固有回报(intrinsic reward),并将社会逆境望成是更添清淡的配相符多智能体深化学习题目,且是更必要经过智能体之间的配相符来解决的多智能体深化学习题目。

这篇文章其实很益的回答了第一篇文章末了挑出的题目:社会逆境与更益地配相符之间有何有关?

对于上面几篇做事,作者认为他们都是用的是人造设计的回报函数,带有比较强的先验新闻(或归纳偏倚,inductive bias),同时必要获取其余智能体的回报。这些倘若使得这些算法无法自力地训练每个智能体。

除了对回报函数进走重新设计,也有些其他手段来解决多智能体深化学习中的配相符题目,但清淡都是经过中间化训练。固然通信学习手段也是自力学习,但是比来一些做事外明,即使经过中间化学习,想要学到有意义的通信制定也是相等难得的。

为此,本文挑出了一个配相符多智能体深化学习算法,经过引入能够逆映智能体自身动刁难其余智能体的因果影响程度的固有回报,来鼓励智能体配相符,并把这栽固有回报称之为社会影响固有回报(social influence intrinsic reward)。同时,这栽固有回报还能促进通信学习算法习得更有意义的通信制定。

因果影响经过逆原形推想来评估。在每个时间步,智能体模拟本身选择分歧的、逆原形的行为,并评估其对于其余智能体行为的影响。能够使得其余智能体行为产生较大转折的行为,被认为具有较大的影响力并会获得奖励。这栽固有回报的构建手段,相通于最大化智能体行为之间的互新闻。

本文采用的实验环境与上一篇论文十足相反,所想要解决的也是序列社会逆境题目。本文行使 A3C 算法来训练每个智能体,同时采用 LSTM 网络。

具体来说,社会影响固有回报将智能体的即时回报更改为如下方法, 。其中 外示外部或环境回报, 则为因果影响回报。

为了计算一个智能体对于另一个智能体的因果影响,吾们假定有两个智能体 和 。并且智能体 的在 时间步的策略能够基于智能体 的行为 ,即智能体下一个行为的概率能够外示为 。

吾们能够对 进走干涉,将其替换为一个逆原形行为 。这个逆原形行为被用来计算智能体 新的下一个行为的分布,即 。

上述过程能够描述为, 智能体 逆省式地问本身:倘若吾在时间步 时做出了分歧的行为,智能体 的行为将会如何转折呢?

经过采样多个逆原形行为,并对对答的分歧的智能体 的下一个行为的分布进走平均,吾们就能够得到智能体 的策略的边际分布,即

这栽边际策略,能够望作是智能体 在不考虑智能体 的影响下的策略。这两个分布之间的迥异便能够当作智能体 对于智能体 的因果影响。

因而,智能体 的因果影响回报能够经过如动手段计算:

上述回报函数与智能体 与 行为之间的互新闻 有关,具体表明如下:

智能体 对于智能体 的因果影响为: 。其中 外示在 时间步时一切有关的 (LSTM网络的隐含状态)以及 。智能体 和 行为之间的互新闻为:

能够望出上式中的 KL 散度项就是吾们定义的因果影响。经过从环境中采样 个自力的轨迹 ,其中智能体 的行为 按照 采样,吾们能够对上述互新闻进走蒙特卡洛估计,

因而, 从憧憬上来望,因果影响回报等价于智能体行为之间的互新闻。至于采用因果影响回报训练出的策略,是否十足等价于采用互新闻管束训练的策略,则必要望具体的学习算法。不像互新闻的定义,即对于 和 两个智能体是对称的( 能够互换),因果影响回报则是有向的因果影响。

吾们认为如许的回报函数会简化学习过程,因而其能够更益地处理名誉分配(credit assignment)题目:智能体 能够更容易地学到它的哪一个行为将会导致更大的影响。

因果影响回报与互新闻之间具有有关是相等有意思的,由于在单智能体深化学习周围,有一栽频繁被行使的固有回报——赋权回报(empowerment),赋权的意思是会给实走的行为与环境的异日状态互新闻较大的智能体奖励,即对环境的异日状态赋权。

倘若从赋权的角度来注释,因果影响回报则是对其他智能体的行为赋权。

因果影响回报同样能够行使其他散度度量来计算。Lizier & Prokopenko (2010) [3] 挑出了片面新闻流(local information flow)行为有向因果影响大小的度量手段。这等价于逐点互新闻(pointwise mutual information,PMI),

PMI 度量了 的单个动刁难于 的单个行为的影响。PMI 关于 的憧憬即上面挑到的互新闻。除此之外吾们还测试了杰森-香农散度(Jensen-Shannon Divergence, JSD),实验外明,因果影响回报对于分歧的散度度量手段是鲁棒的。

采用社会影响还有另外的益处。吾们晓畅(下述理论来源于 MADDPG),多智能体策略梯度的方差随着环境中智能体数现在标添多而添大。社会影响经过引入智能体行为之间的外部倚赖有关来减小上述方差。由于智能体策略梯度的条件方差小于或等于边际方差。

仔细,对于上述挑出的社会影响模型,吾们做出了两个倘若:1)吾们经过中间化训练的手段来计算 ,由于必要直接访问智能体 的策略;2)吾们倘若影响是单向的,即采用因果影响回报训练的智能体只能影响不采用因果影响回报训练的智能体(影响者荟萃与被影响者荟萃是互不相交的,且影响者的数目在 的周围内)。

但是后面吾们会去失踪这两个倘若。从下图能够望出,采用因果影响回报是专门有效的。

▲ 图13:与基准算法在整体利润上的性能对比。其中 Visible action baseline 指的是不采用因果影响回报,但是被影响智能体的策略显式地基于影响智能体的行为,即使影响智能体不在被影响智能体的视野周围内。

让吾们来更周详地对智能体的走为进走分析。在 Cleanup 游玩中,吾们指定了唯逐一个采用因果影响回报训练的影响者智能体。不像其余智能体当期待苹果滋长时进走随机游走,该影响者智能体仅当其去搜集苹果时才行动,其余时刻都保持静止。下面是一个 Cleanup 游玩截图。

▲ 图14:一个影响者具有高影响力的时刻。紫色的影响者智能体发出了绿色苹果展现的信号给黄色被影响者智能体,即使绿色苹果处于黄色被影响者智能体片面视野周围之外。

对于上图的时刻,紫色影响者智能体选择向处于黄色被影响者智能体片面视野之外的绿色苹果移动。

由于紫色影响者智能体只在有苹果的时候才移动,因而黄色被影响者智能体晓畅必定有苹果存在于本身的片面视野周围之外。这会使得黄色智能体下一个行为的分布 ,从而使得紫色智能体获得奖励。

在这个案例钻研中,紫色影响者智能体学会了行使本身的行为行为一个二元编码,来传递环境中是否存在苹果这个新闻。Harvest 游玩中同样有相通的走为。这栽基于走为的通信能够与蜜蜂的摇曳舞有关首来。 这外明,因果影响回报不光能够促进配相符,还能够促进通信的产生。

为了进一步验证上面得出的结论,即因果影响回报能够促进通信的产生,下面吾们行使因果影响回报来训练基于通信学习的多智能体深化学习算法。

具体来说,吾们基于 CommNet,在每个时间步,每个智能体 发出一个离散的通信信号 。这些信号被拼接在一首,形成了一个全局的通信向量 。这个全局的通信向量在下一个时间步会行为每个智能体策略的额外输入(除去状态之外)。

具体来说,吾们在原首的 A3C LSTM 网络上,额外新添了两个输出头,具体组织如下图所示。由于通信信号是离散的,能够认为在正本的深化学习义务之外,又新引入了一个深化学习义务,新闻空间就是行为空间。

▲ 图15:通信模型统统包括两套、四个输出头。一套学习原首义务的策略 ,一套学习通信策略 。其他智能体上一步的通信新闻 行为 LSTM 网络的额外输入。

原首策略仅仅经过外部回报(或环境回报) 来训练,但通信策略则再额外添入因果影响回报,即 来训练。这时,吾们经过逆原形来评估智能体上一步输出的信号 ,对另一个智能体下一步行为 的影响:

▲ 图16:基于通信学习的智能体整体益处对比。Comm baseline 指的是只是用外部回报来训练通信策略的 A3C 算法。从图中能够望出,因果影响回报同样相等有效。

值得仔细的是,在 Cleanup 游玩中,训练通信策略时,最优性能对答 。这意味着仅行使因果影响回报来训练通信策略是最为有效的。为了进一步分析智能体习得的通信制定,吾们引入了三个评价指标:

1. 通信发首者相反性(Speaker consistency):正则化指标,处于 之间,计算的是 以及 的熵。此指标用以评估一个通信发首者实走特定行为时发出信号的相反性,以及对答的,发出特定信号时实走行为的相反性。具体计算手段如下:

其中 是按照行为空间的模计算出的最大熵。吾们期待这个值较高。

2. 即时配相符性(instantaneous coordination,IC)包括如下两个互新闻(MI)指标:

信号/行为 IC:衡量影响者/通信发首者的信号与被影响者/通信授与者的下一步行为之间的互新闻;

行为/行为 IC:衡量影响者/通信发首者的行为与被影响者/通信授与者的下一步行为之间的互新闻;

为了计算这两个指标,吾们对一切轨迹的所未必间步计算上述两个指标,并选取任何两个智能体之间的最大值,从而确定是否存在任何一对智能体之间存在配相符。仔细这两个指标都是即时的,即只能捕捉到两个智能体在不息两个时间步之内的短期倚赖性。

▲ 图17:衡量通信质量的有关指标对比。all 代外指标是按照所未必间步计算的,influencial moments 是指因果影响回报大于平均因果影响回报的时间步。

从上图能够望出,行使了因果影响回报后,通信质量清晰挑高。这边有一个有意思的表象,吾们能够望到只有在 influencial moments 时刻 IC 才比较高。

这表现出了通信的一个基本模式: 影响是稀奇的。一个智能体得到的因果影响回报仅仅在也许 的时间步大于其平均因果影响回报。

同样吾们还不益看察到: 被影响最大的智能体,其获得的外部回报也更高。吾们采样了 个分歧的环境(超参数与随机栽子分歧),并且对因果影响回报与对答的被影响者智能体的外部回报最先辈走了正则化,并进走了有关性分析。

对于 Cleanup 游玩, ,对于 Harvest 游玩, 。这外明了,为了影响其余智能体,通信发首者发送的新闻答该要包含对于被影响者智能体取得外部回报有利的内容。

末了,上述因果影响模型由于必要直接访问其余智能体的策略,因而必要中间化训练。本文引入了 MOA(modeling other agents) 手段对其余智能体的策略进走估计,倚赖不益看察到的其余智能体的轨迹进走监督学习,具体网络组织如下:

▲ 图18:MOA 模型同时学习原首义务的策略,以及一个展望其余智能体下一步行为的监督模型。这个监督模型用以去中间地计算因果影响回报。

学习 意味着同时学习其余智能体的隐含状态以及走为,还有环境的迁移函数。倘若这个模型学习得抑制禁锢确,那么将会给计算出来的因果影响回报引入噪声。

因而,只有到影响者智能体想要影响的被影响者智能体在片面视野周围之内时,吾们才给影响者智能体奖励。固然这会导致影响者智能体总会挨近被影响者智能体这个副作用,但是在社会学周围这个副作用被认为是有意义的。

▲ 图19:MOA 模型的整体益处。MOA 基准算法指的是不行使 MOA 模型中监督模型的输出用以计算因果影响回报,而是把监督模型的训练当作一个辅助义务,更益地学习共享的卷积特征抽取层。这相等于 MOA 基准算法只有外部回报。从图中能够望出,MOA 模型是有效的。

末了,给出其与上一篇文章——不公平厌倦模型——的对比终局:

▲ 图20:数值外示每个模型末了50个时间步智能体的整体利润。吾们能够望出社会影响模型的性能隐微优于不公平厌倦模型。这是很值得思考的,由于不公平厌倦模型能够不益看察到一切智能体的回报。但是社会影响模型异国这个倘若,却达到了更益的奏效。

一个兴趣的倾向是,倘若吾们将多智能体网络视为单个智能体,则能够将影响力用作调节器,以鼓励网络的分歧模块集成来自其他网络的新闻。例如,防止分层深化学习算法休业。

参考链接

[1] https://en.wikipedia.org/wiki/Inequity_aversion

[2] http://www.uvm.edu/pdodds/files/papers/others/1973/schelling1973a.pdf

[3 ]https://arxiv.org/abs/0812.4373

• 稿件确系小我 原创作品,来稿需注解作者小我新闻(姓名 私塾/做事单位 学历/职位 钻研倾向)

• PaperWeekly 默认每篇文章都是首发,均会增补“原创”标志

5月3日晚,陕西宜川县壶口坠河4人仍处失联当中。家属称,坠河者系一家4口,事发时一个十七八岁的孩子先落水,3名家人施救时被水冲走。

原标题:宝妈在娃身下放“沙土”代替纸尿裤,网友:害娃不浅,都啥年代了

原标题:宅消费、周边游、忙复工:阿里发布“五一”消费出行三大趋势

原标题:电视头号玩家海信视像:年报季报利润大涨,大屏高端势不可挡

原标题:鲍尔默花4亿美元只为快船摆脱湖人阴影?商人眼里永远只有利益

原标题:日本之最的怀石料理,应该如何享用?

(责任编辑:admin)
------分隔线----------------------------
栏目列表
推荐内容