OpenAI Five：人工智能进化的新方向

近年来，多智能体强化学习成为了人工智能的热门研究方向。不同于围棋和星际争霸这类单智能体任务。多智能体系统中包含多个智能体，它们共享一个环境，每个智能体的行为都会对共同的环境产生影响。如何让多个智能体学会协同合作解决问题一直困扰着诸多研究人员。

由OpenAI组织研发「OpenAI Five」是人工智能界2018年的一大亮点。它以MOBA类多人对抗游戏Dota2作为背景，使用深度学习和强化学习训练多智能体系统，在短时间内就击败了游戏内置AI和业余玩家组成的战队。Dota 2是世界上最流行和最复杂的多人电子竞技游戏，同时也是一个典型的AI难题。同围棋一样，AI每时每刻都要进行长期规划；同星际争霸一样，AI面对的是不完全信息博弈，在不确定的情况下进行推理和规划。与二者不同的是，Dota2是5v5的团队游戏，需要多个智能体协作完成复杂的任务。多智能体博弈已经成为了人工智能研究的新方向。因此，攻克Dota2将会是一个里程碑式的成就。

Ti8首秀

DOTA2国际邀请赛，The International DOTA2 Championships，是每年一次在夏季举行DOTA2最大规模和最高奖金额度的国际性高水准比赛。今年的TI8的奖金高达2500万美金以上，是全世界奖金最高的电竞赛事。为了挑战更强的对手，OpenAIFive在Ti8上与职业选手交手。

OpenAIFive第一场比赛的对手是来自南美的paiN Gaming战队，它们是来参加本届Ti的十八支顶尖战队之一。在开局不久后，paiN战队选手w33带队拿下一血（首次击杀对方英雄），paiN众人的表情都十分轻松，似乎已经胜券在握。在随后的比赛中，OpenAI始终没有在团战中落入下风，相反是美如画的技能combo和坚定的执行力帮助经济并不领先的OpenAI将局势紧紧攥在手里。paiN众人的表情逐渐凝重，仿佛意识到了危险，并逐渐开始挽回局势。最终，认真起来的paiN战队还是战胜了OpenAI Five。

第二天，OpenAI Five经过调整后再次亮相。在一场长达 45 分钟的比赛中，AI 输给了中国Dota 2 名人堂五位选手组成的战队。AI在50多分钟的鏖战中，从牢牢掌控局面到被人类一点点消磨到崩盘。相似的情节再次上演。人类选手在对线上略微有点吃亏，但是意识、出装依然能看出当年专业的水平，而且人类队打的其实还比较轻松，看上去没有特别紧张。

总的来看，这个版本的OpenAI Five在小操作和团战上胜过人类选手，也能在团战中看出他们的一些技能配合。但是它在很多细节处理上让人大跌眼镜，比如把多个侦察守卫放置在一起、经常迷路到BOSS位置、阵亡之后立刻选择买活等。每到中后期便逐渐疲软这一明显的弱点，暴露了它只注重眼前利益而缺少对任务的长期规划。

OG战队：王者归来

2018年8月26日，在Ti8总决赛的精彩对决中，OG更胜一筹，以3:2的比分战胜了中国战队PSG.LGD。他们击败了来自世界各地的顶尖战队，在全世界面前捧起了冠军盾，拿下了DOTA2无与伦比的最高荣耀。队员Notail与JerAx成功拿下四大联赛大满贯，教练7ckngMad亲自登场并且率队创造了历史。

遥想开赛之前，因为在17-18赛年成绩不佳，即便他们在重组后拿下了欧洲区预选赛的冠军，OG在正赛开始前也并没有被看好。在这一年里，作为一支有着稳定赞助、稳定阵容的传统强队，OG在DPC赛季中糟糕的成绩辜负了粉丝们的期待，甚至连建队元老都选择携手出走。然而就在一切崩盘的时候，他们却用一次神奇的转会，让我们看到了这支队伍不为人知的一面，更是在全世界面前捧起了TI冠军盾，拿下了DOTA2无与伦比的荣耀。霸主归来，OG一路从海选赛打出重围到TI正赛的一往无前，再到击败PSG.LGD拿下TI8冠军，对于他们实属不易。抛除队员个人技术和队伍的战术打法不谈，OG战队最恐怖的实力就是：韧性，尤其是面对逆风局时的韧性，而这也正是冠军队伍必备的品质之一，值得我们每一个人学习。回顾OG战队在Ti8上的所有比赛，不论处于多大劣势，他们从来都没有放弃，即便是失败也会撑到基地爆炸，很少提前放弃比赛，这也使得他们在正赛开始后，一路从胜者组走到了决赛，最终拿下冠军。

卷土重来，挑战王者

经过了一年的学习和提升后，OpenAI Five卷土重来。2019年3月26日，OpenAI宣布于2019年4月13日举办最后一场挑战赛，对手是世界冠军，王者OG战队。这一消息发布后，随即成为了国内外各大论坛的热门话题。人们的看法各不相同，但都对这场比赛抱有很大的期待。大部分人依旧不看好它，毕竟先前在Ti8上大败而归，况且这次对手还是世界冠军，结果必然凶多吉少。也有小部分人持乐观态度，认为AI这次有很大希望战胜人类。据研究人员称，OpenAI Five学习一年相当于人类学习四万年！相信它一定能超越人类十余年来积累的成果。

比赛在Dota2 7.21版本上进行，采用三局两胜制。

不同于传统的比赛，人机对抗在游戏规则上有所限制：

英雄池仅包含17个英雄，：斧王、水晶室女、死亡先知、撼地神牛、矮人直升机、巫妖、恶魔巫师、死灵法师、痛苦女王、剃刀、隐刺、影魔、斯拉克、矮人火枪手、斯温、潮汐猎人、冥界亚龙、巫医。这些英雄没有召唤单位和幻象技能。能够召唤单位或是制造幻象的物品也被禁止：分身斧、死灵书和支配头盔。

第一局双方选择的阵容如下：

OpenAIFive作为天辉方，选择了火枪、飞机、冰女、死亡先知、斯温；

OG战队作为夜魇方，选择了小牛、巫医、毒龙、隐刺、影魔。

确定阵容后，OpenAI Five给出的胜率预测是67.6%。这一乐观数值的来源尚未可知，笔者猜测是因为选到了在训练过程中胜率较高的几名英雄，所以有较大的把握取胜。

刚刚开局，双方的侦察小队就在野外遭遇，OpenAIFive率先拿到巫医的第一滴血， OG众人也还以颜色，击杀了对方冰女。一波激烈的交火后，双方都不敢再深入，便各自散去。在对线期，双方的击杀数一直不相上下，AI一方依靠良好的对线操作，在团队经济上取得了一些小优势。双方从资源分配方式上已经有了明显的区别：

虽然总体经济落后，OG战队的三名核心英雄却高于AI方的核心英雄。这就是人类比赛中常用的3核心+2辅助战术，牺牲2名英雄的经济保证另外3名英雄的发育。而AI这边的经济分配较为平均，最低冰女和最高的死亡先知仅仅差了1700。

比赛进行到17分钟时，OG双线发难，拿到了双倍攻击神符的隐形刺客带领牛头人入侵对手野区，击杀了正在打野的飞机。AI第一时间选择了买活，震惊了在场的所有人。买活是一种用经济换取时间的方式，它允许玩家在阵亡后无需等待数十秒的复活时间，直接回到战场。除了需要大量的现有金钱外，还会降低买活后的经济收入。当我们还在思考AI选择买活的原因时，落单的死亡先知和斯温也陆续被OG众人击杀。这一次，AI还是选择了买活并集合所有英雄进攻中路。

19分钟，第一波大团战在中路打响。AI方依靠精彩的操作和配合击杀了对方所有英雄，而己方无任何损失。这波大胜直接使得OG战队中路高地告破，经济拉开了六千的差距。同时也导致圣坛被摧毁，高地之外几乎全部落入天辉方（OpenAI Five）的掌控。接下来OG只能选择防守反击，而AI方则是稳中求胜，逐步扩大优势。

35分钟，OG的核心装备成型，主动出击并在天辉远古野处抓到落单的冰女击杀。但是，AI的另外四人火速增援，击杀了OG四名英雄。买活的毒龙独木难支，OG顺利攻破上路和下路并有序撤退。

最终，OpenAI Five拿下了第一场比赛。现场也是一片掌声。这场比赛中，AI展现了清奇的思路：出门装就选择两个大药，后续的装备也更倾向于买补给品，而不是提高自身属性。

第二局比赛双方的阵容如下：

OpenAIFive作为天辉方，选择了冰女、飞机、斯温、巫医、毒龙

OG战队作为夜魇方，选择了火枪、小牛、死亡先知、小鱼人、莱恩

阵容确定后，AI对自身胜率的预测是60.8%，略低于上一局。

比赛前两分钟，OG战队中单Topson使用的火枪手被毒龙单杀，送出了一血。在对线过程中，AI各路开花，冰女和巫医带动了全场节奏。十分钟，比分就已经来到了11:3，OG接近崩盘。面对如此大劣，OG并没有选择猥琐发育，而是继续强行打团战，结果就是劣势越来越打，三核心的经济全面落后，完全看不到翻盘的希望。

14分钟，领先了1万经济的AI攻上了OG高地。OG已然被打乱了阵脚，上演了葫芦娃救爷爷——一个一个送的“好戏”。

仅仅21分钟，OG的基地被推掉，OpenAI Five轻松拿下第二局。直到比赛结束，OG拿下人头还是个位数，被AI打成了46:6。

2：0，这一结果出几乎让所有人大跌眼镜。在第一局中，AI前期有略微的劣势，然后开始发力挽回了局势，第二局几乎就是一直碾压OG。纵观整个系列赛，OpenAI Five已经改善了此前的大多数弱点，比如：胡乱逛街、空放大招、一旦劣势便手足无措等。并且体现出了相当强大的局势控制能力。不过对局过程中还是能看出AI在细节上有一些不足。比如说面对在复杂树林中绕来绕去的人类，AI就无能为力。今天的比赛中，Ceb就靠绕树林救了自己一命。

我们可以毫不夸张地说，这一次，人类方一败涂地。

技术探究

OpenAI的快速进化是它训练的成果，也就是不断自我对局。它们的训练量远非人类能及，当然对计算力的需求也无比巨大。OpenAI一共使用了256块P100 GPU和12.8万块CPU核心进行训练，OpenAIFive每天的训练量相当于人类180年。

Dota 2 中大概有 170,000 个不同的动作，包括正常的动作，如移动和攻击，还包括技能施放、物品使用、状态升级等。在每个时间点上并非所有操作都可以使用——比如可能还没有学这个技能，或者背包里没有这个装备。但你仍然可以使用大约 1000 种不同的操作。此外，许多动作都有参数，例如你想要移动到什么区域或你想要攻击哪个敌人。OpenAI在博文中也展示了很好的动作空间的可视化，如下图所示：

右侧的游戏画面中，智能体控制的英雄水晶室女的动作空间及可选目标如图左所示，其中可选动作包含了移动、攻击、使用回城卷轴和使用技能等。不同动作对应的目标也各不相同，目标可以是单位也可以是空地（用坐标表示）。

OpenAIFive的五个AI玩家每个人都拥有一个自己的LSTM神经网络，其中包含1024个神经元。输入当前游戏状态后，该神经网络会计算出下一步采取的动作。OpenAI使用了自主研发的Rapid通用强化学习训练系统，并使用近端策略优化算法进行学习。既然是五个智能体组成的战队，当然还要让它们能够互相配合，各司其职。为此，OpenAI设计了一个名为“团队精神“的参数来控制。这一参数的取值范围在0到1之间，决定了AI对自身奖励函数和队友平均奖励函数的关注程度的分配。

训练系统分为自我训练的Rollout Workers，它运行一个游戏副本并用一个智能体收集经验。修正神经网络参数的Optimizer在一系列GPU中执行同步梯度下降，更新LSTM神经网络的参数。评估模型的Eval Workers会与硬编码的脚本AI、先前版本的AI对战以评估当前AI的实力。OpenAI Five的自我训练是从随机参数开始的，为了避免“战略崩溃“，自我训练被分为两部分：80%是和当前版本的自己对战、20%是和之前版本对战。经过几个小时的训练，带线、刷钱、抓人等战略陆续出现。几天后，它们已经学会了人类的基本战略，如抢对手的神符、占线刷钱、抱团推进等。成功的探索自然离不开回报的指引。OpenAI为Dota2设计的回报机制是基于人类玩家对行为的具体评判：如团队作用、技能施放、死亡次数、助攻次数和击杀次数等。每当智能体做出有利于战局的行为，就会获得一个奖励信号，从而激励它在以后趋向于执行类似的行为。同时，为了防止智能体钻漏洞，还需要计算了另一队的平均奖励，然后用本队英雄表现减去这个值来具体评判。

结语

到今天为止，OpenAI的DotaAI诞生两年，已经几次震惊世人。它的进化令人刮目相看。它的胜利赢得了人们的掌声。我们可以预料的是，人们对于人工智能的探索将不会停止。随着AI技术的发展，公众对于它的态度也会更为包容。

未来可期。

来源：中国科学院软件研究所

《崛起的超级智能》一书主要阐述当今天人类为人工智能的春天到来而兴奋，为人工智能是否超越人类而恐慌的时候，一个更为庞大、远超人类预期的智能形态正在崛起，种种迹象表明50年来，互联网正在从网状结构进化成为类脑模型，数十亿人类智慧与数百亿机器智能通过互联网大脑结构，正在形成自然界前所未有的超级智能形式。这个新的超级智能的崛起正在对人类的科技，产业、经济，军事，国家竞争产生重要而深远的影响。

张亚勤、刘慈欣、周鸿祎、王飞跃、约翰.翰兹联合推荐

作者：刘锋

OpenAI Five：人工智能进化的新方向

热门新闻

周热门

OpenAI Five：人工智能进化的新方向

图解未来50年前沿科技趋势与22个预言

关于数据中台系统，需要了解哪些技术？

一图解读21世纪50个前沿科技的关系

Nature打破基本规律：万万想不到细胞是这样忘了过去，抓住未来的

自动驾驶摩尔定律：无人驾驶的最终实现时间或在2035年丨厚势汽车

谷歌终于实现量子霸权了吗？

人工智能寒冬中的守夜人——从学术弃子到图灵宗师(9k字)

互联网+AI，云反射弧如何成为人工智能发展的下一个重点

构建超级智能未来系统的三原则

通用AI——未来真正强健的人工智能？

计算机和人类“看”法不同，但这重要么？

没有随机性的量子力学什么样？

多角度解析特斯拉电动车技术到底领先了多少？｜厚势

Gartner报告：2018年全球IT服务前景

三条规则的提出，城市大脑应该如何建设

热门新闻

周热门