台湾 || 语言: 大陆简体港澳繁體台灣正體

会玩王者荣耀的AI，真的有用么？

搜狐体育 2021-10-15 18:03

原标题：会玩王者荣耀的AI，真的有用么？

估计经常玩王者荣耀的人，都应该对一个词不陌生-- " 王者绝悟 " 。

它是王者荣耀和腾讯 AI Lab 团队共同打造的一个策略协作型 AI 。

在 2019 年《王者荣耀》世界冠军杯的特设环节，它打败了职业选手赛区联队，一鸣惊人。

当天它还在 ChinaJoy 进行了 504 场 1V1 比赛，面对一众实力强劲的玩家，最终只输了一场，输给了当时的国服第一后羿，总体胜率高达 99.8% 。

后来王者绝悟进一步面向普通玩家限时开放，去年 11 月限时开放的 20 个挑战关卡更是让每个玩家都体会到了王者绝悟的厉害。

这么说吧，像王者绝悟这样的 AI ，它通过强化学习机制经历无数对战， 一天的训练强度高达人类 440 年，对自己的能力特别有 B 数，啥大风大浪都见过。

能打过就会上，打不过绝不刚，抱团支援贼溜，越塔强杀也会。

对技能的方位和时间的把控异常精准，彼此间合作天衣无缝，坐拥顶级拉扯战术。

2019 年的绝悟就已经会轮流抗塔分摊伤害了 ▼

普通人正常打肯定打不过，只好到快手等平台去搜些特殊战术，才能勉强拿个 " 智极·绝悟 " 的标签。

大家纷纷感叹 AI 现在居然已经这么强大了。

可能很多人都有相同的感知，现在游戏 AI 的发展或多或少都受了当年 AlphaGo 的影响。

2016 年 AlphaGo Lee 与李世乭的大战堪称人机大战的转折点，在这之前人们不相信机器能够胜任围棋这种高智商的游戏，但事实证明了AI 的潜力。

后来 AlphaGo Master 在棋坛横扫一众棋手，把 Lee 那一版的缺陷补足，便再无对手，柯洁与之对弈也只能投子认输。

到了AlphaGo Zero 这一代， AI 已经摒弃了学习人类棋谱这一步，通过大量自我对战，只需要短短的时间，从能瞎走的小白，就能蜕变成段位极高的大师，甚至发展出人类不曾想到的招数。

只用了3 天， AlphaGo Zero 就把赢过李世乭的 AlphaGo Lee 踩到了脚下， 21 天就打败 AlphaGo Master 。

也就是说，AlphaGo Zero 证明了，只要人们给输入规则和目标，程序就可以经过自我博弈不断进步，也能成为身经百战的顶流大师。

这种 " 无师自通，自学成才 " 的本事，立刻在学术界和民间掀起滔天巨浪。

这套自我博弈的方法就是机器学习理论中的 -- " 强化学习 "。

强化学习能解决哪些问题？这套方法解决问题的极限在哪里？

研究人员把目光从围棋这种棋牌游戏，打量到星际争霸、Dota2 这些复杂策略的游戏身上。

这类游戏的复杂度可比围棋高多了，因为它们可能包含丰富的画面信息，还涉及多人对战，战争迷雾、即时战略、第一人称射击等元素。

所以在开发这类AI 时，会遇到多智能体协同策略，不完全信息等等技术难题，更有挑战性。

AlphaStar 就是 DeepMind 团队

打造的星际争霸 AI ▼

这几年，针对星际争霸、Dota 2等不同游戏的 AI 不断出现，当然，王者绝悟也是其中之一。

说起来大家可能会觉得惊讶， 但王者荣耀这样的游戏中，玩家的动作状态空间能高达 10 的 20000 次方，远远超过宇宙原子总数的 10 的 80 次方。

在如此浩瀚的运算空间里，要做出王者绝悟那样高效准确的决策，可想而知这挑战有多大。

基于王者绝悟的研究方法和经验， 王者荣耀和腾讯 AI Lab 还搞了一个 AI 开放研究平台 -- 开悟。

最近，腾讯举办了一个名为 " 开悟多智能体强化学习大赛 " 的活动，并邀请国内包括北大、清华、中科大等二十余所国内外顶尖院校的学霸们参加比赛。

简单来说， 这个比赛就是要求高校师生训练出一个属于自己的 mini 版 " 绝悟 " ，然后导入王者荣耀一决高下。

在比赛中，各大高校的教授和学霸们会利用开悟平台研究如何用算法解决单、多智能体解决方案，模型结构设计，强化学习算法设计、奖励函数设计等问题。

比赛模式包括1v1墨家机关道、3v3长平攻防战，规则与我们玩家在王者荣耀日常接触到的一样，最先推倒对方水晶的一方获胜。

今年已经是第二届比赛了，去年第一届赛程还使用过5v5 梦境大乱斗，冠军被中科大收入囊中。

肯定有差友好奇，AI 到底怎么经过自我博弈，最终学会玩王者荣耀的？

那给大家看看鲁班七号AI 的进化之路，我们以训练 10 分钟，1小时，12小时为节点，分别看看 AI 的水平有怎样的变化。

（下方动图里，左上角能看小地图，会显示红蓝双方的位置）

这个是训练了 10 min 的 AI，可以说这时候的 AI 菜得抠脚，仿佛完全不知道要做啥。。。

10min AI ▼

对战开始，红蓝两方的小鲁班 AI 出了塔之后都非常迷茫，一脸的 "我是谁？我在哪？"，兜兜转转瞎溜达，技能也在瞎放。

迷糊了两分钟，蓝方的小鲁班才跌跌撞撞走到了兵线附近。（左上角能看到红方还在迷茫中。。。）

这时蓝方鲁班发现，站在兵线前随意的平A 就可以获得金钱的奖励。

并且红方一直没出水晶，蓝方连 2、3 技能都没按出来，就已经锁定胜局。

有意思的是，这时候鲁班虽然不知道主动进攻，却知道抗塔会掉血，看来以前经历过不少教训。

据我猜测，通过这一局 AI 就会知道，走中间有兵线的地方平 A 就能得到经济。

那么 AI 经过 1h 的对战训练后，水平又如何了呢？

1h AI ▼

战局一开始，红蓝两方都开始跌跌撞撞往中间走，看来 AI 已经知道了中间兵线有经济。

红蓝相见分外眼红，直接硬刚，蓝方险胜。

看来此时 AI 还没学会血量少的时候要苟一下，只知道拿下对方人头就可以获得经济。

训练了 1 小时的 AI 终于知道放特殊技能了，可惜技能 2 和技能 3 基本就是瞎按，没有一星半点的准头。。。

不过相对于 10min 的版本，还是有不小的进步～

最终蓝方坚定的在小兵的掩护下推了塔，尽管红方也知道守塔，显然大势已去，无能为力了。

那训练了12 小时的 AI 会怎样呢？

对战开始，红蓝双方迅速在兵线附近狭路相逢，二话不说上来就对喷。

12h AI ▼

蓝方因为靠小兵太近，中间不小心火力被兵线吸引了一下，被红方取得优势。

这时大家会发现 这时的 AI 已经学会在血量较少的时候后撤，可惜在边退边战的时候被喷死了。

继续观看比赛，发现 AI 还学会了在血量少的时候舔血包，甚至懂得回家加血！

蓝方鲁班舔血包 ▼

红方鲁班缺血后回家补血

满血后回来反杀 ▼

而且，鲁班的 2 技能的准确率也直线上升，3 技能也知道要在兵线和敌方身前释放。

所以，虽然看起来这个训练了 12 小时的 AI 动作还是蠢萌蠢萌的，跟人类比起来意识也不行，可是相比较于只学习了 10 分钟的 AI 强多了。

这就是强化学习 AI 的厉害之处，只要规划合理，继续训练就会变得越来越厉害，直到无法成长。

而学生需要做的就是：优化算法，提高 AI 的上限，缩短 AI 的成熟路径。

纸上读来终觉浅，其实这种算法、模型，只有自己亲身去实践，才能知道书本上的公式和理论是如何在真实世界中发挥作用。

为了让学生好好比赛，王者荣耀和腾讯 AI Lab 把一切都包圆了。

需要算力？直接开放云平台，只需要上传模型，睡一觉就练好；想复盘模型好坏？模型的对战形成的录像随便观看；比赛的底层信息太杂了？直接把游戏场景和英雄行为打包成数据接口，直接调用就成……

估计很多人好奇了，这种比赛有什么意义么？

想当初， AlphaGo 在围棋界大杀四方时，有人不屑的表示，只会下棋的AI 能有什么用？

但 4 年后，它的后辈 Alpha Fold 便在 CASP 蛋白质结构预测比赛上，解决困扰了人类 50 年来的蛋白折叠问题。

很多人评价说这是能与诺贝尔奖齐名的成就，因为它可以从根本上改变很多生物学的研究方式。

Alpha Fold 在预测蛋白质如何折叠上准确的离谱，准到大家不敢相信这是真的。

在下面的动图里，绿色是实验测量得出的蛋白质结构，蓝色是 Alpha Fold 的预测结果，两个蛋白质样本的实验结果和预测结果几乎重合。

人们原本预估能达到这种准确率的方法要几十年后才会面世。

但是它就这么突然出现了，就像当年的AlphaGo 一样。

这是偶然么？或许这也是必然。

当年研究AlphaGo 积攒的人才、经验和学术成就，让Alpha Fold 的研究如虎添翼，而现在他们已经盯上天体物理、计算化学等基础科学领域。

人们这几年疯狂刷 " ImageNet " 图像识别准确率、参加 Kaggle 机器学习比赛，不断互相竞争和学习，把图像处理、机器学习推向高峰，我们生活中接触到的面部识别、AI 捏脸等都沾了这些成果的光。

现在问题来了，AI 学会打游戏有什么意义呢？

其实王者绝悟、星际争霸 AI 背后遇到的技术难题，包括不完全信息、多智能体协同策略等等，其中得到经验和方法，没准也可以在未来的医疗、智能工业、自动驾驶、智慧城市等领域得到应用。。。

举个例子，如果把每个红绿灯都看作一个智能体，那么这些红绿灯应该怎么配合才能让车流更加顺畅，减少交通堵塞？

虽然这看起来和王者荣耀的场景并不一样，但实际上解决起来 背后的算法是互通的，就是协同策略的问题。

我们又知道，评价 AI 算法优劣是很困难的一件事。

譬如我们要验证自动驾驶技术，如果我们一开始就造个车或者造个真实场景来验证，成本很大，很浪费。

B站@XuDongLiang_自制自动驾驶AI ▼

在游戏上验证，研究员们就可以专心研究算法，而不用纠结平台的建造和成本问题。

如 果要评价游戏对于 AI 研究的意义，举个类似的感觉，就像是果蝇对于生物研究的意义，因为它们都是成本低廉且便捷的。

同时，AI 研究领域也有个说法 " 下一个 AI 里程碑，可能会在复杂策略游戏中诞生 "。

为了抢占先机，世界顶尖的科技公司都在探索相应的技术，让 OpenAI一炮而红的 OpenAI Five、DeepMind 的星际争霸 AI AlphaStar、连 Facebook 也在打造 AI CherryPi，当然也包括腾讯的王者绝悟。

论文中王者绝悟的训练模型 ▼

而王者荣耀和腾讯AI Lab合作搭建的开悟平台，为国内AI学术界提供了一个试验场，让国内高校也能在复杂策略游戏中开展研究。

将来，开悟还要和北大、中科大等高校一起开发 AI 课程。

按照王者荣耀执行制作人、腾讯天美L1总经理黄蓝枭的话来说，他们为此开放了《王者荣耀》的核心机制，提供标准接口、核心算法、脱敏的测试数据、评估工具和计算集群等，给高校师生进行多智能体的机器学习算法研究、学习成果交流、对算法成果反复迭代升级提供便利条件。

游戏和学习相结合，早几年有这好事儿估计鲫鱼也是 AI 研究员了。。。

也许，现实社会中的问题比游戏中的要复杂的多，但我们想要在这个领域获得突破，就少不了一步一个脚印的去积累，去成长。

去年跟王者绝悟死磕到底的我，现在也可以骄傲的说一声，当年咱也是参加过全民级 AI 研究的人～

相关文章