摘要:Katja Hofmann是微软剑桥研究院游戏智能研究组首席研究员(注:微软在2014年以25亿美元收购了《我的世界》的开发团队)和MineRL竞赛组委会成员,他认为这种试错的学习方法需要训练数据能覆盖不同环境交互的所有可能性和结果。竞赛的主要目标是利用模仿实现“自举”学习,让AI不再需要耗费大量时间来探索环境,发掘符合第一性原理的可能性,而是利用人类已有的知识。

本文由《Nature 自然科研》授权转载,欢迎访问关注

原文作者:Jeremy Hsu

MineRL竞赛鼓励程序员开发能从示例中学习的程序。

想要区分最先进的人工智能和七岁孩子的智力差距,只要用风靡全球的电子游戏《我的世界》(Minecraft)就够了。小朋友只需在Youtube上观看十分钟的演示视频,就能学会如何在游戏中寻找稀有的钻石——而这是AI无法企及的高度。不过,在不久前刚结束的一场特殊的计算机竞赛中,研究人员企图缩小机器与儿童的智力差距,同时减小训练AI时的算力需求。

AI:我像真正的小朋友一样挖矿!《我的世界》:不你不像

一些研究人员表示,《我的世界》中开放终端的游戏环境很适合用于AI研究。来源:微软

在这个竞赛中,选手需要在4天时间内用不超过800万步计算来训练他们的AI找到钻石。虽然这还是比小朋友的学习时间要长很多,但是比目前典型的AI模型要快了不少。

这次比赛的目的在于促进模仿学习方法的发展。模仿学习与目前流行的强化学习有很多不同。强化学习的程序通过几千或几百万次的试错来寻找最优流程,被网飞(Netflix)用于生成用户推荐信息,为工厂中的机器臂创建训练方法,甚至能够在游戏中打败人类。但实现这一切需要大量的时间和计算资源。想要将强化学习用于构建安全的自动驾驶算法或掌握围棋等复杂游戏,需要成千上万台计算机并行工作,运行抵得上几百年的模拟,而以上这些只有财力雄厚的政府或企业才能实现。

模仿学习则可以通过模仿人类甚至其他AI算法完成任务,提升学习效率。而前面提到的编程比赛“MineRL”(读音同“mineral”)就鼓励选手使用这种技术教AI打游戏。

这一比赛的组委会负责人、来自卡内基·梅隆大学的理论深度学习博士生William Guss表示,仅靠强化学习是无法在这一比赛中获胜的。通过随机的方式,AI也许可以在800万步中成功砍倒一两棵树,但这仅仅是制作铁镐的先决条件之一,有铁镐才能开采钻石。Guss说:“探索真的很难很难,而模仿学习为你提供了良好的环境先验信息。”

比赛由卡内基·梅隆大学和微软共同资助。Guss和同事希望,除了在游戏中找到宝石,比赛还能产生更大的影响,比如激发选手拓宽模仿学习的边界。这样的研究最终能让研究人员训练出更好的AI,除了能在充满不确定性的复杂环境中游刃有余,它们还能在多种环境中与人类更好地交互。谷歌DeepMind的研究科学家、比赛顾问委员会成员Oriol Vinyals表示,模仿学习是学习和发展智能技术的核心,“它让我们无需从头开始逐步迭代学习就能快速掌握一项任务技能。

学打游戏

竞赛组织者认为《我的世界》是一个难得的虚拟训练平台,玩家在游戏中表现出大量智能行为。特别是在很受欢迎的生存模式中,玩家需要与怪兽作斗争、觅食或种植食物并不断收集各种能建造房子和工具的材料。新玩家需要学习游戏中的物理定律,以及如何将材料转换为资源和工具的诀窍。这款游戏因为能让玩家释放无限创造力而风靡全球,比如用块状结构搭建虚拟的埃菲尔铁塔、迪士尼乐园、星球大战中的死星堑道疾飞、甚至是一台可以在游戏里工作的计算机。

AI:我像真正的小朋友一样挖矿!《我的世界》:不你不像

在MineRL竞赛中,AI选手需要从《我的世界》中的一个随机位置开始,在没有任何工具的情况下,完成一系列任务,找到钻石。来源:William H Guss/MineRL

为了构建用于竞赛的训练数据,MineRL的组织者开设了一个《我的世界》的游戏公服,并聘请玩家完成一系列为特定任务设计的挑战,例如制作不同的工具等。最终他们收集了在给定情境下的6000万个动作样本,并为参赛团队提供了约1000小时的行为记录。这些记录是目前为止第一批也是最大一个专注于模仿学习研究的数据集。

竞赛的主要目标是利用模仿实现“自举”学习,让AI不再需要耗费大量时间来探索环境,发掘符合第一性原理的可能性,而是利用人类已有的知识。来自加州大学伯克利分校的博士生Rohin Shah表示:“据我所知,目前没有哪一个AI竞赛是专注于解决这个问题的。”

在云计算和海量数据的促进下,AI研究领域的最新论文主要以强化学习的成果为主。但模仿学习的研究正在迎头赶上,部分原因在于,强化学习的试错方法存在限制。Katja Hofmann是微软剑桥研究院游戏智能研究组首席研究员(注:微软在2014年以25亿美元收购了《我的世界》的开发团队)和MineRL竞赛组委会成员,他认为这种试错的学习方法需要训练数据能覆盖不同环境交互的所有可能性和结果。但从复杂的现实世界中很难获取这类数据,因为想要收集所有糟糕决策的结果既不容易也不安全。

以自动驾驶汽车为例,通过强化学习训练它们可能需要几千或是几百万次的试错,才能让它们学会如何区分安全驾驶和危险驾驶。而模拟驾驶环境无法包含所有在真实环境中可能导致车祸的情形。如果让自动驾驶汽车在大街上不断冲撞来学习如何开车,就太危险了。Hofmann说,除了安全问题,强化学习还需要庞大的算力,这些资源动辄几百万美元。

与强化学习纯粹从零开始的学习方法不同,模仿学习选择了一条捷径,通过从示例中学习来获得有利优势。模仿学习已经在强化学习之外找到了自己的位置。近年来一些著名的AI演示都是从利用模仿学习构建的基础模型出发,结合这两种训练方法,像是2017年打败人类围棋大师的AlphaGo算法。

当然,模仿学习也有局限性。一是它倾向于给出在训练样本中见过的解决方案,这种训练方式会让AI失去灵活性。Shah说:“一旦AI系统犯了一个错误或偏离了人类的行为方式,它便会进入一个和演示完全不同的情境,由于没有见过这种状况,它会更加迷茫、错上加错,引起非常不堪的结果。”

尽管如此,很多科学家依然看好这项技术的潜力,特别是用于为特定目标训练AI。微软雷蒙德研究院自适应系统和交互组首席研究员Debadeepta Dey表示,“与强化学习相反,模仿学习的优点是,你可以为AI演示任务成功的样子,这确实能大幅加快学习步伐。”

为了拿到钻石,由AI控制的玩家(或称智能体)在MineRL竞赛中需要掌握的技能有点多。首先,它们需要采集木头和铁来制作镐;然后制作火把照亮前路;它们可能还要带上一桶水来扑灭地下的岩浆。当这些都齐备之后,AI才能开始在矿井和山洞里探索,同时在地下挖掘钻石矿。

比赛要求参赛者使用不多于六个中央处理器和一个英伟达显卡的硬件平台训练他们的AI——这个配置是大多数实验室可以负担的。超过900支队伍注册了第一轮比赛,最终有39只队伍提交了训练后的AI玩家。其中,训练后AI挖掘钻石能力最强的10支队伍进入到了第二轮比赛和决赛中。这些AI玩家有的学会了采铁矿石和制作高炉——制造铁镐的两个先提条件。但Guss不认为这些AI玩家可以找到钻石——至少在第一届比赛中是无法实现了。

尽管竞赛面向一个具体的任务,但它能激发人们利用《我的世界》进行更广泛的AI研究。Shah表示,“我对《我的世界》很感兴趣,因为这个世界中的人有着不同的目标,《我的世界》不会让你只做‘一件事’,这也为AI学习人类的各种目标创造了很好的测试环境。”

即使游戏中的图形和规则无法从物理上反映出我们的真实世界,但在《我的世界》中高效训练AI的方法也可以让机器人等领域的AI学习加速。德国达姆施塔特工业大学智能自动化系统实验室的研究人员Joni Pajarinen表示,MineRL比赛的结果可以在真实世界中产生影响,比如用于复杂部件的机器人装配以及其他需要进行复杂行为学习的领域。

最后一轮比赛已经结束,Guss和其他的组织者将会审核提交结果,并找出最厉害的采钻小“人”。最终的结果已于12月6日在加拿大温哥华举办的神经信息处理系统(NeurIPS)会议上公布。

如果MineRL比赛继续举办并成为一项传统,就能作为追踪模仿学习进展的公开基准。Shah说:“MineRL鼓励人们开展更多的模仿学习研究。虽然模仿学习对真实世界应用的重要性还有待验证,但我很有信心。”

原文以 AI takes on popular Minecraft game in machine-learning contest 标题发表在2019年11月26日的新闻特写上

© nature

Nature|doi:10.1038/d41586-019-03630-0

版权声明:

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件 Chinapress@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。

© 2020 Macmillan Publishers Limited, part of Springer Nature. All Rights Reserved

AI:我像真正的小朋友一样挖矿!《我的世界》:不你不像

相关文章