在构建AlphaGo并击败全球最出色的围棋棋手之后,谷歌DeepMind又打造出AlphaZero并打垮了众多世界上最强大的机器棋手。

对于人类而言,国际象棋可能是那种需要投入终生才有可能精通的技艺。然而,谷歌DeepMind的全新人工智能程序AlphaZero能够在短时间内通过自我学习快速将其掌握。

基于AlphaGo套件(包括一系列用于攻克围棋这一传统技艺的程序)以往取得的成功,谷歌宣称其全一代AlphaZero不仅在这款棋盘游戏当中实现了“超越人类的表现”,甚至一举破解了三种棋类的秘密:围棋、国际象棋与将棋(类似于日本版的国际象棋)。由谷歌公司David Silver领导的计算机科学家与工程师团队最近在《科学》杂志上报告了这一重要发现。

佐治亚理工学院交互式计算与人工智能专家Ayanna Howard虽没有参与这项研究,但却做出评述称,“在此之前,我们虽然能够利用机器学习让机器掌握某种技能,但却也仅限于一种技能本身。而在AlphaZero的启发下,我们意识到完全可以构建起一种不那么具体的算法,并使其立足某些参数范围之内进行学习。”

AlphaZero这种出色的智能水平肯定会增加人类与机器在游戏领域的对抗程度,但谷歌长期以来一直将目光投向更伟大的目标:工程智能。

研究人员们小心翼翼地控制着AlphaZero在宣传中的形象(但也有不少人迫不及待地想将其塑造为前所未有的强大智能造物)。尽管如此,Silver及其他DeepMind小组都有着共同的心愿:有朝一日,将这类系统应用于药物设计或者材料科学领域。

那么,AlphaZero到底拥有哪些特质,足以让人工智能从业者们对其刮目相看?

游戏玩法长期以来一直被视为衡量人工智能研究水平的黄金标准。结构化的互动游戏像是对现实场景的简化:参与方必须做出艰难的决定; 在胜出与失败因素之间做出权衡; 另外,预测、自我批判以及战略眼光是决定一切的关键。

编码一直是种非常棘手的工作。从传统角度讲,以往的游戏AI(包括AlphaGo的初代原型)一直充斥着大量代码与数据,用以模仿多年以来自然形成的人类游戏玩法(基本上属于被动学习过程,由程序员对其进行知识「填鸭」)并获得游戏经验。但在AlphaGo Zero(AlphaGo的最新版本)以及现在的AlphaZero当中,研究人员只需要为其提供一项输入:游戏规则。在此之后,系统将亲自从零开始学习游戏技巧,并最终探索出一条只属于人工智能的思维道路。

AlphaZero以AlphaGo Zero为基础,后者则作为AlphaGo围棋套件中的重要组成部分甚至是收官之作。该程序的早期迭代版本主要基于人类棋手之间对弈产生的数据; 后期版本则强调自主学习,软件将进行自我对弈以建立起专属于自己的策略。

这种被称为自我对弈强化学习的策略在本质上可以概括如下:为了建立起对棋艺的深刻理解,AlphaZero会反复进行自我迭代,通过无数次实验磨练其技能。这种近乎暴力的方式得到了显著的回报。

与AlphaGo Zero不同,AlphaZero不只学会了围棋,其亦在国际象棋与将棋棋盘上将往日的AI王者斩于马下。整个学习过程非常高效:只需要两小时、四小时或者三十个小时的自主学习,其就能够胜过专门针对将棋、国际象棋及围棋量身设计的定制化程序。

更值得注意的是,虽然研究作者们没有提到,但AlphaZero在顺利击败Stockfish(前任AI国际象棋大师)与Elmo(前AI将棋专家程序)的同时,在对弈的每个回合中所需要计算的下一步动作数量反而更少。并未参与AlphaZero项目的英国巴斯大学人工智能研究员Joanna Bryson还强调称,由于这里讨论的几种算法存在本质层面的差异,且消耗的计算资源也很可能完全不同,因此我们很难直接将AlphaZero与其它原有程序进行比较。

谷歌往往对其软件中的大量细节保持沉默,AlphaZero自然也不例外。虽然不知道该程序的功耗水平,但显而易见的是:AlphaZero项目的运行必然需要相当可观的计算资源作为支持。在整个训练周期当中,该程序一直高强度运转,进行数十万甚至数百万次自我对弈,这样的数量显然远远超过了人类棋手在磨练棋艺当中所需要或者能够达到的程度。但如此可观的对弈量也带来了令人惊艳的成果——该项目的棋艺可谓震古铄今、登峰造极。

这种资源密集型方案使用到5000个谷歌专门打造的机器学习处理器单元,简称TPU。根据估计,每个单元的功耗约为200瓦。无论如何计算,AlphaZero所需要的能量都要远远高于人类大脑——毕竟人脑的运行功率仅为20瓦左右。

加州大学伯克利分校的统计学、机器学习与人工智能研究专家Bin Yu补充称,我们有理由对AlphaZero的绝对能耗做出估算。AlphaZero虽然功能强大,但在项目创建与执行的人力与时间投入方面却可能并不友好。

无论成本是否高昂,AlphaZero的出现还是引发了广泛轰动:大多数AI方案仅针对单一任务进行超级专业化调整,但AlphaZero却拥有能够同时玩转三种棋类游戏的灵活性。Yu指出,“令人印象深刻的是,AlphaZero能够在三种不同的棋类游戏当中使用相同的架构。”

所以,没错,谷歌的这套新型AI方案确实在多个方面树立起新的标杆。它很快,它很强大——但是,它是否真的具有智能?

这正是定义当中最为模糊的部分。DeepMind的Silver在向媒体公开发表的一份声明中指出,“AlphaZero能够在无需任何人类知识作为基础的前提下开始从零学习,并在每一种棋类游戏当中获得超越人类的技艺水平。”

众所周知,棋类游戏对精神的敏锐度提出了极高的要求,而现有的所有代理在这方面都存在着一定的局限性。在目前的迭代版本中,AlphaZero确实在三种人类设计的游戏中获得胜利,但这并不一定能够保证其实现“全面超越人类”的终极目标。如果在游戏当中引入新的规则集合,AlphaZero很可能会陷入困境。在另一方面,人类大脑能够掌握的棋类技艺也绝不止区区三种。

Bryson表示,更重要的是,要如何将AlphaZero基准与tabula rasa(即白板)进行比较。研究人员们也确实将此视为一种重要的延伸。不可否认,程序员仍然需要为AlphaZero提供一小部分人类知识:即需要遵循的游戏规则。Bryson补充称,“这方面信息量确实远远低于以往AI方案的需求。但从本质上讲,其中仍然存在规则,而且规则本身必须是明确的。”

这些讨厌的规则很可能成为AI方案难以摆脱的“拐杖”。Howard表示,“即使这些程序学会了如何玩转游戏,但仍然需要规则的引导。而真正重要的是,这世界上存在着大量没有明确规则的任务。”

在发展过程当中,AlphaZero成为已经无比强大的AlphaGo Zero的升级版本。来自弗吉尼亚州立大学理工学院且并未参与这项研究的人工智能与计算造梦专家JoAnn Paul解释称,AlphaZero仍在使用大量与AlphaGo Zero相同的构建块与算法,因此其只能算是真正智能方案的组成部分之一。她补充道,“在我看来,这一新进展还要持续演变才能带来真正的变革。更具体地讲,算法不应进行人为创建,而是由智能本身勾勒故事框架,或者说想象出尚不存在的东西。我们在计算机科学领域还没有考虑到这些问题。”

在Yu看来,产生问题的原因之一,在于如今人们对于“智能”的定义仍然没有达成广泛共识——包括在技术之外的领域也是如此。她同时补充称,“我们仍不清楚人类是如何建立起批判性思维方式的,也不知道人类如何在无意识中使用大脑资源。”

到目前为止,大部分研究人员坚信可能存在多种智能类型,而强调其中一种的同时也意味着我们远离了其它种类。举例来说,一些最聪明的家伙在国际象棋领域可能表现出众,但却未必能够解决普通人就能轻松完成的其它某些任务。

正是由于上述局限性的存在,Yu认为人工智能未来将以一种共同进化的方式实现人类与机器间的相互配合。她解释称,机器肯定能够继续在某些任务当中带来出色的表现,但也许永远无法彻底摆脱人们的输入与监督——也就是其中总会存在无法自动化的部分。

当然,没人清楚整个人工智能领域将朝着怎样的方向发展。与此同时,我们也面临着更多值得思考的问题。Paul总结称,“这些计算机功能强大,在很多方面也做得比人类更好。但这是否意味着我们揭开了智慧的神秘面纱?答案恐怕是否定的。”

查看原文 >>
相关文章