雪花新闻

进化版AlphaGo,从0开始自学3天登顶世界冠军!

进化版AlphaGo

从0开始自学3天登顶世界冠军!

2017年,当之无愧地可以称之为,人工智能元年,提起AlphaGo相信大家都不会陌生。就在昨天谷歌人工智能公司DeepMind团队公布了最强版AlphaGo ,代号AlphaGo Zero。可以说它就是当今世上棋力最强的围棋选手。更可怕的是,AlphaGo Zero 的成长,完全没有人类进行干预。

AlphaGo Zero 有多强?它不是战胜柯洁的那个最强的 Master,但却是孪生兄弟。可以彻底摆脱人类的知识“自学成才”,无需人类指导就能让自己成为自己的老师。就连柯洁都在微博中直言,这样的AlphaGo是最强的,对于Alphago的自我进步来讲,人类太多余了。

新的AlphaGo Zero使用了一种全新的强化学习方式,从0基础的神经网络开始,与搜索算法结合,不断进化调整、迭代升级。AlphaGo Zero的不同之处在于:

除了黑白棋子,没有其他人类教给AlphaGo Zero怎么下棋。而之前的AlphaGo包含少量人工设计的特征。

AlphaGo Zero只用了一个神经网络,而不是两个。以前AlphaGo是由“策略网络”和“价值网络”来共同确定如何落子。

AlphaGo Zero依赖神经网络来评估落子位置,而不使用rollouts——这是其他围棋程序使用的快速、随机游戏,用来预测哪一方会获胜。

AlphaGo Zero是无监督学习的产物,而它的双胞胎兄弟Master则用了监督学习的方法。这个版本完全依靠机器自己进行强化学习,在摆脱了大量的人类棋谱后,机器根据围棋的规则左右互搏,在训练了72小时后AlphaGo Zero就能打败战胜李世乭的 AlphaGo Lee,相比较AlphaGo Lee训练了几个月。接着在第 21 天战胜了对阵柯洁的版本,到第 40 天,在对阵此前最先进的版本时,已经能保持 90% 的胜率,将战胜了所有人类高手的Master甩在后面。

机器能够发现人类无法发现的一些东西,这在人工智能界是一个普遍的共识,人类自己的知识是有局限的,而本质是计算机程序的人工智能往往与大多数人类的视角不同,他们能够在人类的固有思维和司空见惯的事物中发现人类找不到的规则和破解问题的方法。AlphaGo Zero 就是一个很好的证明。

所以“聚行业”觉得让 AlphaGo Zero 再次刷屏的并不是它多强的围棋技巧,也不是「100-0」、「3天」和「40 天」这样惹人眼球的数字,而是它所证明的技术理论的可行性。

相关文章