摘要:Deep Mind對這一版本的AlphaGo並不輸入任何人類棋譜,甚至都不告訴它圍棋規則,起初就是一個單一神經網絡,讓它自由的在棋盤上下棋,自我對弈。AlphaGo Zero由於是通過自我對弈學習,不輸入任何棋譜,所以不受人類棋局的限制,並且開發出新的圍棋策略。

這幾年,世界圍棋界迎來了灰暗時刻,都是因爲這個AlphaGo(阿爾法狗)。

首先是圍棋世界冠軍九段李世石以1:4落敗於AlphaGo,但好歹贏了一局,這時人類只覺得AI圍棋機器人很厲害,可以贏人類頂尖選手了。

後來號稱圍棋第一人的柯潔0:3慘敗於AlphaGo,此時大家才發覺人類基本上無望贏過AlphaGo了。

李世石在輸給AlphaGo後,於今年宣佈退役,並且他認爲AlphaGo是不可戰勝的,令不少圍棋選手心灰意冷。柯潔更是直言,在AlphaGo面前,人類棋手顯得有點多餘了。而今,AlphaGo的自我學習速度越來越快,人類想打贏AlphaGo越發不可能了。

那麼,爲何一個小小的圍棋機器人可以在短短數月超過人類幾千年圍棋的經驗而立於不敗之地?人類又該如何看待對它呢?

AlphaGo的由來

說到AlphaGo的起源,我們不得不說一下Deep Mind和Deep Blue。

Deep Blue(深藍)是IBM發明的一個人工智能系統,它活躍在上世紀90年代,在國際象棋比賽中贏過世界冠軍。但任務特定、用途單一,屬於狹義人工智能(Narrow AI)。

Deep Mind是由德米斯·哈薩比斯(Demis Hassabis)創辦的一家專注於人工智能的公司,這位德米斯·哈薩比斯是一位人工智能專家,同時也是神經學專家,正是他將機器自我學習和網絡神經學習結合在一起,創造出超級強大的學習算法,誕生出今天的AlphaGo。

AlphaGo爲何要在圍棋界開戰

圍棋起源於中國,有着3000年的悠久歷史,我們古人常說的“琴棋書畫”中的棋就是指圍棋,也叫對弈,博弈。圍棋的棋盤是縱橫直線形成的方形格狀格子,對弈雙方分別執黑色和白色棋子,棋盤上共有縱橫各19條直線,所以有361個交叉點,對弈雙方交替將棋子落在交叉點上,最終以圍地多者爲勝。

其實單看規則是很簡單的,新手可以在10分鐘內學會規則,但正是由於規則簡單,棋盤上反而空無一物,也沒有任何參照,所以沒有初始值,沒有固定值,但棋局卻多達10的171次方種變化。這是什麼概念,有人誇張的說和宇宙的原子數相當。這就有別於Deep Blue所發明的狹義人工智能,它所贏得西洋棋局變化數要少得多,而且只靠整體計算就可以推導出勝負概率,但圍棋不能簡單的進行編程來執行,所以說圍棋不僅是人類史上頂級的棋,同時也是人工智能要攻克的難點。

舊AlphaGo的雙腦下棋原理

其實時至今日,阿爾法圍棋AI已經換了幾代了,最新的版本是AlphaGoZero,我們先將它之前的版本統稱爲舊AlphaGo。舊AlphaGo的人工智能採用的是雙大腦協同工作。

第一個大腦是策略網絡(Policy Network),就是根據整體局勢來預測對手下一步要落子的位置,然後計算出自己最佳的下一步棋子。這是怎麼做到的呢?就是輸入大量的人類棋譜,將人類3000千年來的棋局輸入解析,讓它強化學習。第二個大腦是價值網絡(Value Network),這個網絡是在第一個大腦做出選擇落子後來計算最終勝率。它不是簡單的預測後幾步的局勢走向,直接計算到棋手輸贏的概率。

那人類是否可以採取一種從來沒有過的下棋方式或者故意錯下來讓AlphaGo無從下手呢。答案是否定的,因爲AlphaGo的策略網絡和價值網絡不是單純的預測和計算,是迭代增強網絡,也就是它自己跟自己下棋,自己落子,自己推測下一步,自己結算輸贏。在反覆的過程中修正和提高準確率,對機器來說一點也不費力。

AlphaGoZero的左右互搏術

AlphaGo Zero就更厲害了,採用的是Reinforcement learning(強化學習算法),它的能力已經產生質的變化。Deep Mind對這一版本的AlphaGo並不輸入任何人類棋譜,甚至都不告訴它圍棋規則,起初就是一個單一神經網絡,讓它自由的在棋盤上下棋,自我對弈。然後在自我對弈的過程中不斷發展、修正和調整,逐漸豐滿自己的神經網絡。

聽起來就像金庸筆下的武學大家老頑童的左右互搏術。而其自我對弈學習增強的過程,多像一個嬰兒成長爲成人的過程。

AlphaGo Zero由於是通過自我對弈學習,不輸入任何棋譜,所以不受人類棋局的限制,並且開發出新的圍棋策略。實際上,AlphaGoZero每一局都相當於新的局,而且每局過後自己有成爲進階版的AlphaGo,然後再跟進階版AlphaGo對弈,不斷成爲更高階的AlphaGo。

AlphaGo的戰績

2016年1月,AlphaGo首次對戰人類,5:0完勝歐洲圍棋冠軍樊麾。

2016年3月,AlphaGo在韓國首爾大戰世界圍棋冠軍李世石,以4比1的總比分獲勝。

2016年12月,AlphaGo Master版本註冊上線,對戰世界各國高手,60戰全勝。

2017年5月,AlphaGo Master在中國烏鎮以3:0戰勝世界冠軍柯潔。同月,又戰勝由5位世界冠軍組成的冠軍隊。

2017年10月,AlphaGo Zero經過短短3天學習,就以100:0戰勝此前擊敗李世石的AlphaGo。40天后,AlphaGo Zero擊敗了AlphaGo Master。

AlphaGo除了贏得圍棋比賽還有別的意義嗎

我們任何科技的發明都是爲了更好地服務人類,服務社會。當今世界是處在工業3.0信息化時代,世界已經被數不過來的數據鋪滿,不比圍棋的變化少,如何從這些數據中獲得有效信息,總結規律,就顯得尤爲重要。比如氣候變化數據,醫療數據,事故數據等。

人工智能是未來有可能解決這個問題的科技之一。發展像AlphaGo這樣的人工智能,就要測試它的算法是否足夠優化,是否能自我提高。機器在不斷創造新的下棋方法,同時也能給人類帶來新的思維模式。在此基礎上,再去擴展它的能力範圍,使之能真正的用到爲人類服務當中去。

我們現在做的就是給人工智能打好基礎,相信未來的人工智能會給世界帶來更多奇妙無比的體驗。

相關文章