進化版AlphaGo

從0開始自學3天登頂世界冠軍!

2017年,當之無愧地可以稱之爲,人工智能元年,提起AlphaGo相信大家都不會陌生。就在昨天谷歌人工智能公司DeepMind團隊公佈了最強版AlphaGo ,代號AlphaGo Zero。可以說它就是當今世上棋力最強的圍棋選手。更可怕的是,AlphaGo Zero 的成長,完全沒有人類進行干預。

AlphaGo Zero 有多強?它不是戰勝柯潔的那個最強的 Master,但卻是孿生兄弟。可以徹底擺脫人類的知識“自學成才”,無需人類指導就能讓自己成爲自己的老師。就連柯潔都在微博中直言,這樣的AlphaGo是最強的,對於Alphago的自我進步來講,人類太多餘了。

新的AlphaGo Zero使用了一種全新的強化學習方式,從0基礎的神經網絡開始,與搜索算法結合,不斷進化調整、迭代升級。AlphaGo Zero的不同之處在於:

除了黑白棋子,沒有其他人類教給AlphaGo Zero怎麼下棋。而之前的AlphaGo包含少量人工設計的特徵。

AlphaGo Zero只用了一個神經網絡,而不是兩個。以前AlphaGo是由“策略網絡”和“價值網絡”來共同確定如何落子。

AlphaGo Zero依賴神經網絡來評估落子位置,而不使用rollouts——這是其他圍棋程序使用的快速、隨機遊戲,用來預測哪一方會獲勝。

AlphaGo Zero是無監督學習的產物,而它的雙胞胎兄弟Master則用了監督學習的方法。這個版本完全依靠機器自己進行強化學習,在擺脫了大量的人類棋譜後,機器根據圍棋的規則左右互搏,在訓練了72小時後AlphaGo Zero就能打敗戰勝李世乭的 AlphaGo Lee,相比較AlphaGo Lee訓練了幾個月。接着在第 21 天戰勝了對陣柯潔的版本,到第 40 天,在對陣此前最先進的版本時,已經能保持 90% 的勝率,將戰勝了所有人類高手的Master甩在後面。

機器能夠發現人類無法發現的一些東西,這在人工智能界是一個普遍的共識,人類自己的知識是有侷限的,而本質是計算機程序的人工智能往往與大多數人類的視角不同,他們能夠在人類的固有思維和司空見慣的事物中發現人類找不到的規則和破解問題的方法。AlphaGo Zero 就是一個很好的證明。

所以“聚行業”覺得讓 AlphaGo Zero 再次刷屏的並不是它多強的圍棋技巧,也不是「100-0」、「3天」和「40 天」這樣惹人眼球的數字,而是它所證明的技術理論的可行性。

相關文章