進化版AlphaGo，從0開始自學3天登頂世界冠軍！

進化版AlphaGo

從0開始自學3天登頂世界冠軍！

2017年，當之無愧地可以稱之爲，人工智能元年，提起AlphaGo相信大家都不會陌生。就在昨天谷歌人工智能公司DeepMind團隊公佈了最強版AlphaGo ，代號AlphaGo Zero。可以說它就是當今世上棋力最強的圍棋選手。更可怕的是，AlphaGo Zero 的成長，完全沒有人類進行干預。

AlphaGo Zero 有多強？它不是戰勝柯潔的那個最強的 Master，但卻是孿生兄弟。可以徹底擺脫人類的知識“自學成才”，無需人類指導就能讓自己成爲自己的老師。就連柯潔都在微博中直言，這樣的AlphaGo是最強的，對於Alphago的自我進步來講，人類太多餘了。

新的AlphaGo Zero使用了一種全新的強化學習方式，從0基礎的神經網絡開始，與搜索算法結合，不斷進化調整、迭代升級。AlphaGo Zero的不同之處在於：

除了黑白棋子，沒有其他人類教給AlphaGo Zero怎麼下棋。而之前的AlphaGo包含少量人工設計的特徵。

AlphaGo Zero只用了一個神經網絡，而不是兩個。以前AlphaGo是由“策略網絡”和“價值網絡”來共同確定如何落子。

AlphaGo Zero依賴神經網絡來評估落子位置，而不使用rollouts——這是其他圍棋程序使用的快速、隨機遊戲，用來預測哪一方會獲勝。

AlphaGo Zero是無監督學習的產物，而它的雙胞胎兄弟Master則用了監督學習的方法。這個版本完全依靠機器自己進行強化學習，在擺脫了大量的人類棋譜後，機器根據圍棋的規則左右互搏，在訓練了72小時後AlphaGo Zero就能打敗戰勝李世乭的 AlphaGo Lee，相比較AlphaGo Lee訓練了幾個月。接着在第 21 天戰勝了對陣柯潔的版本，到第 40 天，在對陣此前最先進的版本時，已經能保持 90% 的勝率，將戰勝了所有人類高手的Master甩在後面。