開發出人工通用智能,一直是人工智能研究的一大目標。此前的許多算法雖能精通諸如圍棋、象棋等遊戲,卻無法“觸類旁通”,每遇到新的遊戲都需要更改框架,重新學習,更不用說將棋類遊戲的方法搬到電腦遊戲上了。

然而就在昨天,曾開發AlphaGo的DeepMind公司在《自然》上發文,正式宣佈了MuZero:這個新的算法不僅精通圍棋、國際象棋和將棋,還能在30多款雅達利(Atari)遊戲上全面超越過去的人工智能算法和人類。MuZero的正式發佈,爲人工智能領域揭開了新的篇章。

撰文 | 羅丁豪

故事從2014年開始,基於倫敦的DeepMind公司懷着一腔雄心壯志,着手建造一個巨大項目:他們想要將正在生根發芽的人工智能(artificial intelligence,簡稱AI)技術大面積地應用到人類生活場景中,讓機器與人真正地互動並融合。

他們決定從國際象棋入手:這是一個需要長期計劃能力的人類遊戲,對初出茅廬的AI技術來說是一項嚴峻的挑戰。即使在1997年IBM的“深藍”(Deep Blue)擊敗當時的國際象棋冠軍卡斯帕羅夫之後,棋類AI的發展仍步履維艱。以圍棋(Go,即日語“碁”字之轉寫)爲例:2013年,AI在不讓子的情況下幾乎無法擊敗人類職業選手。

2016年,AlphaGo橫空出世,以4:1擊敗韓國選手李世石,並在2017年的烏鎮圍棋峯會上擊敗了世界第一棋手柯潔。中國圍棋協會當即授予AlphaGo職業圍棋九段的稱號。

如果說AlphaGo的成功確立了AI的“圍棋霸權”,隨後的AlphaGo Zero和AlphaZero則進一步揭示了“棋類霸權”的可能性。作爲AI算法,不論是AlphaGo還是其繼位者,都需要大量的訓練。AlphaGo依賴於專家棋法(expert moves)數據集,而AlphaGo Zero捨去了這一步,直接與自己對戰以爲訓練提供數據。AlphaZero則除了圍棋,更學會了日本象棋(將棋)和國際象棋。值得一提的是,2018年底發佈的AlphaZero,從第一次見到棋盤,到成爲世界級棋類大師,只用了24小時。

然後,MuZero來了。一篇昨晚正式發表於《自然》的論文,揭示了一個更加通用、強力的算法:MuZero不僅能下圍棋、將棋和國際象棋,還在30多款雅達利遊戲中展示出了超人類表現(superhuman performance)。

最重要的是,沒人教過MuZero這些遊戲的規則。

無師自通

自古以來,哲學家和科學家都幻想着有朝一日能造出“人工通用智能”(artificial general intelligence)。簡單地說,人工通用智能需要有極高的可塑性(flexibility),從而適應(甚至精通)各式不同的任務:一個能下棋、玩遊戲、做家務、開飛機的AI。然而在此之前,最好的AI算法也只能精通數個同類任務;會下圍棋、將棋和國際象棋的AlphaZero就是一個例子。

這種限制,在很大程度上來自AI算法對規則的依賴性。要想讓AlphaZero下好各種棋,人類需要明確地教它各種棋的規則。以國際象棋爲例,AlphaZero知道象只能斜着走,還不能跨過障礙物,而馬可以跨過障礙物,但需要走“日”字。AlphaZero也知道什麼是輸贏和平局。可是一旦更換棋種,人類就需要將新棋種的規則從頭教給AlphaZero。

既然這種依賴性限制了目前AI算法的應用範圍,那最簡單的解決方案,就是去除這種依賴性:人類可以不教AI下棋,只給它一個棋盤。每當AI選擇了下一步該如何走時,人類才告訴它這一步合不合法,並且是否導致了輸贏或平局。

——這就是MuZero面臨的情境。對於任何一個遊戲或任務,MuZero所掌握的只有一套“思考方式”,並沒有該任務的“行爲準則”。它不知道國際象棋裏的馬該怎麼走,也不知道將棋中如何達成“王手”。如同第一次見到電腦的小孩,MuZero具有作出推理論斷的“思維工具”,但不知道如何才能贏得“掃雷”。

跟人類一樣,MuZero的祕訣,在於摸着石頭過河,爲外部世界建立一個只屬於自己的“模型”(internal model)。在這個內部模型中,MuZero捨棄了一切表面上的規則,只留下對決策有用的信息:價值(value,即當前決策“有多好”)、策略(policy,即最好的“下一步”是什麼)和獎勵(reward,即上一步“有多好”)。

要明白這種策略的特殊和有效性,我們可以拿MuZero和AlphaZero的神經網絡作對比:

任何深度學習算法在面對棋盤時,第一步總是觀察。AlphaZero能觀察當前棋局(),並直接利用計劃未來的棋步。這要多虧了它所知道的棋類規則:它明白做出一個動作(action)後的下一個棋局長什麼樣,並可以在下一個棋局的基礎上繼續規劃棋路,“想象”並評估各種不同的可能性。這樣的規劃方式,在深度學習上稱爲“蒙特卡洛樹搜索”(Monte Carlo tree search,MCTS)。MCTS允許算法探索不同的可能性,並從中擇出最優的動作。因此,熟知規則的AlphaZero要想精通棋類,只需要一個“神經網絡”(neural network),即“預測網絡”(prediction network),給輸入一個狀態,它就能給出這個狀態的價值()和潛在策略();通過評估各個可能性,AlphaZero就能得知當前最好的棋步。

MuZero則沒有這種“奢華待遇”:它需要摸索出棋盤上各個子的合法(legal)走法,還需要弄清輸贏的概念;當然,它的目標與AlphaZero一樣,贏就好了,越多越好。但在不清楚規則的情況下,MuZero需要另闢蹊徑,利用“表徵網絡”(representation network),將觀察到的棋盤狀態轉換成只屬於自己的隱藏狀態(hidden state)。我們將當前的棋盤狀態稱爲“O”(observation,即觀察),MuZero的當前隱藏狀態稱爲。但這時,MuZero遇到了第二個大難題:如何像AlphaZero一樣評估未來的各種可能性呢?

不像AlphaZero,不知道棋盤規則的MuZero不能預測棋盤的各種可能狀態,因此,MuZero需要從零開始,創造自己對棋路的內部模型。幸運的是,有了隱藏狀態之後,MuZero就能算出狀態下可以做出的各種行動(經過學習,MuZero得出的可能行動會越來越符合規則),並能通過“動態網絡”(dynamic network),利用MuZero選擇的行動和當前潛在狀態,推演出。在每一個真實世界的時間點內,MuZero都能利用自己的內部模型和MCTS選擇出這一個時間點的最佳行爲,並將其應用於真實世界中。在實際做出了一個最佳行爲後,這個行爲又能再“回收”,用於訓練動態網絡(從而改進MuZero的內部模型)。

也就是說,由於AlphaZero對規則的掌握,它只需要一個預測網絡就能精通棋類。而不能預先知曉規則的MuZero,則需要利用動態網絡和表徵網絡,自己學習並建立一個內在模型,從而學會下棋。在建立內在模型的過程中,人類不會給MuZero設置任何限制:MuZero可以捨棄任何信息,只保留有用的元素(即價值、策略和獎勵)。

與人類一樣,MuZero可以在它的“腦海”中創造任何規則和動態。它的目標是做出最精確、最有效的未來規劃。捨棄了“循規蹈矩”的MuZero反而因此獲得了極強的可塑性,在截然不同的棋類和電腦遊戲中都“得心應手”。

“超人”表現?

就這樣,MuZero這樣一個“無師自通”的算法,竟然在AlphaZero引以爲傲的棋類遊戲中輕鬆與後者打成了平手。

在國際象棋、將棋和圍棋中,MuZero都能達到AlphaZero的水平,甚至在圍棋中稍稍勝過了AlphaZero。這表明MuZero“自學成才”建立的內部模型,或許比AlphaZero的“循規蹈矩”更接近圍棋的要義。在雅達利遊戲中,MuZero的表現也非同尋常。以“喫豆人小姐”(Ms。 Pac-Man)爲例,MuZero的得分爲243401。10,相比之下,人類的最高分只有6951.60,是MuZero的1/35。在57個測試用的雅達利遊戲中,MuZero在37箇中取得了歷史最高分,而人類則僅在5個遊戲中保持着最佳成績。

但是,在利用AlphaZero和其他算法攻破了這些遊戲後,反而對MuZero隱藏起規則,讓它“閉上眼”下棋、“揹着手”玩遊戲的目的是什麼呢?

正如本文開頭所說,DeepMind和整個AI領域一樣,並不在乎國際象棋和雅達利遊戲本身。這是一場事關智能的征途,目標是理解智能本身。牙牙學語的嬰兒並不明白動名詞的區別,卻能在短短几個月內連詞成句,甚至創造出只屬於他們的句子。生物學家也並非生來就知曉細胞的各種祕密,而是在實驗和失敗中,一步步對生物世界建立了理論和模型,從而獲得深刻洞見。

事實很殘酷:循規蹈矩不是智能。事先熟知規則再精通下棋,與先摸索規則、建立內部模型再精通棋路是全然不同的。前者只能困於“棋”中,後者則能將一套“思考方式”搬到各種任務上。前者的例子包括AlphaGo到AlphaZero的各種棋類AI,後者則包括MuZero和于爾根·施密德胡波(Jürgen Schmidhuber)著名的“循環世界模型”(Recurrent World Model)。

爲外界建立內部表徵是人類最引以爲傲的能力之一。如今在AI身上,這個能力再次證明了自己的價值。MuZero不僅讓人類看到了創造人工通用智能的可能性,還爲我們打開了一扇通往智能本身的大門:

智能究竟是什麼?我們離答案似乎越來越近。

相關文章