國際泰斗：現在談強人工智能爲時尚早

摘要：DeepMind是一家總部位於倫敦的機器學習創業公司，其使命是將神經科學和計算機科學的知識應用於創建強人工智能——換句話說，就是使機器系統可以成功執行人類能夠勝任的任何智能任務。在人工智能的研究中，強化學習方法的問題在於獎勵信號往往是“懦弱的”，Hinton說。

人工智能快速發展，在許多領域取得重大影響，使得不少人擔心可能會出現超級智能。DeepMind的聯合創始人Demis Hassabis和加拿大多倫多大學教授Geoffrey Hinton兩位國際泰斗在談到強人工智能（AGI）時表示，強人工智能還有很長的路要走，目前談之爲時尚早。

預測音樂品味、檢測轉移性腫瘤、生成腦癌的合成掃描、根據真實世界的視頻創建虛擬環境、識別被販賣的受害者、擊敗國際象棋大師和專家級的Dota 2電子競技隊、取代司機成爲出租車駕駛員，以上這些只是2018年人工智能（AI）系統取得的一些成功案例，也是該領域迅速發展的證據。據麥肯錫全球研究院的分析師預測：按照目前的發展速度，僅在美國，人工智能將在未來12年內幫助增加20%到25％的淨經濟效益（放在全球範圍內，相當於13萬億美元）。

最令人印象深刻的一部分工作來自於對深度神經網絡（DNN）的研究，這是一種基於數據表示的機器學習架構。它們是對大腦的鬆散建模：DNN包含一些由突觸連接到一起的人工神經元（即數學函數），其中突觸負責神經元之間的信號傳輸。這些神經元以層的形式排列，信號（饋送到DNN中的數據或輸入）在層與層之間傳輸，可以通過調整每個神經連接的突觸強度（權重）來緩慢地“調整”DNN。隨着時間的推移，經過數百次甚至數百萬次循環後，神經網絡可以從數據集中提取出特徵並找到樣本的變化趨勢，最終學會做出新的預測。

僅僅在三十年前，David Rumelhart、Geoffrey Hinton和Ronald Williams在一篇經典論文（“反向傳播錯誤的學習表徵”：Learning Representations by Back-propagatingErrors）中詳細介紹了一種基本的權重計算技術——反向傳播。在越來越便宜，越來越強大的計算機硬件的幫助下，反向傳播已經在計算機視覺、自然語言處理、機器翻譯、藥物設計和材料檢查等方面取得了巨大飛躍，其中一些DNN給出的結果優於人類專家。

那麼DNN會導致超級智能機器人的出現嗎？DeepMind的聯合創始人Demis Hassabis不相信——如果答案是肯定的，他會知道的。DeepMind是一家總部位於倫敦的機器學習創業公司，其使命是將神經科學和計算機科學的知識應用於創建強人工智能——換句話說，就是使機器系統可以成功執行人類能夠勝任的任何智能任務。

在2018年12月初於蒙特利爾舉行的NeurIPS 2018年會議上，Demis Hassabis表示：“還有很長的路要走。從某些角度來講，遊戲或棋盤遊戲是非常簡單的，因爲不同狀態之間的過渡模式非常明確且易於學習。要弄清楚現實世界的3D環境和現實世界本身則要複雜得多，但如果你要制定某項計劃，這是很重要的。”

Hassabis是國際象棋神童和劍橋大學畢業生，在其職業生涯早期擔任了電子遊戲《主題公園》和《黑與白》的首席程序員——在倫敦大學學院、麻省理工學院和哈佛大學學習過神經科學，並對自傳記憶和情景記憶系統進行了協作研究。他在2010年與人聯合創立了DeepMind，僅僅三年後就推出了一個開創性的人工智能系統。該系統僅使用原始像素作爲輸入，能夠快速通關Atari遊戲。

自從谷歌以4億英鎊收購DeepMind以來，該機構和其醫學研究部門DeepMind Health已經因爲AlphaGo和與倫敦大學學院醫院的合作而長期佔據新聞頭條。AlphaGo是一個人工智能系統，曾在中國圍棋遊戲中擊敗世界冠軍Lee Sedol，而倫敦大學學院醫院製作的模型在CT掃描分割上表現出“接近人的表現”。最近，DeepMind的研究人員推出了蛋白質摺疊算法——AlphaFold。由於成功地從43種蛋白質中找到了其中25種蛋白質的最準確結構，該算法在第13次蛋白質結構預測技術評估（CASP）中獲得一等獎。2018年12月，DeepMind在《科學》雜誌上發表了一篇論文，介紹了作爲AlphaGo精神延續的AlphaZero系統。它可以玩三種不同的遊戲——國際象棋、一種被稱爲shogi的日本象棋，以及圍棋—其表現好到足以擊敗著名的人類玩家。

儘管DeepMind取得了令人矚目的成就，但Hassabis警告說，他們並不認爲強人工智能即將來臨——遠非如此。他說，人們是利用內在認識來對世界進行預測和規劃的，這種方式與今天的人工智能系統不同。與圍棋、國際象棋和shogi棋的新手相比，AlphaGo和AlphaZero在信息方面處於劣勢。Hassabis說：“這些AI系統首先要學習觀察，然後才能學會玩遊戲。與算法相比，人類玩家可以更快地學習，可以快速地將根據像素得出主題，以確定是他們需要逃離目標還是靠近它。”

爲了讓AlphaZero這樣的模型打敗人類，需要對它進行70萬個步驟的訓練—每個步驟代表4096個棋盤位置—所使用的系統配備了數千個由谷歌設計的應用程序專用芯片，這些芯片針對機器學習進行了優化。這大約相當於針對國際象棋進行9小時的訓練，針對shogi棋進行12小時的訓練，針對圍棋進行13天的訓練。

DeepMind並不是唯一一個致力於解決當前人工智能設計侷限性的公司。在今年早些時候的一篇博文中，一個總部位於舊金山的非盈利性人工智能研究公司OpenAI宣佈他們已經開發出了OpenAI 5。在今年夏天的一次Dota 2遊戲中，該軟件成功擊敗了一個包含四名專業遊戲玩家的五人遊戲小組。OpenAI得到了Elon Musk、Reid Hoffman和Peter Thiel及其他一些科技界傑出人士的支持。該組織表示，藉助運行於谷歌雲平臺的256個Nvidia Tesla P100顯卡和12.8萬個處理器核心，該系統每天可以玩相當於180年的遊戲（80％的遊戲與自己對抗，20％對抗舊算法）。但即使在完成所有訓練之後，它仍然難以將獲得的技能應用於特定遊戲之外的任務。

Hassabis說：“我們沒有能夠將知識從一個領域轉移到下一個領域的有效系統。我認爲我們需要一些新的概念或提取方法來做到這一點。針對遊戲建立模型相對容易，因爲從一個步驟到另一個步驟很容易，但我們希望創造具有模型生成功能的系統，這將使得在這些環境中做規劃變得更容易。”

當前的大多數人工智能系統也沒有很好的擴展性。Alphazero、Alphago和OpenAI 5利用了一種被稱爲強化學習的編程方式。在這種方式中，由人工智能控制的軟件代理能夠學會在某個環境中採取行動，例如棋盤遊戲或多人在線對戰遊戲（MOBA），以獲得最大獎勵。

Hinton在接受採訪時說：“想象一個Skinner盒子系統是很有幫助的。”Skinner盒子的名字來源於哈佛大學的先驅心理學家B.F. Skinner。他利用操作性條件作用來訓練受試動物，使其執行某種動作，如按下槓桿，以響應光或聲音等刺激。如果受試者正確完成任務，它們會得到某種形式的獎勵，通常是以食物或水的形式。

在人工智能的研究中，強化學習方法的問題在於獎勵信號往往是“懦弱的”，Hinton說。在某些環境中，在從隨機數據中尋找模式時，代理可能會卡住——即出現所謂的“電視噪音問題”。

Hinton表示：“每隔一段時間你就會得到一個標量信號，告訴你你做得很好。但信號的頻率不高，信息量也不大，而你需要做的是在這個非常懦弱的信號的基礎上，用數百萬個參數或數萬億個參數訓練系統。你能做的是使用大量的計算——許多令人印象深刻的演示都依賴於大量的計算。這是一個方向，但它並不真正吸引我。我認爲研究人員需要的是更好的見解。”

與Hassabis一樣，Hinton在過去30年裏一直在應對人工智能的一些最大挑戰，現在他正在與谷歌的谷歌大腦深度學習研究團隊和多倫多大學進行合作，而他很清楚自己工作的意義—有人把他稱爲“深度學習之父”。除了DNN中的開創性工作之外，Hinton還在機器學習、感知、記憶和符號處理等方面撰寫或合作撰寫了200多篇同行評審的文章。最近他正在將注意力轉向膠囊神經學（capsule neural networks）。這是一種機器學習系統，其結構能夠幫助構建更穩定的表示方式。他說，數十年來的集體研究讓他相信，解決強化學習的可伸縮性問題的方法是利用層次結構加強信號。

“假設你有一個很大的組織，強化信號最先到達，而首席執行官被告知公司今年獲得了大量利潤——這就是對他的強化信號，”Hinton解釋道：“我們假設它每隔15分鐘出現一次。沒有太多的信號來培養一大堆人來完成幾項任務，但如果首席執行官手下有一些副總裁，並給每位副總裁制定了一個目標，以獲得最大獎勵，這會帶來更多的利潤，而他將得到回報。”

在這種安排中，即使獎勵沒有兌現——也許是因爲模擬的首席執行官給副總裁制定了一個錯誤的目標——這個週期也會繼續，Hinton表示。副總裁總是能夠學到一些東西，這些東西最終可能在未來變得有用。“通過製造子目標，並分派人來實現這些子目標，你就可以通過創造更的多懦弱信號來放大這些懦弱信號，”他補充說。

這是一個複雜的思維實驗。這些副總裁需要一個溝通目標、子目標和相關獎勵條件的渠道，即中低層經理。系統中的每個“員工”都需要能夠決定他們是否做了正確的事情，這樣他們就會知道爲什麼要獎勵他們。所以他們需要一個語言系統。

“問題在於創造一個系統，允許某些模塊爲其他模塊創建子目標，”Hinton說：“你可以想象一個擁有一隻有牧羊犬的牧羊人。他們需要創造一種不依賴於英語的語言，使得訓練有素的牧羊犬和牧羊人可以很好地交流。但想象一下，如果牧羊犬有自己的隨從犬會出現什麼情況。它必須從這些手勢和其他信息中獲取來自牧羊人的命令，並需要創造與其他牧羊犬交談的方式。”

幸運的是，最近一個名爲“變形金剛”的AI可能朝着正確的方向邁出了一步。谷歌的研究人員推出了一種新型的神經結（即上述的變形金剛），能夠在語言翻譯任務中超越最先進的模型，同時只需要較少的計算來完成訓練。”

基於其在變形金剛中的工作，谷歌於2018年11月開源了基於變形金剛的雙向編碼器表示（Bidirectional Encoder Representations fromTransformers），即BERT。通過預先訓練，BERT可以根據任意語料庫生成的任務來學習構建句子之間的關係，並使開發人員能夠基於一個雲TPU（張量處理單元，谷歌的雲託管加速器硬件）在30分鐘內訓練出一個最先進的NLP模型，或使用單個圖形處理單元耗費幾個小時來完成。

“變形金剛是擁有路由功能的神經網絡，”Hinton解釋道：“目前在神經網絡中，活動變化很快，但權重變化緩慢，這就是現狀。生物學告訴你，你想要做的是擁有快速變化的活動，然後你想在許多不同的時間尺度上修改突觸，這樣你就可以記住最近發生的事情，而且很容易回憶。使用變形金剛，一羣神經元會創造出一些信息，而且它不僅僅將這些信息發送給它所連接的每個神經元——它會試圖把它們發送給那些知道如何處理的神經元，而不會發送給那些不知道如何處理的神經元。”

這不是個新的主意。Hinton指出，在20世紀70年代，神經網絡的大部分工作都聚焦於記憶，其目標是通過修改權重來存儲信息，以便重新創建信息，而不是簡單地從某種形式的存儲中提取信息。他說：“實際上，你不會像在文件櫃裏保存文件那樣把這些信息存儲起來——你會修改參數，導致如果我給你一點東西，你就可以把其餘的內容填充起來，就像利用一些碎片製作恐龍一樣。我要說的是，我們應該把這個想法用於短期記憶，而不僅僅是長期記憶，它將解決各種各樣的問題。”