長文揭祕：谷歌與DeepMind的控制權之戰，剛剛開始

歡迎關注“創事記”的微信訂閱號：sinachuangshiji

文/HAL HODSON

譯/陳杰、王璇、楊鵬嶽

來源：圖靈TOPIA（ID:turingtopia）

DeepMind和谷歌的關係可能並不像看上去的那麼美好。

2014年穀歌擊敗Facebook，斥資6億美元收購了DeepMind。DeepMind致力於解決人工通用智能方面的挑戰，它最爲世人熟知的產品就是AlphaGo和AlphaZero。

因爲DeepMind缺乏持續穩定的營收能力，並非所有谷歌員工都認爲收購是明智之舉；而對DeepMind的員工而言，谷歌這位金主也不是那麼令人滿意，他們之間的矛盾點在於“獨立自主權“。

谷歌與DeepMind的控制與反控制的戰爭已經開始！

真相究竟如何？今日，圖靈君帶來《經濟學人》萬字長文：帶你瞭解DeepMind的前世今生，深度洞察其與谷歌的人工智能控制權之爭。

DeepMind的初心：AGI

2010年8月的一個下午，在舊金山灣的會議廳裏，一名叫Demis Hassabis的34歲倫敦人大步走上舞臺。他儘量控制着自己的情緒，微笑着說：“今天我將要談論一種不同的構建方法......”他停頓了一下，好像要大聲說出他的話題。然後他說：“那就是AGI”。

AGI代表通用型人工智能，是一種假設的計算機程序，可以執行與人類相同或更好的智力任務。 AGI將能夠完成離散任務，例如識別照片或翻譯語言，這些只是我們手機和計算機中衆多人工智能（AIs）形式的一種表現。但它也會加減法、下棋和說法語。它還能理解物理類論文、撰寫小說、制定投資策略並與陌生人進行愉快的交談。它將監測核反應、管理電網和交通流量，並毫不費力地取得一切成功。

AGI將使今天最先進的AI看起來像袖珍計算器。

目前只有人類的智力能夠完成所有這些任務。但人類的智力受到大腦顱骨大小的限制，它的力量受到身體能夠提供的微量能量的限制。但AGI將在計算機上運行，所以它不會受到這些限制。其智能僅受可用處理器數量的限制。AGI可能從監測核反應開始，但很快它就可以通過在瞬間消化更多的物理論文來發現新的能量來源，而這個過程，人類可能花費畢生精力也比不上。

人機智能和計算機的速度和可擴展性，將解決掉目前看似不可解決的問題。哈薩比斯告訴英國報紙觀察家，他希望AGI能夠掌握“癌症、氣候變化、能源、基因組學、宏觀經濟和金融系統”等學科。

哈薩比斯發言的會議被稱爲奇點峯會。根據未來學家的說法，“奇點”指的是AGI出現的最可能後果。 因爲AGI將以高速處理信息，所以它會很快變得非常聰明。自我改善的快速循環將導致機器智能的爆炸，使人類窒息於硅塵。由於這是完全建立在未經考驗的假設上，因此無論是將奇點視爲烏托邦還是地獄，都是近乎宗教信仰的問題。

從會談的標題來看，會議的與會者傾向於將人工智能當成救世主：“如何建立人類思想”; “AI對抗衰老”; “取代我們的身體”; “修改生與死的界限”。相比之下，哈薩比斯的講話“建立AGI的系統神經科學方法”似乎沒有給人留下深刻的印象。

哈薩比斯在講臺和屏幕之間踱步，語速很快。他穿着一件栗色套頭衫和一件白色的扣子襯衫，像個學生。他那瘦小的身材似乎反襯出他的智力強大。哈薩比斯解釋說，到目前爲止，科學家已從兩個方面接近AGI。其中一個就是AI，研究人員試圖描述和編程一個可以像人類一樣思考的系統的所有規則。這種方法在20世紀80年代和90年代很流行，但沒有產生預期結果。哈薩比斯認爲大腦的結構太微妙，無法通過這種方式描述。

另一個就是以數字形式複製大腦的物理網絡。這樣做有一定道理，畢竟大腦是人類智慧所在。但哈薩比斯說，那些研究人員也被誤導了。他們的任務與繪製宇宙中每顆恆星的任務類似。更離譜的是，這種方法專注於錯誤的大腦功能水平，就像試圖通過撕開計算機並檢查晶體管的相互作用來了解Microsoft Excel的工作原理一樣。

相反，哈薩比斯提出了一箇中間立場：AGI應該從大腦處理信息的廣泛方法中獲取靈感，而不是物理系統或它在特定情況下應用的特定規則。換句話說，它應該專注於理解大腦的軟件，而不是硬件，像功能性磁共振成像（fMRI）這樣的新技術，大腦在活動時能夠在大腦內部進行對等活動，已經開始使這種理解變得可行。

他告訴觀衆，最新的研究表明，大腦通過在睡眠期間重播經驗來學習，以便得出一般原則。 AI研究人員應該模仿這種系統。

在他的幻燈片的右下角出現了一個標誌，一個圓形的藍色漩渦，下面印着兩個單詞：DeepMind。 這是該公司第一次公開亮相。這次演講並不簡單，哈薩比斯花了一年的時間試圖收到奇點峯會的邀請。他真正想要的是與硅谷億萬富翁彼得·蒂爾（Peter Thiel）交談一分鐘，而蒂爾正是這次會議的贊助商。哈薩比斯想要蒂爾的投資。

哈薩比斯從來沒有說過爲什麼他特別想要蒂爾的支持。但蒂爾比哈薩比斯更相信AGI。在2009年奇點峯會的一次演講中，蒂爾曾表示，他對未來最大的恐懼不是機器人起義（儘管在新西蘭內陸地區有一個避難所，其實他比大多數人做好了準備）。相反，他擔心奇點將花費太長時間，而世界需要新技術來抵禦經濟衰退。

DeepMind最終籌集了200萬英鎊; 蒂爾貢獻了140萬英鎊。當Google以6億美元的價格在2014年1月收購該公司時，蒂爾和其他早期投資者的投資收益率爲5000％。

對於許多創始人來說，這是一個圓滿的結局。他們可能會放慢速度，退後一步，花更多的時間與錢打交道。對於哈薩比斯來說，谷歌的收購只是他追求AGI的其中一步。 2013年，他花了很多時間談判交易條款。DeepMind將獨立於谷歌運營，將在不失去控股權的前提下獲得谷歌提供的現金和算力。

哈薩比斯認爲DeepMind將是一個混合體：它將擁有創業公司的驅動力，頂尖大學的大腦，以及世界上最有價值公司的雄厚資金。每一個因素都是爲了加速AGI的到來，並解決人類的苦難。

哈薩比斯其人

哈薩比斯於1976年出生於倫敦北部，父親是希臘塞浦路斯人，母親是新加坡籍華人。他是三個兄弟姐妹中最大的一個。他的母親在英國百貨公司約翰·劉易斯工作，他的父親經營着一家玩具店。他四歲時，在看完父親和叔叔的比賽後，迷上了國際象棋，幾周之內，他就擊敗了成年人。到了13歲時，他在同齡棋手中位居世界第二。八歲時，他自學了基礎計算機代碼。

哈薩比斯於1992年完成了他的A-levels課程，比計劃提前了兩年。他找到了Bullfrog Productions的電子遊戲編程工作。哈薩比斯開發了主題公園，玩家可以在其中設計並運營虛擬遊樂園，這取得了很大成功，銷售了1500萬份，之後還衍化出了新的模擬遊戲類型，其目標不是擊敗對手，而是優化複雜系統的功能，如企業或城市。

除了開發遊戲外，他還很擅長玩遊戲。作爲一個青少年，他會在棋盤遊戲比賽中跑到兩個樓層之間，同時參加國際象棋、拼字遊戲、撲克和步步高比賽。 1995年，在劍橋大學學習計算機科學時，哈薩比斯經常出入學生圍棋錦標賽。圍棋是一種古老的戰略棋盤遊戲，比國際象棋複雜得多，這需要長期經驗獲得直覺。沒有人知道哈薩比斯以前是否曾經參加過比賽。

首先，哈薩比斯贏得了初學者的比賽。然後他擊敗了經驗豐富的參賽者。參加錦標賽的劍橋圍棋大師查爾斯·馬修斯記得，一位專家級球員被一名19歲的新手打敗後感到非常震驚。劍橋圍棋大師馬修斯隨後將哈薩比斯收於麾下。

哈薩比斯總是通過一次次的比賽來展現其智慧和野心。慢慢地，遊戲引發了他對智力的迷戀。當他觀察自己在國際象棋中的成長時，他想知道計算機是否可以通過積累的經驗編程來學習。遊戲提供了一個現實世界無法比擬的學習環境。遊戲是從現實世界中汲取的，它們可以在沒有干擾的情況下實踐並且有效地掌握。遊戲加快了時間進度：玩家在幾天內組建團隊，並在幾分鐘內進行戰鬥。

1997年夏天，哈薩比斯前往日本。那年5月，IBM的深藍計算機擊敗了世界象棋冠軍加里卡斯帕羅夫。這是計算機第一次在國際象棋中擊敗了一位大師。這場比賽引起了全世界的關注，並引發了對計算機力量和潛在威脅的擔憂。當哈薩比斯遇到日本棋盤遊戲大師Masahiko Fujuwarea時，他談到了一個將他在戰略遊戲和人工智能方面的興趣結合起來的計劃：有朝一日，他會建立一個計算機程序來擊敗最偉大的人類圍棋玩家。

哈薩比斯有條不紊地去完成自己的事業。 “20歲時，哈薩比斯認爲，在進入人工智能領域之前，他還需要做一些事情。”馬修斯說。 “他有一個計劃。”

1998年，他創辦了一個名爲Elixir的遊戲工作室。哈薩比斯專注於開發一個雄心勃勃的遊戲—《共和國革命》。它是一個錯綜複雜的政治模擬遊戲。多年前，當他還在學校時，哈薩比斯告訴他的朋友穆斯塔法·蘇萊曼，世界需要一個模擬複雜的動態並解決最棘手的社會問題的遊戲。現在，他嘗試在遊戲中這樣做了。

事實證明，由於代碼開發的問題他並未達到預期目標。Elixir最終發佈了這款遊戲的精簡版，反響平平。其他類似遊戲也紛紛失敗（其中一個是名爲Evil Genius的模擬遊戲）。2005年4月，哈薩比斯關閉了Elixir。馬修斯認爲，哈薩比斯創立公司只是爲了獲得管理經驗。現在，在開始進軍AGI之前，哈薩比斯只缺乏一個至關重要領域的知識，他需要了解人類的大腦。

2005年，哈薩比斯在倫敦大學學院（UCL）獲得神經科學博士學位。他發表了一篇很有影響力的有關記憶和想象力的研究報告。這篇被引用超過1000次的論文顯示，健忘症患者在想象新事物方面也存在困難，這表明記憶和創造心理圖像之間存在聯繫。哈薩比斯試圖去理解大腦的活動。他的大部分工作迴歸到了一個問題：人類大腦如何獲得並保留概念和知識？

DeepMind的理想主義

哈薩比斯於2010年11月15日正式成立了DeepMind。該公司的使命宣言與現在一樣：“Slove Intelligence”，然後用Intelligence來解決其他所有問題。正如哈薩比斯告訴Singularity Summit的與會者所說的那樣，這意味着將我們對大腦如何完成任務的原理翻譯給軟件，讓軟件用相同的辦法進行自學。

哈薩比斯並沒有假裝科學已經完全理解了人類的思想。AGI的藍圖不能簡單地從數百項神經科學研究中得出。但他很明白以他想要的方式開始研究AGI已經足夠了。也有可能他過於自信了。我們對大腦的實際運作方式仍然知之甚少。2018年，一羣澳大利亞研究人員質疑哈薩比斯博士的研究結果。統計數據很糟糕，雖然只是一篇論文，但它表明保障DeepMind工作的科學問題遠未解決。

Suleyman和Shane Legg是兩個癡迷AGI的新西蘭人，哈薩比斯也在倫敦大學學院認識了他們，他們成了聯合創始人。該公司的聲譽迅速增長。哈薩比斯很有天賦。 “他有點像磁鐵，”DeepMind前運營經理Ben Faulkner說。公司許多新人來自歐洲，他們沒有選擇谷歌和Facebook這樣的硅谷巨頭。也許DeepMind最大的成就是儘早聘請並保留了最聰明和最優秀的人才。該公司在布魯姆斯伯裏羅素廣場（Russell Square）的一個排屋的閣樓裏開設了商店，這個房子位於倫敦大學學院（UCL）的馬路對面。

該公司所關注的一種機器學習技術：強化學習，源於哈薩比斯對遊戲和神經科學的雙重迷戀。這樣的程序是爲了收集有關環境的信息而建立的，然後通過反覆重放其經歷來學習它，就像哈薩比斯在奇點峯會講座中所描述的睡覺時人類大腦的活動一樣。

強化學習領域剛開始一片空白。該程序展示了一個只知道規則的虛擬環境，與國際象棋或視頻遊戲的模擬一樣，包含至少一個神經網絡組件，它由多層計算結構組成，這些計算結構可以篩選信息以識別特定的特徵或策略。

每個層都以不同的抽象級別檢查環境。起初，這些網絡的成功率很低，但重要的是，這些失敗會紀錄在編碼裏。當他們在嘗試不同的策略時會變得越來越複雜，但如果最終成功就會獲得獎勵。如果程序移動棋子並因此輸掉遊戲，它之後則不會再犯這個錯誤。人工智能的大部分魔力在於它重複任務的速度。

DeepMind的成名之路

DeepMind的工作在2016年迎來了一個高潮，他們的一個團隊建立了一個AI程序，該程序運用了強化學習和其他一些技術來玩圍棋。2016年，這項名爲AlphaGo的程序在首爾一場五局三勝制比賽中擊敗了世界冠軍，引起了極大的轟動。這場勝利被2.8億人收看到，比專家預測的要早十年。第二年，AlphaGo的改進版本擊敗了中國圍棋冠軍。

像1997年的Deep Blue一樣，AlphaGo改變了人們對於人類所取的成就的看法。人類冠軍，地球上一些最聰明的人，不再站在智慧的頂峯。在將自己的野心告知了Fujuwarea近20年後，哈薩比斯實現了這一目標。哈薩比斯說，這場比賽讓他差點流淚。傳統上，學圍棋的學生在一場比賽中擊敗他們的老師作爲回報。而哈薩比斯通過擊敗這項比賽來感謝馬修斯。

DeepBlue通過蠻力和高速的運算贏得了勝利，但AlphaGo的風格看起來更有藝術性和人性化。DeepMind的優雅、精緻以及日益增長的計算力，似乎表明在尋求可以治療疾病和管理城市方面比競爭對手更進一步。

一直以來，哈薩比斯認爲，DeepMind將會讓世界變得更好，但AGI沒有確定性。如果它發展下去，我們不知道它是無私的還是惡毒的，或者它是否會受到人類的控制。即便它能被控制，那又有誰來掌控呢？

從一開始，哈薩比斯就一直在努力保護DeepMind的獨立性。他一直堅持想把DeepMind留在倫敦。當谷歌在2014年收購該公司時，控制權問題變得更加緊迫。哈薩比斯不需要向Google出售DeepMind。他手頭上有大量現金，並勾勒出了一個商業模式，公司將設計遊戲來資助研究。

谷歌的財力很有吸引力，然而，和許多創始人一樣，哈薩比斯不願交出他所培育的公司。作爲交易的一部分，DeepMind制定了一項計劃，阻止谷歌單方面控制公司的知識產權。

據知情人士透露，在收購前一年，雙方簽署了一份名爲“道德與安全審查協議”的合同。沒被報道過的這項協議是由倫敦的高級大律師制定的。

審覈協議將DeepMind的核心AGI技術（無論是什麼時候創建的）控制在一個稱爲道德委員會的理事會手中。道德委員會不僅僅是谷歌表面上的讓步，它還爲DeepMind提供了堅實的法律支持，以控制其最有價值和最危險的技術。小組成員的名字尚未公開，但另一個與DeepMind和Google關係密切的消息人士表示，三位DeepMind的創始人都在名單上。（DeepMind拒絕回答有關審覈協議的一系列詳細問題，但表示“道德監督和治理從一開始就是我們的首要任務。”）

哈薩比斯也可以通過其他方式來決定DeepMind的命運，其中一個是忠誠。過去和現在的員工都表示，哈薩比斯的研究議程是DeepMind最大的優勢之一。他的項目給大家提供了令人着迷和重要的工作而且沒有學術壓力，以此吸引了數百名世界上最有才華的專家。

DeepMind在巴黎、阿爾伯塔和阿姆斯特丹設有分公司。許多員工感覺哈薩比斯及其使命比只追求利潤的母公司更有吸引力。只要能保持員工的個人忠誠度，哈薩比斯作爲唯一股東就有相當大的權力。對於谷歌來說，通過代理讓DeepMind AI人才爲其工作，總比這些人去Facebook或Apple工作要好。

DeepMind還有另一個需要持續不斷進行的任務：擴大公衆影響力。該公司擅長這一點。AlphaGo就是一場很棒的公關。自谷歌收購以來，該公司不停的做出引起全球關注的事情。一個軟件可以在眼睛掃描中發現作爲黃斑變性指標的圖像。另一個程序學會了使用與AlphaGo相似的架構，從頭開始學下棋，通過和自己下棋，僅用了9個小時就成爲有史以來最偉大的國際象棋選手。

2018年12月，一項名爲AlphaFold的計劃比其他競爭對手更準確地預測了複合材料清單中蛋白質的三維結構，可能爲治療帕金森氏症和阿爾茨海默氏症等疾病鋪平了道路。

DeepMind對其開發的算法感到特別自豪，該算法可以計算出最有效的方法來給谷歌的數據交換中心製冷，該中心包含大約250萬臺計算機服務器。DeepMind在2016年表示，他們將谷歌的能源費用減少了40％。但一些內部人士表示，這種吹噓行爲過於誇張。

早在DeepMind存在之前，Google一直在使用算法來優化其數據中心。 “他們只是想要一些公關，這樣他們就可以在Alphabet心中增加一些價值，”一名谷歌員工表示。Google的母公司Alphabet給DeepMind支付相當可觀的費用。

2017年，DeepMind從Alphabet公司拿走了5400萬英鎊。與DeepMind的日常開支相比，這個數字相形見絀。那一年，僅在員工身上，它就花費了2億英鎊。總得來說，2017年DeepMind損失了2.82億英鎊。

這對現金充裕的巨人來說微不足道，但這引起了Alphabet子公司首席財務官Ruth Porat的注意。互聯網服務提供商的谷歌光纖（Google Fibre）在明確表示需要數十年時間才能獲得投資回報後，就陷入了困境。人工智能研究人員私下也嘀咕，DeepMind是否會成爲“Porated”。

DeepMind謹慎發佈人工智能的進展是其管理戰略的一部分，標誌着其嚴控權力的聲譽價值。在谷歌被指控侵犯用戶隱私和傳播假新聞時，這一點特別有價值。

DeepMind也很幸運能夠獲得最高級別的認可：Larry Page，Google的兩位創始人之一，現在是Alphabet的首席執行官。Page和哈薩比斯唯一的交集可能是， Page的父親Carl在20世紀60年代研究過神經網絡。在他的職業生涯早期，Page表示他建立谷歌他只是爲了建立一家人工智能公司。

DeepMind對發刊管理的嚴格控制並不符合公司普遍存在的學術精神。一些研究人員抱怨說，發表他們的作品很困難：他們必須先進行內部審批，然後才能將工作提交給會議和期刊。DeepMind認爲，它需要謹慎行事，以避免嚇跑公衆，破壞AGI的前景。但過於緊張可能會開始惡化學術氛圍並削弱員工的忠誠度。

在被Google收購五年之後，DeepMind的控制權問題被擺到了檯面上。該公司的創始人和早期員工即將獲利，而此時他們可以離開並拿到通過收購獲得的經濟補償（哈薩比斯的股票價值約爲1億英鎊）。但一位與該公司關係密切的消息人士表示，Alphabet已將創始人的收益推遲了兩年。

哈薩比斯對此並不關注，所以不太可能跳槽。他金錢感興趣，只是因爲金錢能助他實現自己的人生，但有些同事卻已經離開了。自2019年初以來，已有三名工程師離開，其中世界最著名的安全工程師之一Ben Laurie現已重返其前任僱主谷歌。DeepMind提供了這樣一個令人振奮的使命並且給員工的薪酬非常豐厚，按理來說任何人都不該離開。

DeepMind的獨立性將維持多久？

到目前爲止，谷歌並沒有過多幹涉DeepMind。但最近的一次事件引發了人們對該公司的擔憂：它還能維持多久的獨立性？

DeepMind一直計劃使用AI來改善醫療保健。 2016年2月，它成立了一個新部門：DeepMind Health。該部門由公司的聯合創始人之一Mustafa Suleyman領導，而Suleyman的母親是NHS護士。他希望創建一個名爲Streams的程序，當患者的健康狀況惡化時，該程序會通報給醫生。 DeepMind將獲得基於績效的費用。由於這項工作需要訪問有關患者的敏感信息，Suleyman建立了一個獨立審查小組（IRP），其中包括優秀的英國醫療保健和技術人員。

DeepMind在護理上很智能。英國信息專員隨後發現其中一家合作醫院違反了關於處理患者數據的相關法律。儘管如此，到2017年底，Suleyman已經與四家大型NHS醫院簽署了協議。

2018年11月8日，谷歌宣佈創建了自己的醫療保健部門Google Health；五天後，又公佈了將DeepMind Health納入其母公司的計劃。而DeepMind在此之前似乎沒給相關醫療機構提供任何預警。根據“信息自由”請求處理的原則，它僅提前三天向合作醫院提供了關於此次變更的通知。

DeepMind拒絕透露有關合並討論的開始時間，但它表示通知與公告之間的短暫時間差符合規定。

Suleyman在2016年寫道：“在任何情況下，患者數據都不會與谷歌的賬戶，產品或服務相關聯。”不過他的承諾似乎已被打破。（針對1843年的問題，DeepMind說:“在這個階段，我們的合同依然沒有被移至谷歌；而只有得到我們這邊的合作伙伴的同意，他們只能這樣做。Streams成爲谷歌服務並不意味着患者數據......可被提供給其他Google產品或服務。”）

谷歌的吞併已激怒了DeepMind Health的員工。據知情人員說，一旦吞併完成，會有更多員工計劃離開公司。 IRP的一名成員Mike Bracken已經離開了Suleyman。另外，據多位知情人士透露，Bracken於2017年12月已經辭職，因爲擔心該獨立審覈小組更多的只是爲了裝飾門面而非真正爲了應對隱私方面的漏洞。

當Bracken問Suleyman是否會給小組成員賦予非執行董事的問責制和治理權時，Suleyman只是輕蔑一笑。（DeepMind的發言人表示，他們對這一事件“沒有印象”。）IRP負責人Julian Huppert認爲，該小組提出的“更激進的治理”比Bracken預期的要好，因爲成員能夠公開發言而不受保密義務的約束。

這一插曲表明DeepMind操作的外圍運營易受谷歌影響。 DeepMind在一份聲明中表示，“我們都同意，通過增加資源，同心協力將這些努力結合在一起是有意義的。”這就引出了一個問題，即Google是否會將相同的邏輯應用於DeepMind的AGI工作上。

長遠來看，DeepMind已經取得了很大的進步。它已經構建了可以學習超人級別執行任務的軟件。哈薩比斯經常引用Breakout（Atari遊戲機的視頻遊戲）。一個Breakout玩家控制一個球拍，她可以在屏幕底部水平移動該球拍，用它將一個球反彈到懸停在它上面的擋塊，在撞擊時摧毀它們。當所有擋塊都被刪除時，玩家獲勝。如果她用球拍錯過了球，她就輸了。在沒有人工指導的情況下，DeepMind的程序不僅學會了玩遊戲，而且還研究瞭如何將球加入到擋塊後面的空間中，利用籃板來打破更多的擋塊。哈薩比斯說，這證明了強化學習的力量和DeepMind計算機程序的超能力。

這是一個令人印象深刻的演示。但哈薩比斯漏掉了一些東西。如果虛擬球拍移動得再高一點，程序就將失敗。 DeepMind的程序學習的技能如此有限，以至於它甚至無法對環境中的微小變化做出反應，至少在沒有數千輪強化學習的情況下是這樣的。但是這個程序本身已經內置了這樣的訓練。對智能診斷來說，沒有兩個身體器官是完全相同的。對智能機械來說，沒有任何兩個引擎可以以相同的方式進行調整。因此，把在虛擬空間中完善的程序移植到外部現實世界的過程充滿了困難。

DeepMind很少談到的第二個警告是，虛擬環境中的成功取決於獎勵功能的存在：允許軟件確認其進度的信號。程序知道從後牆上反彈能讓它的得分上升。 DeepMind與AlphaGo合作的大部分工作在於構建一個能和這種複雜遊戲相兼容的獎勵功能。不幸的是，現實世界並不提供簡單的獎勵。進展很少能純靠分數來衡量。在存在此類措施的情況下，政治上的挑戰會使問題複雜化。協調環境衛生的獎勵信號（大氣中每百萬的二氧化碳顆粒數），或是協調石油公司的獎勵信號（股價），都需要同時滿足許多動機相互衝突的人。獎勵信號往往非常微弱。人類大腦很少會在完成任務的過程中收到關於任務成功的明確反饋。

DeepMind與強化學習

DeepMind在消耗了大量計算機算力後，已經找到了解決這個問題的方法。 AlphaGo需要數千年的人類遊戲時間來學習任何東西，許多AI思想家懷疑，對於報酬較低的任務，這種解決方案是不可持續的。

DeepMind承認存在這樣的含糊之處。它最近專注於星際爭霸2，一款電腦策略類遊戲。在遊戲早期所做的決定會在之後產生影響，這更接近於現實世界中許多任務所特有的那種複雜且延遲的反饋。今年1月，DeepMind軟件在一次演示中擊敗了一些全球頂尖的人類玩家，儘管演示受到了嚴格限制，但仍然令人印象深刻。它的程序也開始通過遵循人工任務主管的反饋來學習獎勵功能，但將人工指令置於循環之中，可能會失去純計算機處理所能提供的規模和速度。

DeepMind和谷歌的現任和前任研究人員由於嚴格的保密協議被要求匿名，他們也對DeepMind能否通過這種方法達到AGI表示懷疑。對於這些人來說，專注於在模擬環境中獲得高性能使得獎勵信號問題難以解決。然而，這種方法是DeepMind的核心，它有一個內部排行榜，在這個排行榜上，來自相互競爭的程序員團隊的程序在爭奪虛擬領域的控制權。

哈薩比斯一直將生活視爲一種遊戲。他職業生涯的很大一部分時間都致力於製作這些遊戲，而大部分休閒時間則花在玩遊戲上。DeepMind是他選擇用來開發AGI的工具，就像他的軟件一樣，哈薩比斯只能從自己的經驗中學習。

對AGI的追求可能最終會迷失方向，因爲它已經發明瞭一些有用的技術，並超越了世界上最偉大的棋盤遊戲玩家。這些確實都是重大的成就，但並非他所渴望的。他仍然可以將AGI引入現實應用，就在谷歌眼皮子底下卻不在其掌控內。如果他這樣做，哈薩比斯將贏得的是最艱難的比賽。

原文鏈接：

https://www.1843magazine.com/features/deepmind-and-google-the-battle-to-control-artificial-intelligence