台湾 || 语言: 大陆简体港澳繁體台灣正體

強化學習之父入局 AGI 創業！聯手傳奇程序員卡馬克，放話不依賴大模型

IT之家 2023-10-08 15:28

傳奇程序員卡馬克（John Carmack），與強化學習之父薩頓（Richard Sutton）強強聯手了，All in AGI。

並且與主流方法不同，不依賴大模型範式，更追求實時的在線學習。

兩人在薩頓任教的阿爾伯塔大學機器智能研究所（Amii）特別活動上宣佈了這一消息。

薩頓會加入卡馬克的 AI 創業公司 Keen Technologies，同時保持在阿爾伯塔的教職。

兩人在活動中都承認，與擁有成百上千員工的大公司相比，Keen Technologies 的團隊規模很小。

目前還在剛起步階段，公司整個技術團隊都到了現場 —— 只有站着的這 4 個人。

其融資規模 2000 萬美元，與 OpenAI、Anthropic 這樣動輒幾十億的也沒法比。

但他們相信，最終 AGI 的源代碼是一個人就能編寫的量級，可能只有幾萬行。

而且當前 AI 領域正處在槓桿效應最大的特殊時刻，小團隊也有機會做出大貢獻。

卡馬克的傳奇經歷，從開發世界第一款 3D 遊戲，到轉型造火箭，再到加入 Oculus 成爲後來 Meta VR 關鍵人物的故事都已被人熟知。

後來他與 AI 結緣，還和 OpenAI 有關。

他曾在另一場訪談中透露，Sam Altman 曾邀他加入 OpenAI，認爲他能在系統優化方面發揮重要作用。

但卡馬克當時認爲自己對機器學習範式的現代 AI 沒有任何瞭解，也就沒有答應。

這卻成了他開始瞭解 AI 的一個契機。

他向 OpenAI 的首席科學家 Ilya Sutskever 要了一個入門必讀清單，從頭開始自學，先對傳統機器學習算法有了基本的瞭解。

等有了空閒，打算繼續涉足深度學習的時候，他來了個一週編程挑戰：

打印幾篇 LeCun 的經典論文，在斷網情況下動手實踐，從推反向傳播公式開始。

一週過去後，他帶着用 C++ 手搓的卷積神經網絡結束閉關，沒有藉助 Python 上的現代深度學習框架。

只能說佩服大神了。

此時他的主業還是在 Facebook（後改名 Meta）旗下 Oculus 研究 VR，帶領團隊推出了 Ouclus Go 和 Quest 等產品。

不過這個過程中，他與公司管理層之間也逐漸產生矛盾和分歧，認爲公司內部效率低下，也曾公開發表不滿。

2019 年，他辭去 Oculus CTO 職位轉而擔任“顧問 CTO”，開始把更多精力轉向 AI。

2022 年 8 月，他宣佈新 AI 創業公司 Keen Technologies 宣佈融資 2000 萬美元，投資者包括紅杉資本，GitHub 前 CEO Nat Friedman 等。

後續他也透露，其實區區 2000 萬美元，自己就拿得出手。

但是從別人那裏拿錢能給他一種危機和緊迫感，有更強烈的決心把事情做好。

2022 年底，他正式離開 Meta，並將 VR 視爲已經過去的一個人生階段，接下來完全轉向 AI。

除了這條明面上的主線之外，卡馬克與 AI 還有一些莫名的緣分。

當年他的 3D 遊戲激發了對圖形計算的需求，GPU 也是從遊戲領域開始發展壯大。

到如今正是 GPU 的算力支持了 AI 的爆發，他談到這些時仍爲自己的貢獻感到自豪。

……

今天的另一位主角薩頓也同樣是位傳奇人物。

他被譽爲強化學習之父，爲強化時間差異學習和策略梯度等方法做出重要貢獻，也是強化學習標準教科書的合著者。

2017 年他以傑出科學家身份加入 DeepMind，參與了 AlphaGo 系列研究，他的學生 David Silver 則是 AlphaGo 主要負責人之一。

薩頓寫過一篇著名短文 The Bitter Lesson，認爲試圖把人類經驗教給 AI 是行不通的，至今爲止所有突破都是依靠算力提升，繼續利用算力的規模效應纔是正確道路。

兩人正式交流之前，卡馬克就曾表達過對這篇文章的關注和認同。

但兩人真正直接交流，是薩頓主動聯繫的。

幾個月前，卡馬克宣佈 AGI 創業公司融資之後，收到了薩頓的郵件。

薩頓想要問他他在研究的道路上應該走純學術、商業化還是非盈利組織路線的問題。

但在後續郵件交流中，兩人發現在 AI 研究方向和理念上存在驚人的一致性，漸漸確立了合作關係。

具體來說，兩人達成了 4 個共識：

很大膽的目標，現場觀衆也是這麼認爲的。

面對“小團隊如何搞定這麼宏大的目標”的提問，卡馬克認爲實現 AGI 所需的數據量和算力需求可能沒有想象中那麼大。

對於算力需求，他也是用這種直覺式的思維去考慮：人腦的計算能力也有限，遠遠達不到一個大型算力集羣的程度。

而且隨着時間推移，算法會更加高效，所需的算力還會持續下降。

如果說卡馬克在 3D 遊戲、火箭和 VR，這些看似不搭邊的工作領域上有什麼共同點，那就是對大型實時反饋系統的優化。

這也是當初 Sam Altman 邀請他加入 OpenAI 時看中的地方。

他設想中的 AGI 架構應該是模塊化和分佈式的，而不是一個巨大的集中模型。

學習也應該是持續的在線學習，而不是現在的預訓練之後大部分參數就不再更新。

他進一步表示，作爲能自己寫原始 Cuda 代碼和能自己管理網絡通信的底層系統程序員，可能會去做一些其他人根本不會考慮的工作。

甚至不僅侷限於現有的深度學習框架，會嘗試更高效的網絡架構和計算方法。

總體目標是模擬一個具有內在動機和持續學習能力的虛擬智能體，在虛擬環境中持續學習。

不要機器人，因爲製造火箭的經歷讓他認爲打交道的物理對象越少越好。

與卡馬克剛涉足 AGI 不久相比，薩頓在這個問題上已經花費了幾十年，他有更具體的研究計劃。

雖然這次活動上沒有說太多，但主體部分已經以“阿爾伯塔計劃”的形式寫在一篇 arXiv 論文裏。

阿爾伯塔計劃提出了一個統一的智能體框架，強調普遍經驗而不是特殊的訓練集，關注時間一致性，優先考慮能隨算力產生規模效應的方法，以及多智能體交互。

還提出了一個分爲 12 步的路線圖。

前 6 步專注於設計 model-free 的持續學習方法，後 6 步引入環境模型和規劃。

其中最後一步稱爲智能增強（Intelligence Amplification），一個智能體可以根據一些通用原則，利用它所學到的知識來放大和增強另一個智能體的行動、感知和認知。

薩頓認爲這種增強是充分發揮人工智能潛力的重要組成部分。

在這個過程中，確定評估 AI 進步的指標非常重要但也十分困難，團隊正在探索不同的發展。

另外，卡馬克一直是開源的倡導者，但在 AGI 的問題上他表示會保持一定開放性，但不會全部公開算法細節。

作爲一個小團隊，卡馬克認爲需要保持開拓精神，關注長遠發展而不是短期利益，

不會過早考慮商業化，沒有像 ChatGPT 這樣可以公開發布的中間形態。

對於 2030 年能做到什麼地步，卡馬克認爲“有可以向公衆展示的 AGI”，薩頓的表述是“AI 原型可以顯示出生命跡象（signs of life）”。

2030 與 AGI，並不是第一次同時出現。

頂尖 AI 團隊不約而同都把 2030 年前後作爲實現 AGI 的關鍵節點。

比如 OpenAI，在拿出 20% 總算力成立超級智能對齊部門的公告裏寫着，我們相信超級智能在這個十年段到來。

甚至投資界也出現類似的觀點，孫正義剛剛在軟銀世界企業大會上也拿出來這樣一張 PPT。

除了 OpenAI 和 Keen Technologies，致力於開發 AGI 的組織並不多。

OpenAI 最大的競爭對手，剛剛拿 40 億美元融資的 Anthropic，其 CEO Dario Amodei 在最近一次訪談中提到，兩三年內 AI 能表現得像一個受過良好教育的人類。

Transformer 作者 Vaswani 與 Palmer 離開谷歌時，創辦了 AdeptAI，目標也是打造通用智能。

不過目前兩人今年初突然離開這家公司，聯合創始人中只留下一位 David Luan（最右）。

兩位 Transformer 作者另外創辦了一家 Essential AI，這家公司的願景就沒那麼“仰望星空”了，是比較務實的大模型商業化。

國內方面明確喊出 AGI 目標的同樣也不多，主要有 MiniMax 和楊植麟新創辦的月之暗面。

參考鏈接：

廣告聲明：文內含有的對外跳轉鏈接（包括不限於超鏈接、二維碼、口令等形式），用於傳遞更多信息，節省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

相關文章