微軟祕密研究：Open AI內部版GPT-4，或能對人類生存造成威脅

GPT是否能帶領我們通向 AGI (通用人工智能）？如何評估和理解AI的能力？大模型範式下，我們如何定義智能？這些問題，至今沒有標準的答案。大模型加上HuggingGPT、AutoGPT 一系列generative agents（生成式代理）之後，給各個行業甚至整個社會帶來什麼改變？

本期騰訊科技聯合播客《OnBoard!》，邀請到硅谷徐老師、微軟亞洲研究院高級研究員譚旭和張弋、AI公司研發總監紅博士，對以上問題進行探討。核心觀點：

1、Open AI內部GPT-4模型比現在面向大衆公開的模型強大得多。Open AI爲了將模型應用到產品並公之於衆，給模型加進了許多關於安全性的微調，避免做出對人類有害的行爲。然而，這些微調確實也讓GPT-4在推理能力和其它各方面的指標下降了不少。
2、GPT-4已經展現出了許多通用人工智能（AGI）的特徵。雖然它可能還不完美，但它似乎在告訴我們，我們正在沿着正確的方向前進，終點已經可見。
3、當模型輸出一個人類認爲不夠完美的答案時，我們的反饋只是一個簡單的獎勵或懲罰，實際上並不夠精確。我們只是對模型進行了懲罰，但並沒有告訴它具體哪裏出錯了，這也是研究團隊最重要的任務之一，就是從基礎模型出發來解決幻覺問題。
4、當前的模型存在許多錯誤，而這些錯誤大多是因爲它思考得太快了，它在看到用戶打的第一句話甚至第一個詞，就開始吐出答案，並沒有經過完整的推理過程。如果我們強制讓模型慢下來，它會好很多。但除非我們能夠大規模修改數據結構，目前尚不知道如何做到這一點。
5、在接下來的一兩年內，全球最大的2000家公司可能會真正開始應用GPT技術和大型模型。但無論是微調還是其它方法，都需要完整打通公司數據，以實現數據驅動和執行，這是一項困難的任務。此外，合規性和法律等問題需要解決。
6、對於大多數公司而言，特別是傳統公司來說，將GPT技術應用到業務層面是一個相對複雜和漫長的過程，需要重新構建人工智能的業務流程，這就既需要理解人工智能，又需要理解業務流程。
7、我們可以將人類智能進行拆解，首先是大腦，語言是區別於其他動物的關鍵能力之一，現在的語言模型在模擬大腦特別是語言方面的能力做得非常出色。接下來，我們需要整合視覺、聽覺、嗅覺、口腔、手和腳以及與世界的互動。沿着這個方向發展，一定會豐富對AGI能力的體現。

嘉賓介紹：

●張弋，微軟亞洲研究院高級研究員，主要研究方向爲通用人工智能的物理、數學

●硅谷徐老師，硅谷連續創業者、人工智能高管、斯坦福商學院客座講師

●譚旭，微軟亞洲研究院高級研究員，主要研究方向爲生成式人工智能及其在語言/語音/音樂生成中的應用

●紅博士，AI公司研發總監，研究方向：計算機視覺、數據壓縮、通用人工智能。

●主持人：Monica，美元VC投資人，前 AWS 硅谷團隊+AI創業公司打工人，M小姐研習錄 (ID: MissMStudy) 主理人

第一視角解讀微軟刷屏論文：Sparks of Artificial General Intelligence: Early experiments with GPT-4

Monica：AGI通用人工智能是近期關注度特別高的話題，關於這個話題，最近在業界有一篇非常有影響力的論文，張弋所在的微軟研究院發表了一篇150多頁的論文《Sparks of Artificial General Intelligence: Early experiments with GPT-4》（中文：《通用人工智能的火花》），對 GPT-4的能力做了非常深入的研究，張弋可以給我們簡單介紹一下研究背景是怎樣的？

張弋：我給大家介紹一下論文研究的背景，從去年的八九月份開始，微軟和OpenAI開展關於GPT-4相關合作，當時微軟內部大約有100到200人蔘與了這個祕密項目。我們首先拿到了內部GPT-4模型，內部版本的模型比現在面向大衆公開的模型強大得多。我們的論文是基於那個內部模型進行研究的。我也不太清楚什麼時候能對外公開內部版本的模型，但這確實是非常值得期待的事情。

至於爲什麼內部模型會比外部模型強那麼多？我們也不知道全部細節，我們只能猜測，Open AI可能爲了將這個模型應用到產品並公之於衆，於是給模型加進了許多關於安全性的微調(Fine-tuning)，讓它變得更平易近人。

我認爲這些微調是必要的，它的目的是使模型變得更友好、避免做出對人類有害的行爲。然而，從科學的角度來看，這些微調確實也讓GPT-4在推理能力和其它各方面的指標下降了不少。將來，一個重要的研究方向是如何更好地align這個model，即在不損失模型其它能力的情況下改進模型的表現。

Monica ：加了這些安全性的微調，模型的推理能力反而下降了，怎麼理解這個現象？

張弋：實際上這也並不矛盾。對模型安全性的考量與它的推理能力本身的關聯性可能並不大，對於大模型來說，當我們增強它的一個能力的時候，其它能力就會變弱，特別是不太相關的能力。你加強其中一個能力，另一個能力往往會受到影響。這也是學術界目前非常關注的問題之一，即如何微調模型，以達到既提升某個方面的性能，又不降低其它能力。但目前還沒有找到很好的解決方法。

回到ChatGPT本身，我們團隊的大部分成員都是數學家，大家之前可能也研究過GPT-3，當時我們並沒有對這個模型特別着迷，相比之下，我們覺得GPT-4看起來更加先進。但我們不確定它是否真正代表了智能。

雖然它可以完成很多任務，但它有可能只是在網上看到了如何完成這些任務的方式，然後記住了。所以當我們問它一些問題時，它可能只是背誦出答案。所以，我們也開始思考這個東西到底是否具備智能，它是否是一個更好的模型。

我們想出了一些任務，主要是通過一些簡單的數學題來對模型做測試。一開始，我們存了一些非常“刁鑽”的問題，一般是那些GPT-3肯定無法回答的問題，然後我們基本全部讓GPT-4嘗試回答一遍。

令人震驚的是，GPT-4幾乎完美地解決了我們之前認爲人工智能無法解決的問題。

實際上，這些問題並不難，比如一些高中水平的組合數學題。例如，你有一個紅色的石頭，兩個藍色的石頭和三個綠色的石頭，那麼你可以有多少種組合方式等等。但是對於GPT-3來說，它無法理解，比如這兩個藍色的石頭，當你拿出來時，實際上它們是同一個石頭。它們都是藍色的，都是石頭，讓GPT理解這個事情就很困難。但是GPT-4具備常識和常識推理能力，我們幾乎不需要對Prompt做太多調整，GPT-4似乎直接就能正確地回答這個問題。

類似的例子還有很多，我們內部對此也有不同看法。有些人認爲這可能是GPT在網上遇到過類似問題，而另一些人則認爲網上肯定沒有這樣的問題。後來我們開始越來越多地思考在網上不太可能存在、但可以被解決的奇怪問題，只要模型的推理能力足夠強。

後來我們發現這個模型基本上解決了所有問題，最後大家一致同意這個東西確實很厲害，可以說它具備智能。那它到底是否是通用人工智能（AGI）呢？

這個問題值得商榷，因爲現在學術界對於 AGI 這個詞有些敏感，一般不太能提。但是如果我們從字面上來理解，AGI（Artificial general intelligence）確實是人工智能，而且是非常強大的。我們拿到的GPT-4版本只是一個文字版，後來OpenAI在他們的報告中提到，他們的GPT-4可以處理圖像輸入，但我們所使用的只是純文字版。然而，我們發現純文字版的GPT-4竟然能夠“看見”，也就是說，如果你讓它畫一個東西，它並不一定畫得很完美，但它可以畫出來。

特別是如果要求它在某些地方加上細節，比如一個著名的例子是，讓它畫一隻Unicorn（獨角獸），小朋友很喜歡。它實際上畫出來了，這讓我們非常震驚。

GPT-4從來沒有親眼見過獨角獸，它可能讀到過獨角獸的描述，可能讀到過類似的學術代碼，然後它就可以嘗試着畫出來。但我們還不滿意，所以我們稍作修改，去掉了畫頭和畫角的代碼部分，然後讓它把頭上的角重新加回去，這是爲了測試這個模型是否真正理解它正在畫什麼，是否真正理解獨角獸應該有一隻角，而且這隻角應該長在頭上，否則它只是一條蟒蛇。

結果發現，GPT-4完全知道它在做什麼。它不僅僅畫出了這個東西，而且完全理解我每一行代碼、每一個畫的部分代表着什麼。

Monica：Open AI在GPT-4那篇論文中也提到讓GPT-4解讀圖片一類的測試，在你們獲得到的GPT版本上有測試過嗎？

張弋：有，但形式是不一樣的，但是你沒辦法把圖輸入給它，可以通過代碼生成圖像或使用字符來解讀圖像。對於一些像用字符畫描繪的藝術品，它也可以讀，雖然它的準確率可能不是很高，但至少能夠理解一些幾何關係和視覺概念。

這確實令人震驚，因爲它展示了對不同領域的理解和應用能力。這也符合AGI的定義，它是一種人工的通用智能，能夠處理圖片、文本、音樂，甚至能夠理解人類的情感和心理。它在許多方面都表現得非常出色。

AGI是否智能取決於我們對智能的定義。這個定義一直以來都很模糊，甚至在哲學家和研究人工智能領域的專家之中也一直存在爭議。但現在，我們有了一個實際可用的模型，每天都能與之互動，它展示出了高級推理能力，與人類非常相似。我們需要認真思考如何定義智能。

我們認爲這個模型已經展現出了許多AGI的特徵。雖然它可能還不完美，但它似乎在告訴我們，我們正在沿着正確的方向前進，終點已經可見。許多人，包括我自己兩年前看到GPT-3時的想法，可能認爲我們一輩子都無法見證AGI的到來，甚至在50年內也無法看到今天的GPT-4。但事實證明，兩年內就發生了很大的變化，而且這只是個開始，發展速度只會越來越快。

Monica：你在網上看到的關於這篇論文最常見的不一樣的觀點，或者說你覺得存在一些誤解的點在哪？

張弋：有些讀者可能沒有花太多時間仔細閱讀論文，所以他們可能會誤以爲我們所說的GPT-4是他們每天使用的那個版本。實際上，這兩個模型是非常不同的，它們在各種指標上也存在很大的差異。我自己負責評估模型的代碼編寫能力，我們當時的評估結果非常令人震驚。

在LeetCode的測試中，模型的表現遠遠超過了人類的平均水平。我認爲這個水平絕對可以輕鬆通過大型公司的各種面試，例如讓GPT寫代碼的電話面試段落。

然而，公開版本的GPT-4在代碼編寫能力方面下降了很多。許多推特博主們收集了一些數據並測試了模型，發現它可以正確地回答之前的問題，但對於新題目就無法處理了。這表明該模型只是過度擬合了原來的訓練集，而並不真正理解如何編寫代碼，當遇到新問題時就無法應對，無法舉一反三。

在我們測試模型時，我們都非常關注模型之前是否見過類似的數據。具體到代碼編寫評估，我們抓取了Niko上最近的100道題目，Deca發佈了一個每週競賽，每週發佈3~4道題目作爲本週的競賽題，然後將其添加到題庫中，所以每道題目都可以追溯到發佈到網上的日期。當時我們用互聯網上大部分的題目進行了測試，並使用Google搜索進行了一番努力，但以我們的能力，並沒有找到類似的解答。我們非常自信地使用了這個測試集，因爲它在互聯網上是不存在的。

更廣義地說，這也涉及到我們如何評價和測試模型的問題。以前的基準測試集都是在已有的數據集上進行測試，模型好不好只需要運行一次，並根據得分高低判斷。但是對於這個模型來說，它在訓練過程中接觸到的數據非常龐大，它已經涵蓋了整個互聯網上的所有數據。如果你再去尋找已經存在的數據集進行測試，基本上是不太可能真實反映其能力的。

所以這也是一個非常大的挑戰，很多人可能沒有意識到，相對於傳統的論文研究，他們只需要在現有的基準測試上運行一次並取得高分。但他們也沒有宣稱這個模型具有很強的泛化能力，因爲它很可能只是記住了答案。

我們在每個方向上都進行了手動設計的測試示例，儘量確保這些示例在我們已知的範圍內，而模型沒有在互聯網上找到。

譚旭：我也可以繼續談一下對於張弋的Sparks的一些感受，特別是它在視覺空間方面的理解能力，比如方位和形狀。令我震撼的是，即使在這個模型沒有接觸過任何視覺數據的情況下，它仍然能夠進行出色地推理。

我猜測的一個原因可能是，現在GPT的訓練數據已經不再侷限於我們之前所理解的純文本數據，而是包含了互聯網上以書面形式展示的各種數據形式。例如，代碼是其中非常基礎的一部分，而且模型可能在互聯網上見過大量以文本或代碼形式展示的圖像數據。

它對於空間位置和形狀的理解可能與文本可視化代碼以及其文本註釋之間存在一些關聯。這使得它能夠通過文字和代碼建立連接，因爲文字本身描述了空間形狀的幾何概念，所以它能夠直接通過文字指令生成相應的代碼來完成任務，並且可以與用戶進行交互。

舉個例子，如果你說形狀有問題，或者你想改變一個形狀，它可以通過代碼和形狀的關聯性生成正確的指令來修改相應的形狀。

此外，關於音樂生成，因爲我自己也從事AI音樂生成相關的工作，所以當我看到GPT-4的功能時，我感到非常震驚。當然，現在GPT-4的音樂生成能力肯定無法與我們專業音樂生成模型相比，無論是從質量、作曲技巧還是創造力和豐富性來看，都有差距。但它仍然讓我們喫驚，因爲GPT-4並沒有專門爲音樂生成而設計，它只是將互聯網上所有可見的數據進行訓練，然後它就能夠與文本進行交互式的音樂生成或改進。換句話說，現在的GPT是一個非常全面和通用的超級百科全書。

儘管它在專業領域可能不如各個專家模型，但它的潛力應該是非常大的。

Monica：實驗版本的GPT-4其實並沒有加入多模態的訓練數據，你們內部有沒有討論過爲什麼它與GPT-3、GPT3.5有這麼大的差異？

張弋：關於模型的具體細節和訓練方法，我們無法得知，只能進行猜測。

通過與OpenAI的人員交流，當然有些細節他們無法透露給我們，他們認爲使用強化學習來對齊模型是非常重要的，而不僅僅是爲了安全性，而且在推理方面也可以使用強化學習。

你可以人工給模型提供反饋，例如告訴它算法題做對了，代碼可以運行了，然後給予它獎勵，模型可以通過這種方式進行訓練。他們在這方面進行了許多嘗試，告訴我們這些嘗試直接導致了GPT-4和GPT-3.5之間的差距。

最直接的差距在於，雖然我們不知道GPT-4的參數具體有多少，但肯定比GPT-3.5要大很多個數量級。實際上GPT-3.5本身並不是很大，GPT-3.5好像是公開信息，它有少於100個億的參數。

GPT-3.5應該比GPT-3還要小，而GPT-4肯定比GPT-3要大至少1到2個數量級，甚至可能達到10個數量級。這只是我們的猜測，但僅限於猜測。

如何解決大模型的 Hallucination（幻覺）？

Monica：其實我還看到這個論文下面，大家也很經常會提到有一些 limitation就是一些限制，你們如何看待GPT-4的限制？

張弋：我們主要關注它的推理能力，但它明顯有一個不足之處是無法進行規劃。例如，當GPT-4開始執行一個任務時，它不知道如何開始。然而，作爲人類，我們可以先試錯，比如嘗試向前走幾步，如果行不通就退回來。但這個模型沒有橡皮擦可以擦除之前的步驟，一旦它把字寫下來，就存在於它的輸入中了。

我們通常會嘗試多種方法，大部分都不會成功，直到最後找到一個成功的方法。然後我們會寫一篇論文，但論文中只會說我知道這個方法成功了，而不會提到之前嘗試了100種方法，這100種方法都在哪裏失敗了。

這個模型很容易在面對數學問題時，先給你答案，而不給出任何步驟。然後它會假裝寫很多步驟，以證明這個答案是正確的。但事實上，如果它一開始就給出了答案，那麼這個答案几乎肯定是錯誤的，99%都是錯的。然後它會編造很多看似正確的步驟來證明這個答案是正確的。

很明顯，這個模型沒有像人類一樣一步一步地進行數學問題的解決。

硅谷徐老師：通過調用GPT API的方式是否可以實現試錯的過程呢？例如，當我調用API時，我可以給出不同的提示（Prompt），讓模型按照不同的途徑進行嘗試。這意味着試錯的過程不是直接放在調用GPT API內部完成，而是在外部進行處理，以確保最終能夠得到一個解決方案。你認爲這種方法可行嗎？

張弋：這個方法是可行的，這也是陶哲軒之前所說的。作爲一位頂級數學家，他表示他已經開始使用ChatGPT在他的日常數學研究中尋找靈感。

我也有一些親身經歷的例子。我們曾經嘗試測試GPT的數學能力，一開始我們想直接挑戰最困難的國際數學競賽（IMO）題目，但我們知道讓GPT來解題肯定會得到錯誤的答案。然而，我發現它給出的思路非常有幫助。在這種情況下，我自己並沒有接受過訓練，但它能夠幫助我。例如，我讓它先解答去年的一到兩道題，然後我順着它的思路繼續思考。當我發現它在某個地方犯錯時，我就會摒棄它後面的部分。

我會思考如果它沒有犯錯，接下來我該怎麼做？然後我沿着它一開始給出的思路繼續寫下去，最終發現我能夠解答出題目。但如果沒有GPT來幫助我，我肯定無法從頭開始解這道題，甚至一開始我都不知道要使用哪些工具、哪個定理適用於這道題，屬於哪個領域的問題等等。這個例子可能是GPT和人一起進行試錯的一個示例，我認爲這是非常有希望的方法。

Monica：與ChatGPT相比，微軟的搜索引擎Bing有一個很大的不同之處，Bing會給出原始來源的鏈接，也就是網頁鏈接。這種方式在一定程度上解決了幻覺問題。但是實際上，我們都可以感受到，Bing在推理和各方面的能力上與GPT-4相比還有很大差距，這是否算取捨？

張弋：實際上，在我們團隊撰寫論文的期間，我們的重點工作之一是撰寫一半的Bing的內容。但我們測試的問題在線上發佈後的24小時內，被人們在推特上破解了。

然後你可以看到，在這個問題中，GPT-4只是決定何時調用更先進的API進行查詢，而人類則負責去搜索並擴展、返回搜索結果給它。

我們自己有一個非常有趣的例子，比如在網絡上搜索某個東歐小國人口最多的十個城市是哪些，你可以找到網頁，網頁上確實列出了十個城市。但由於我們限制在自己使用的搜索API中，我們返回給GPT的結果只有前五個城市。GPT看到前五個城市後，它覺得夠了，然後就把前五個複述了一遍，但從第六個開始，GPT就開始自己想象了。不過想象的結果也差不多，大致正確。

相當於GPT瞭解了關於這個問題一半的事實，對於剩下的一半它可能有點模糊的記憶，實際上和人類非常相似，人類說話可能大約90%是非常確定的事實，然後再加上10%的虛構，我們認爲這可能需要在數據或模型訓練的層面上解決，而不僅僅是在代碼層面上解決。

譚旭：人類在學習或認知知識時通常有四個經典階段：第一階段是不知道自己不知道，第二階段是知道自己不知道，然後要知道自己知道，最後可能是不知道自己知道已經領悟了。實際上，現在的GPT-4估計仍處於最早的那個階段，不知道自己不知道，所以它會憑空生成或者在推理中逐步解碼，但有沒有什麼機制讓它能夠知道自己不知道呢？

如果我基於現有知識，對自己生成的內容沒有把握，我是不會去說的，這是一個很好的機制。但目前的模型實際上對於自己預測錯誤的東西非常有自信，就像一本正經地胡說八道，他往往對於預測錯誤的東西也有很高的自信度，所以從單純模型自身的角度來看，很難讓它知道哪些是錯誤的。所以還需要借鑑人類的學習過程，比如孩子可能什麼都不懂，或者懂的時候自己並不知道，還需要獲得更多的反饋。

目前GPT-4的訓練可能主要是基於教科書知識，而這隻佔了人類學習知識過程的一小部分，人類的學習更多發生在家庭、學校和社會互動中，會通過與他人的互動獲得很多反饋，逐漸走向“自己不知道自己不知道，讓自己知道自己不知道”的過程。但這可能需要涉及一些新的模型訓練機制，例如用強化學習來解決這些問題。

硅谷徐老師：確實，訓練的一部分是讓模型自身能力提高，讓它能夠意識到自己的不確定性或者其他方面的改進。另一部分是通過整個解決方案來提高。你可以從GPT等地方像刨冰一樣攝取更多的信息，或者查看網上是否有其他人提到了類似的內容。

人類經常會進行內訓，比如經常有人在一些渠道傳播謠言或虛假消息。當我看到這樣的內容時，我會進行搜索，看看網上是否有其他人提到了類似的事情。如果網上非常安靜，沒有人提到過，那十有八九就是謠言或者造謠。但如果全網都在討論某個人發生了什麼事情，某個人去世了，那我就知道這是一個相當重要的新聞。

所以我認爲訓練機制一方面依靠模型本身的改進，另一方面依靠整個解決方案的提高。

紅博士：各種外部的信息來源也是獲取信息的手段，但從根本上來說，解決方案還是要從模型本身入手。

我來舉個例子，從GPT-3到GPT-4，幻覺現象明顯減少了很多。這可能有不同的原因，第一個可能是模型的基本能力大大提高了，在訓練階段就具備了較強的能力。另外，新的技術和方法也有助於AI自己進行對齊和優化，這些手段都有提升的空間。

除此之外，在我們目前的訓練過程中還存在一個較大的問題。舉個例子，我們回顧一下RLFH的過程，第一步是基於人工標註的數據進行監督訓練，第二步我們會訓練一個真實的模型，比較兩個答案的好壞，然後在第三步我們用RLFH對模型進行訓練。

但是當模型輸出一個人類認爲不夠完美的答案時，我們的反饋只是一個簡單的獎勵或懲罰，實際上並不夠精確。我們只是對模型進行了懲罰，但並沒有告訴它具體哪裏出錯了。在方法上可能還有很多可以探索和挖掘的地方。我認爲這也是研究團隊最重要的任務之一，就是從基礎模型出發來解決幻覺問題。

大模型走向AGI，面臨哪些挑戰？

Monica：要最終實現AGI或者更強的智能，還有哪些限制因素？

譚旭：我們在前面提到了一些AGI或者GPT-4的優點，但我們也需要從另一個角度來看待這個問題，例如現在GPT的一些方法論以及它達到智能的途徑。

大家都知道《思考，快與慢》這本書提到過“系統一”和“系統二”的概念，現在的模型更多的是對數據進行頻率統計，並進行Python的映射，更像是一個快思考的方式，類似於系統一的方式來解決問題，其中並沒有非常強的或完整的推理過程。

當然，現在也有一些機制，比如"share of thought"（思想共享）或類似的問題機制，強制機器進行慢思考，並將中間步驟都呈現出來。但我認爲從本質上來說，現在的模型還在爲數據對未來的推理、計劃或認知的邏輯方面尋找更好的技術方法，這個問題還不是非常清楚。

對於這個問題，我們也需要進行深入思考，像GPT這樣的強大語言模型是否是通向AGI的最佳途徑。

張弋：當前的模型存在許多錯誤，而這些錯誤大多是因爲它思考得太快了，它在看到用戶打的第一句話甚至第一個詞，就開始吐出答案，並沒有經過完整的推理過程，這顯然是錯誤的。如果我們強制讓模型慢下來，它會好很多。但是，問題在於訓練數據已經以這種方式建立起來了，就想很多文章一樣，它們通常會先告訴你結論，這樣才能吸引其他人繼續往下閱讀。除非我們能夠大規模修改數據結構，纔可能讓它慢一些，但我們目前不知道如何做到這一點。

此外，我個人認爲還有一個必須解決的限制是真正的多模態。這意味着模型不僅能夠處理文本，還能夠理解圖像。雖然一些人聲稱現在的GPT版本已經能夠處理圖像了，但我認爲理解圖像這個任務應該從預訓練階段就開始考慮。

比如對一個孩子來說，通過視覺收集到的信息是他成長過程中最重要的信息之一，再比如一些盲人孩子需要接受特殊訓練才能趕上正常孩子的智力發育水平。

具體來說，當我們解數學題時，畫出圖形可以給我們更直觀的感覺，幫助我們解題。這也適用於編程，例如面試編寫代碼時，最好是邊寫邊畫在紙上。所以，我認爲最好的情況是，在GPT-4 或 GPT-3.5 已經使用完全網所有文字信息的情況下，也能夠充分利用全網的圖像數據。

最大的人類數據庫就是YouTube上的視頻，YouTube擁有很多高質量視頻，比如教授編程、基礎數學或關於人生思考的視頻。但視頻數據龐大且昂貴，可能需要具備承載成千上萬個電影的容量，而文本數據只需幾十至百多TB，我們必須找到如何充分利用高質量的視頻視覺信息，讓它能夠更好地幫助模型推理。

然而，目前似乎還沒有明顯的解決方法。

火爆全網的幾款GPT應用對比：HuggingGPT、AutoGPT和ChatGPT Plugin

Monica：HuggingGPT已火爆全網，它的研究背景、運行機制與AutoGPT和ChatGPT Plugin有何異同？

譚旭：目前語言模型在解決複雜任務方面的能力還不夠強，HuggingGPT利用語言模型作爲一個調度中心，將用戶的請求分解爲多個不同的子任務。在用戶提出複雜任務的情況下，他們將任務拆分後，調用專家模型來分別執行這些子任務，並將結果彙總整理，最後返回給用戶。

這種方式可以看作是將一個語言模型作爲大腦系統，而各個專家模型負責處理各自的子任務，形成一個複雜的人工智能解決方案。

通常在學術界或者當前開發的系統中，它們更多面向單個任務，比如圖像識別、文本生成、檢測或語音合成等。然而，我們實際需要的能力往往是解決複雜的日常任務鏈條的能力，更加貼近用戶的實際需求。

舉個簡單的例子，比如我想輸入一張圖片讓AI生成，我描述了這個人在沙發上閱讀一本書的動作和姿態。但是AI可能會將其解讀爲這個人在騎滑板或做其他的事情。同時，我們可能還需要用聲音來描述這張生成的圖片，它就是一些典型的複雜AI任務的複合，如果我們將這個複雜任務拆解，可能需要使用參考圖片進行圖像檢測、定位，並調用AI生成模型生成圖片，之後再使用文字描述模型對圖片進行描述，最後使用TTS模型合成語音。當然，這只是一個我們容易理解的AI任務的例子，實際上還有許多複雜的場景。只要我們的語言模型足夠強大，它可以將複雜的用戶需求拆解成AI可實現的子任務的方式。

硅谷徐老師：跟現在另外一個比較紅火的AutoGPT比起來，它們各有哪些擅長點和不同點？

譚旭：我覺得它們的思想可能有一些區別。AutoGPT更多圍繞着語言模型爲中心進行工作，它主要基於GPT-4，並通過構建Prompt，讓GPT-4不斷迭代調用，完成一些複雜的功能。AutoGPT誕生之初的思想是用GPT-4做更多的商業決策、幫助用戶去賺錢。它可能具備幾個主要功能，比如訪問互聯網蒐集信息，以及管理你的歷史角色或對話記錄。

最後生成的結果可以通過文件存儲或通過GPT進行總結。它更偏向以GPT-4爲核心構建起來的系統，讓GPT-4自己能夠啓動，它負責調度決策或整合具體執行任務，將其交給更擅長的專家模型處理。這些專家模型可能是語言模型本身，也可能是其他更廣泛的模型。未來的目標是形成一個協調的系統，以協同完成複雜的AI任務。

可以說AutoGPT可能面向的是一些更廣泛的任務場景，而HuggingGPT更強調解決一些複雜的AI任務和更專業的問題。

硅谷徐老師：我們需要不同領域的foundation modle（基礎模型）嗎？

譚旭：如果我們選擇一個由一個大型語言模型充當大腦，並將每個領域的專家模型作爲具體執行角色的系統，我認爲在這種情況下，我們對於每個領域需要關注的是語言模型在決策調度和任務拆解方面的能力。我相信每個領域的專家模型本身應該沒有太大問題，因爲現在每個領域都有着經過深入研究的模型。

然而，對於大型語言模型本身來說，它是否能夠在每個領域都有良好的泛化能力，是否能夠適應不同領域的需求，這取決於我們的服務器能力是否足夠強大。目前，我們看到的一些現象可能並不完全令人滿意，在某些領域，對於任務的需求拆解、調度和執行等方面的能力可能並不夠強大。

這可能涉及到是否需要對每個領域進行定製化的大型語言模型，作爲大腦的能力。也許並不需要完全從頭開始訓練語言模型，而是可以使用現有的大型語言模型，並通過微調或遷移學習的方式使其更適應特定領域中涉及的任務、需求理解、任務拆解和規劃執行等方面的要求。

張弋：目前最大的瓶頸似乎在於如何讓訓練完成的模型既能學習到新知識，又不忘記之前學到的內容。這對學術界來說也是一個未知之數。當你需要模型具備強大的推理能力時，會發現當前的方法並不是最佳選擇。

然而，我個人認爲這只是一個技術層面上的問題，不是本質上的難題，我認爲並不需要爲各個領域都建立一個基礎模型。

但我所考慮的是從成本和商業角度來看。雖然我們不知道GPT這樣的大型模型具體花費了多少資金，但我猜測訓練這個模型可能需要數十億美元的投資，當時微軟進行了資金注入，這是一個巨大的投資，大多數公司可能無法負擔得起。

而且這也是一項高風險的投資。目前只有OpenAI這家公司取得了如此驚人的成就，其他公司的模型似乎還有差距，甚至現在訓練這樣大型模型都已經達到了地球資源是否足夠的程度。也就是說，GPT可能是建立在像英偉達這樣的平臺上的一種技術。即使微軟在這方面投入了很大的資源，似乎仍然無法滿足地球上所有的應用需求。

考慮到資源和資金限制，很難支持每個領域都有一個大型模型。因此，我們目前仍然在盡力將現有的模型發展得更好。

硅谷徐老師： HuggingGPT和AutoGPT技術成熟了嗎？爲什麼需要專家生態？

譚旭：要推進這樣的系統，我們可以從兩個角度入手。

首先是作爲大型語言模型，它需要提升對任務理解、調度和規劃的能力，需要在各個領域都能表現出色。

第二是建立專家模型的生態系統。現在我們看到，HuggingGPT推出後出現了很多奇特的需求，其實這些需求並不奇怪，只是之前不常見而已。這些需求一直存在，只是被忽視或壓抑了。

現在釋放出來的需求需要複雜的模型來支持。我們需要在不同領域中支持足夠多的模型來處理各種事情。建立一個完善的生態系統可能對這個系統的成功推進至關重要。

另外，我還想談談任務邊界的問題。因爲大型語言模型本身也能處理一些相關任務，並且可以進行調度，所以有點像既當裁判又當運動員。

我們需要明確大型語言模型的邊界，即哪些任務應該由語言模型自己完成，哪些任務必須交給專家模型來處理。這裏可能需要有一些指導或定義，以確定哪些任務應該放在一個模型中，以及從經濟的角度考慮，哪些任務需要拆分並交給專家們來處理，讓他們專注於專業的事務。

微軟可能提供了一些基礎的辦公軟件或底層軟件，但許多軟件還是由開發者來完成。如果我們能夠定義好這個生態系統的鏈條，可能會更容易地推動這個事情。我認爲目前像OpenAI的GPT還處於初期階段。

Monica：爲什麼說ChatGPT Plugin的本質是OpenAI在收集數據？

紅博士：Agent這個概念在智能研究中非常通用，並且在應用和互聯網的角度來看，我們可以將其視爲使用大型語言模型和調用各種API的方式。無論是AutoGPT、HuggingGPT還是OpenAI的插件，它們都使用了大型語言模型，並調用各種模型或成熟的外部API，這些可以被視爲API的一種。從OpenAI的Plugin設計中，我們可以看到很多有趣的東西。在分析之前，我們要了解一個背景，那就是OpenAI最關心的是AGI（人工通用智能），而不僅僅是收益、生態系統或盈利。當我們有了這個背景後，我們再來看待語言模型的使用，就會發現新的東西。

舉個例子，我們剛纔討論到，當前的GPT在進行規劃時，並不能總是確定應該何時調用哪個API。目前的做法是讓用戶指定要使用哪些插件，並告訴GPT自己的任務，然後GPT會據此進行處理。我們可以猜測，這樣的做法實際上是在收集數據，讓人類幫助標註這些任務的執行情況。

當我們想完成某個任務時，我們需要調用哪些API？完成任務後，是否獲得了所需的結果？這些數據非常寶貴，對於GPT未來的升級和改進是至關重要的。

更進一步，API不僅僅侷限於幾十個或幾百個外部的API，還可以包括本地軟件，每個應用程序也可以看作是調用操作系統的各種函數接口的API，甚至可以包括各種硬件，比如傳感器（如溫度傳感器、激光雷達傳感器、視覺傳感器）以及機器人和機械臂等等。這些東西都可以通過API與大腦進行連接。因此，這是一個非常本質的問題，即通用智能的能力，在於它能夠在儘可能多的環境中成功執行任務，它能夠在越多的環境中生存，就能夠進一步拓展，這是智能的本質。

當OpenAI構建生態系統時，他們已經清楚地認識到通用智能的重要性。

張弋：我之前看到一個有趣的想法，大家可以共同開源構建模型。這個想法是說模型的構建不是由單一的公司或個人來完成，而是每個人可以貢獻一個部分，比如在某個領域上擁有專業知識的模型，然後需要一箇中心機構，可能是OpenAI或其他公司，來處理如何將所有的模型結合起來，以實現1+1大於2的效果。

我們猜測GPT-4或GPT-3.5本身就在使用一種叫做"Mix Your Expert"的技術，它內部有許多路徑，當遇到不同的輸入時，它會調用模型中不同的部分來處理。這種方法可以方便地將看起來不相關的專家模型聯合到一個模型中。

所以在未來，模型的構建可能不再由某家公司開發或者某個人開發，而是如果我需要一個具有某種功能的模型，我可以自己提供一個專家模型，就像我需要一個能唱饒舌歌的模型一樣。

這就像一個軟件包，它具有某些功能，但缺少一個功能，我非常需要這個功能，所以我可以fork這個軟件包，然後自己添加這個功能。我甚至可以要求他們將我的新功能快速集成到主分支中，就像要求他們給我的電腦加裝一個更快的處理器一樣。未來模型很有可能演變成這樣，這樣的模型迭代速度會越來越快，可以將小型模型添加到大型模型中，通過連接的方式。這與傳統的翻譯和推理方式不同，你是在改變模型本身。

這不僅僅是改變模型的參數，甚至價格也在改變。實際上，我們一直在說"finding"這件事很困難，它可能會導致之前的質量下降。現在我們發現目前最好的方法是單獨訓練一個專家模型，然後將其添加到現有的模型中。儘管問題還沒有完全解決，但至少說明單獨添加一個專家模型是可行的。

中國的大模型公司如何追趕 OpenAI?

Monica：中國的大模型公司如何追趕 OpenAI?

紅博士：我們可以看一下美國的幾家公司，DeepMind、OpenAI和Facebook AI Research（FAIR），DeepMind團隊來自於OpenAI，所以DeepMind和OpenAI的路線非常接近，但是也存在一些差異。比如，DeepMind更注重與強化學習相關的研究，並且在生命科學領域也有一些工作，比如AlphaFold。DeepMind並沒有投入太多精力在單一模型上，但自從GPT-3發佈之後，我們注意到DeepMind也開始加大在這個方向上的投入。

有一些知名教授們也持有自己的路線圖，試圖嘗試用一些與OpenAI不同的做法取得成功。即使在工業界，也有人想要探索與GPT不同的路線，比如像AlphaZero這樣的路線圖能否實現，還有一些人會想要一步到位直接進行"grounding".例如，利用大規模智能體（如機器人）在現實世界中實現智能控制等。

但最明確的路線還是OpenAI的方法。有兩個因素，首先，OpenAI已經在許多API路線中取得了成功；其次，大模型領域的一些基礎已經準備好了，無論是理論還是技術，甚至芯片等等。

所以，如果我們以構建API爲目標來看待這個問題，我認爲大部分寶還是要壓在GPT的路線上。這是基於形式上的分析，當然這是我的判斷，我沒有看到特別大的障礙或技術上的破綻，我認爲這條路可以繼續走得更遠。

我可以舉一些例子來說明可能的方向。比如，像目前OpenAI的GPT已經達到了32k，但顯然人們希望能夠實現更大規模的模型。但以現有的技術，如果想要增強GPT的長度，內存是一個巨大的挑戰，計算複雜度也很高。

除了長度之外，還需要一些算法層面的突破。在集成電路的層面上，HBM（High Bandwidth Memory）技術還有很長的路要走。這只是關於長度的例子，當然還有很多其他的方向。

全球TOP 2000公司如何學習使用GPT？

Monica：AI技術應用落地的現狀如何？有什麼機會和挑戰？

硅谷徐老師：全球不僅業內人士，業外人士也在關注ChatGPT，在接下來的一兩年內，全球最大的2000家公司可能會真正開始應用GPT技術和大型模型。

對於這2000家公司來說，有幾種方式可以應用GPT技術和大型模型。一種方式是購買第三方服務，如Jasper或Midjourney，利用這些服務背後的人工智能模型來提高生產效率。另一種方式是將大型模型的概念和技術引入公司內部。然而，並不是所有公司都能輕易實現這一點。每個公司的CEO都在思考這個問題，但實際上將其落實並不容易，因爲僅僅依靠GPT無法告訴公司下一步發展應該如何，還需要微調和大量數據的支持。

無論是微調還是其他方法，都需要完整打通公司數據，以實現數據驅動和執行。這是一個艱鉅的任務，我個人觀察到很多公司都在努力嘗試，包括我自己最近也換了公司，與很多大公司都有接觸，這是一項困難的任務。

除了上述問題，還有其他痛點需要解決。例如，雖然GPT現在能夠寫文章，但財富500的大多數公司並不會讓機器來編寫代碼，因爲合規性和法律問題是值得關注的，大公司需要進行文化上的改變，數據打通需要付出大量努力。

綜上所述，對於全球最大的1000-2000家公司來說，採用GPT技術和大型模型仍然是一項長期而複雜的任務。然而，最令人興奮的是那些原生的、以大語言模型爲核心的公司。這些公司是新時代的產物，它們有可能顛覆很多現有的公司。在過去，財富500的公司每20-30年就會有一次輪換，但在人工智能和大型模型時代，輪換的速度可能會更快。在未來的15年內，絕大多數我們熟知的財富500的公司可能不再在榜單上，但原生的大型模型公司可能具備更快的執行能力。

紅博士：我同意徐老師剛纔提到的觀點。

儘管人們都在討論GPT等技術，但實際上在我們周圍的人和企業中，真正將其應用於日常工作和生活的還比較少。我認識一些科技公司和人工智能公司的CEO，他們已經在自己的公司中主動推廣這些技術。現在有了GPT和Copilot等工具，但對於大多數公司，特別是傳統公司來說，這仍然是一個相對複雜和漫長的過程，需要考慮很多因素。這有點像20年前大家都在進行所謂的信息化進程一樣。

現在有了人工智能，你還需要重新構建人工智能的業務流程，這就既需要理解人工智能，又需要理解業務流程。因此，在這個時候，需要存在一個施工隊的角色。施工隊是指既能理解人工智能，又願意深入到每一個複雜的業務流程中去思考，如何將類似於GPT或更復雜的GPT技術結合各種模型和API的技術，打造成一個解決方案，來幫助互聯網企業或傳統企業完成人工智能的業務流程重構。

我認爲現在正是一個缺位的機會，需要專門擅長並願意深入企業中進行這項工作的人，比如在企業服務領域，下沉到企業中實施還是相當困難的，尤其在中國，定製化和私有化的需求普遍存在。

從技術角度來看，在開源模型的基礎上進行垂直領域的調優，對於以往從事人工智能企業服務的公司來說，技術門檻和研發成本並不高。其中最大的風險應該是通用模型在各個行業場景中性能的迅速提升，比如我們看到從GPT-3.5到GPT-4的進步，以及在法律和醫療等領域，GPT-4直接超越了以前所有的專用模型。

當然，話雖如此，如果擁有足夠強大的數據壁壘，企業仍然會保持定製化模型的優勢，並且具備相當長時間的競爭優勢。只是市場可能逐步被侵蝕，最終剩下的差異化優勢將是定製化和根據業務流程重構過程進行的私有化。

張弋：我認爲可能需要革命性地提升底層的計算平臺或基礎設施才能實現這一點。現在雖然大家都在談論GPT-4，但實際上很少有人在使用。對於普通用戶來說，每分鐘只能進行25次推理的限制，導致即使這個模型非常強大，也無法在日常生活中被廣泛應用。

在微軟，我們的GPU資源已經非常緊張，爲了支持包括OpenAI、GPT模型等的推理，甚至影響到了其他部門的工作。此外，如何在市場上購買更多的A版或新的H版卡也是一個問題，現在這些東西幾乎完全由NVIDIA一家公司控制，而NVIDIA又依賴於臺積電、貝斯當、斯邁爾等公司。提升產能非常困難，不僅僅是有錢就能買到。如果我們想要廣泛應用這個模型，我們必須使其更小、更快、更便宜。

現在已經到了整個地球都無法提供足夠的A100卡以供全球人類使用的奇怪場景。一年前沒有人會想到這一點。我之前聽說微軟在建設新的數據中心時，甚至在考慮將其放在美國的哪個州，因爲大多數州的電網無法支持如此強大的能源需求。

現在已經涉及到人類工程能力的問題，希望能夠儘快解決這些問題，例如不使用GPU的方法，如果模型已經優化得非常好，我們能否直接使用特定的硬件（如APU）而無需改變模型？我認爲在硬件層面可能會出現一波新的明星，專門爲Transformer模型提供支持。

這將有助於提供更高效的模型服務，而無需依賴GPU。我認爲這個領域有很大的潛力，因爲目前市場上只有NVIDIA一家公司佔據主導地位，雖然AMD也有一些份額，但相對較少。

Monica：AI 應用創業有哪些方向？爲什麼說要關注 mission impossible (不可能的任務）？

硅谷徐老師：如果我知道了，明天自己就會開始去做了。我個人的想法是，對於我們能夠看到的應用，比如在線購物、訂餐外賣等，雖然AI可以讓這些事情更加方便，但我不確定僅憑這些應用來提高效率是否足夠。我比較樂觀，我認爲AI所帶來的變革不僅僅是提升這些應用的效率，更重要的是，AI可以改變一些過去被認爲是不可能實現或者變化緩慢的事情。

AI可以應用於IT領域之外的各個領域，無論是醫療、機械工程還是其他領域，都可以幫助它們實現一些改變。

張弋：特別是在法律領域，我發現天然存在着高壁壘但效率很低的情況。法律公司通常僱傭很多人，但實際上他們所處理的案件很少，而且律師費用也很高。

我認爲GPT可以在這方面發揮作用。如果我開一家法律公司，我會僱傭一些有執照的律師，但只會聘用大公司中的一小部分員工。然後我會訓練所有員工，讓他們熟練使用GPT。這樣，他們就不需要處理一些很複雜的工作，而是可以專注於一些日常的違規處理等事務。這樣一來，他們的效率可以提高10倍。同時，我們會降低收費，這將引發社會性的變革，可能會改變整個法律體系。

我知道這個想法可能有些天真，但我認爲這種做法有可能打破社會上的壁壘，這可能是新技術對人類帶來的最大價值之一。

硅谷徐老師：對於律師這個行業來說，IT技術一直沒有徹底顛覆它，這不僅僅是因爲技術的原因。如果僅僅是因爲技術的原因，老實說在過去的20年中，律師行業本來就應該有很大的變化。但事實是，這個行業在過去的20年中幾乎沒有改變。從這一點可以看出，問題肯定不僅僅是技術所致。

但我非常贊同你的觀點，我們需要從各個行業，包括律師行業，開始重新思考。過去，每個行業都認爲自己已經達到了天花板，我希望挑戰的是，每個行業的天花板是否都能以10倍或者100倍的方式來思考，通過將過去的方法與今天的方法結合起來，從360度的角度進行思考。

爲什麼某些行業變化得非常迅速？部分原因在於它們的IT化程度相對較低，數字化程度也相對較低。對於像硅谷的Google、Facebook和微軟這樣的大公司來說，招聘程序員已經成爲司空見慣的事情。但實際上，對於許多非IT行業來說，要找到優秀的程序員，並讓他們參與數字化工作並不容易。

我們同意微軟的CEO薩提亞·納德拉的觀點。許多人都在討論程序員的工作是否會被自動化取代，但他認爲我們最終增加的是對數字貨幣的需求。換句話說，所謂的程序員，或者說開發者，實際上是將物理世界的事物轉化爲數字化，並不斷優化這個過程。這在一些大公司中已經司空見慣，但在其他領域中，這個過程相對低效、緩慢地推進。舉個例子，自動生成代碼可以增加數字貨幣，爲成千上萬家公司的數字貨幣增值。這會提高他們的工作效率，並使他們原本認爲天花板在某個位置的行業的天花板再次上升。這是我認爲比較合理的一種思考方式。

當然，技術永遠無法解決所有問題。即使技術解決了我們今天所知的所有疾病，人類依舊將面臨新的問題。這只是我在這方面的一些想法。

AI最讓人興奮的未來：AGI一定會到來

Monica：AI最讓人興奮的未來是什麼？

譚旭：未來可能有一些令人興奮的事情，在討論AGI時，往往會存在理想主義和現實主義之間的區別。我們是否能夠實現完全的人類智能一直是一個討論的重點。但你看，即使像GPT-4這樣的模型還沒有完全實現這一目標，但它已經解決了大部分問題，併產生了巨大的影響，爲各行各業帶來了幫助。

在這種情況下，提高效率變得更加重要。在我能夠提升當前生產流程效率的情況下，實現AGI可能就沒有那麼重要了。現在，沿着大型語言模型的方向繼續發展，應該會有一些重要的突破。這些突破可能包括多模態能力、與世界的互動以及更加註重行動，例如機器人或超級智能體等方向。

我們可以將人類智能進行拆解，首先是大腦，而語言是區別於其他動物的關鍵能力之一。現在的語言模型在模擬大腦特別是語言方面的能力做得非常出色。接下來，我們需要整合視覺、聽覺、嗅覺、口腔、手和腳以及與世界的互動。沿着這個方向發展，一定會豐富我們對AGI能力的體現，同時也爲我們創造足夠的機會，讓我們去開拓和嘗試。這是我對未來的一些展望。

張弋：我們可能更關注一些學術性的問題，例如如何更好地解決目前大型模型面臨的一些問題。如果我們能夠解決這些問題，它將會有一個質的飛躍，那將是什麼呢？我們現在無法確定，因爲可能是一個與現有大模型完全不同的全新範式。

而我希望在不久的將來能夠看到的是，人們逐漸揭開大型模型訓練的黑盒子。目前我們對於大模型訓練的各個方面的探索還處於非常初級的階段，基本上就是將所有可用的數據都輸入，然後使用所有的顯卡進行訓練，最後進行微調，可能再加上一些語言模型的預訓練。但我認爲一個非常重要的問題是，我們應該先輸入什麼樣的數據，以及是否有順序。例如，大家口口相傳的一種做法是先在特定領域進行快速訓練，然後再在通用語料上進行訓練，這一點我覺得非常有意思。

我不確定是否真的是這樣，但我覺得學術界對這個問題的探索還不夠，如果我們能夠弄清楚這些問題，也許我們只需要少量的數據進行訓練，比如只需幾千個詞彙或者甚至更少，模型的規模也可以變小。

在那個時候，大型模型可能會變得更加有用，更多的公司會加入其中，更多的人也會願意使用。這是我希望在未來一年內看到的發展。

紅博士：首先，我認爲今天在座的人不論是通過什麼路徑得出的結論，都對AGI的到來沒有太多懷疑。

在這方面由於中國起步較晚，我們仍處於追趕的態勢。因此，很少有人關注一些前沿研究或者主要的研究問題，但實際上在人工智能領域存在許多前沿科學問題需要研究。

例如，包括模型本身和數據方面的問題。剛纔張弋也提到了數據的使用方式，目前對於語言數據，我們首先將其進行token化，也就是分詞。Context本身就是一種壓縮方式，通過使用GPT進一步進行壓縮，我們獲得了智能。這是一種使用方式。對於圖像和視頻等其他模態的數據，我們還不清楚應該如何處理。

此外，我們還討論了代碼數據和文本數據。實際上，它們都包含了知識，代碼數據可能包含了一些任務解決和邏輯推導等內容。對於這些數據，我們還沒有深入研究，因爲在過去的很長一段時間裏，以OpenAI爲首的公司主要是在摘取低垂的果實。然而，隨着時間的推移，Skew EyeLab變得越來越困難，我們需要靜下心來研究這些更精細的科學問題，包括模型本身的數據和算法，是否有比transformer更好的架構，以及解決長期記憶問題的方法。

此外，還有一些非常重要的科技倫理研究，我們需要了解什麼是記憶，什麼是泛化，以及模型在什麼階段傾向於記憶，在什麼階段開始泛化，以及記憶和泛化在訓練的每個階段如何變化。當我們理解了這些問題後，我相信我們會看到許多新的提升方式。

另外一個問題是AI的治理。在中國可能並沒有太多關注，但在全球範圍內正在進行討論，包括一些知名的AI科學家也在探討如何使這些強大的模型按照人類的意願行事，不僅解決一些虛幻問題，還有關於如何控制這些模型的問題。因爲我們很可能不需要太長時間就能達到人類智能水平或認知水平的基準。

目前這還是一個未知數，但我們現在需要花費大量精力來研究這個問題。我認爲最前沿的科學研究需要將技術實現或對齊放在非常高的優先級上。這涉及模型本身，也包括模型之外的方面，例如我們需要更好的存儲模型的存儲方式。

當我們成功構建了GPT這樣的模型之後，如何實現用一個最深入的機器人來解決各種問題，比如自動駕駛汽車、家務機器人，還有一個非常重要的領域是增強科學研究的能力。

過去人類科學家的數量是相對較少的，頂尖科學家更是少之又少。如果一個AI成爲科學家的助手，甚至具備超過科學家的認知水平，它是否能夠加快我們科學的進步？

例如，在生命科學和材料科學領域，當前的AI技術有點像從人類知識中進行提煉，它在學習人類在互聯網上留下的知識。人類知識量的多少決定了它的智能程度，那麼如何讓它獲得更多的智能？因此，我們需要在科學上取得更多突破，例如改進觀測儀器，爲什麼AlphaFold能夠被創造出來？

因爲我們人類科學家發明了觀測蛋白質結構的儀器，然後我們瞭解了一些氨基酸序列是如何摺疊成蛋白質結構的。有了這些數據，我們才能開發出AlphaFold這樣的算法，從而幫助科學家預測新的蛋白質結構。這說明我們仍然嚴重依賴人類的知識。因此，我非常希望能有更多人蔘與到研究人工智能中，或者將人工智能應用於解決科學問題，這樣我們就能獲得人類有史以來最大的福利——一個可以無限複製、極其強大的人工智能，推動人類文明的進步。

硅谷徐老師：AI的基本組成確實是算法、算力和數據。正如你提到的，我們在討論中也提到了不同的數據處理方式，例如序列和亞洲獨特的方式等等。實際上，還有很多潛在的研究方向需要探索，我們今天只是冰山的一小部分，只是輕輕觸及了其中的一部分，還有很多工作要做。

從算法的角度來看，我們剛纔也討論了Transformer模型，大型模型確實有很大的提升空間。僅僅從並行處理的角度來看，Transformer模型應該還有很多改進的空間。另外，從算力的角度來看，我們提到了不同代的GPU，從V100到A100再到現在的H100，每一代的提升都是顯著的。我記得在90年代的時候看英特爾的CPU，看不到天花板，但後來我們看到了英特爾芯片上的天花板，基本上到了三個赫茲左右，就到達了頂峯。

但是在AI領域，我覺得最讓人激動的一點是，我們還沒有看到天花板的存在，這是我最激動人心的地方。

未來有無限的可能性，我們可以不斷提升算法、提升計算力，獲取更多的數據，推動AI技術的發展。這個領域的進步將會給我們帶來更多驚喜和突破，讓我們充滿期待。

出品：騰訊科技 & 播客《OnBoard!》

策劃：《M小姐研習錄》

編輯：騰訊科技周小燕趙陽博

參考文章

論文 [2303.12712] Sparks of Artificial General Intelligence: Early experiments with GPT-4

Language models can explain neurons in language models

fun - Draw a unicorn in TikZ 🦄 - TeX - LaTeX Stack Exchange

ChatGPT cost a fortune to make with OpenAI's losses growing to $540 million last year, report says

[2304.11062] Scaling Transformer to 1M tokens and beyond with RMT

《ChatGPT當“律師”！全球法律巨頭「律商聯訊」推出Lexis+AI™》

《通用人工智能時代到來了：儘管AGI不完美，人類也會犯錯》

本文來自“騰訊科技”，36氪經授權發佈。

微軟祕密研究：Open AI內部版GPT-4，或能對人類生存造成威脅

熱門新聞

週熱門

微軟祕密研究：Open AI內部版GPT-4，或能對人類生存造成威脅

高榕馬曉宇：AI+硬件，世界變局下的中國機會

大模型新紀元：定製化推理釋放企業數據價值

非公醫療進入整合期，精細化發展成解題思路｜最前線

雷軍終於成了車圈頂流

“每天只睡5小時”，大模型在火熱落地中

中國快遞業不需要“小院高牆”

Meta Q1業績會實錄：雖然AI產品還沒盈利，會持續投資和擴展規模

數字供應鏈中的10個頂級成功案例

氪星晚報｜阿里發佈職業趨勢報告：AI能力正在成爲職場關鍵競爭力；零跑C16北京車展預售發佈；雷軍：汽車工廠至少能帶動5—6倍的周邊產業

最前線｜高德發佈好的出租3.0，爲出租車提供靈活調價能力

圖靈獎得主楊立昆：大語言模型是通往AGI的一條歧路

主營電動工具DIY場景，「鐵腕創新」完成近2500萬元天使輪融資｜36氪首發

禾賽科技李一帆：激光雷達應該是商品，不能賣一臺虧一臺｜36氪專訪

推行動物實驗替代計劃，臨牀前CRO巨頭的“陽謀”

人工智能在教育中的43種用途

熱門新聞

週熱門