Naveen Rao已經在建立人工智能技術和公司方面有十多年的經驗。他創立了 Nervana Systems(被英特爾收購)和 MosaicML(被Databricks收購),現在擔任 Databricks 的生成AI副總裁。從芯片到模型,很少有人比他更瞭解企業如何使用人工智能。

在AI + a16z播客的首發節目中,Naveen Rao與a16z合夥人Matt Bornstein、a16z企業編輯Derrick Harris對談,討論了企業在大型語言模型(LLM)採用方面的現狀,以及LLM將如何影響芯片設計和軟件更新週期。他還分享了一些個人故事,觀察人工智能技術和意識如何從邊緣運動發展爲主流現象。

或許一些讀者已經對CUDA計算平臺對於英偉達綁定用戶的重要意義有所耳聞,但 Naveen 在談及芯片時提出了一個新觀點,軟件堆棧的成熟性纔是將客戶與英偉達深度綁定的原因。

儘管 Transformer 架構存在着幻覺、背景知識依賴等固有問題,但對於衆多芯片公司來說,大語言模型在很大程度上遵循 Transformer 架構的標準這一特徵也爲他們創造了機會,因爲這使得他們可以根據更同質化的工作負載來定製他們的產品,降低了開發難度。Transformer 這樣更模式化的架構,使我們有機會去構建一些不太靈活但性能更高的硬件。

除了通用大語言模型,對預訓練模型進行微調而形成的定製化模型也將是企業採用的大勢所趨。在特定領域,這樣的定製化小模型的性能表現可能遠超一流的大模型,對於企業來說性價比很高。

根據 Naveen 的觀察,一個模型的生命週期在六個月,六個月之後模型就會在經歷多輪訓練推理之後發生很大的變化。事實上,每個收集數據的公司都有可用於模型訓練的數據集,企業應該從以往的業務積累中挖掘數據,開發自己的定製化模型。同時也應確定自己的模型評估標準,以便對模型做出更精準的反饋,促進訓練推理迭代。

以下爲本期內容目錄:

  • 01 “模”不離“芯”
  • 02 模型採用蔚然成風
  • 03 企業應當如何躬身入局

01 “模”不離“芯”

Derrick Harris: Naveen,對於英偉達公司的出色表現,你有何評論?

Naveen Rao: 英偉達確實一直非常好地把握每一個新興趨勢,並將其執行得非常出色。所以對任何與之競爭的公司來說,英偉達無疑是一個強大的對手。大家普遍談論CUDA生態系統的綁定效應,但我認爲這已不再是原因所在。我覺得他們已成爲行業標準,轉投其他硬件平臺會帶來風險。

我們一直在尋找新的硬件,看看是否能找到更好的總體擁有成本(Total Cost of Ownership,TCO),基本上我關注的是每美元有效算力這一數字。事實上很難找到合適的替代品,因爲他們確實製造出了優秀的產品,再加上成熟的軟件堆棧,我們能從中獲得很大算力。軟件堆棧的成熟性纔是將用戶與英偉達真正綁定的原因

Derrick Harris: 當你說你們在看其他的硬件平臺時,可以透露一下具體是哪些嗎?我馬上想到的是雲平臺正在構建的東西。顯然有一些初創公司也在這個領域嘗試,但我很好奇你們在關注什麼?

Naveen Rao: 是的,我們之前有討論過這些。但是到目前爲止,放棄英偉達仍然非常困難,因爲如果我們想爲某個目的構建模型,這將是最短的路徑。其他任何選擇都會在這個階段引入一些阻力。不過,我認爲到年底情況可能會發生變化。可能會有其他的一些廠商能夠在更少的阻力下實現最終的目標。我們正在構建我們的軟件棧,讓它對我們的客戶來說非常容易使用,並通過他們已經熟悉的使用方式爲客戶提供最佳的總體擁有成本。我們有很多人正在Databricks mosaic堆棧之上進行構建。如果我們能夠抽象掉這些硬件細節,我們就能讓客戶擁有更多選擇。

Matt Bornstein: 語言模型在很大程度上都遵循 Transformer 架構的標準。這似乎爲芯片公司創造了一個機會,可以根據更同質化的工作負載來定製他們的產品。您認爲這是真的嗎?如果是這樣,您認爲這對行業來說是好事還是壞事?

Naveen Rao: 這確實如此。如果你回到五、六年前,你必須支持許多不同的神經網絡家族。當時有卷積神經網絡 (CNN)、循環神經網絡 (RNN)、長短期記憶 (LSTM)等等,所以實際推出一些硬件要困難得多,因爲你必須針對所有這些不同的東西進行支持和優化。

而現在,正如你所說,現在主要是 Transformer 架構或者是擴散模型。我認爲擴散模型仍然是非常重要的工作負載。所以這兩種模型都有一組相對較小的基本運算單元,因此你只需要進行鍼對性優化。

那它是好是壞?我並不確定好壞如何界定。我不認爲 Transformer 架構是萬能的。我認爲 Transformer 架構還存在一些固有的問題,還沒有得到很好的解決。任何接下來的架構都將建立在 Transformer 的經驗教訓之上。比如幻覺、背景知識依賴等問題,我並不能確定這些問題能否在 Transformer 架構內解決。我認爲會需要一些修改。

我們正在做RAG(檢索增強生成,Retrieval Augmented Generation)這樣的事情,我相信你一定聽說過。它基本上是一種通過近似搜索將上下文窗口擴展到大量其他文檔的方法。我覺得這是一種行之有效的模式,不過,現在來看它仍然像是一種權宜之計,因爲涉及到近似搜索、嵌入模型等。

Transformer 作爲一種標準範式對硬件廠商來說肯定是件好事,因爲它給了他們真正進入遊戲的機會。正因爲如此,我認爲今年我們將看到一些競爭。我認爲目前對這個架構有點過分依賴,但這正是這些事情的發展方式,不是嗎?我們的意思是,我們找到了一些可行的方法,然後就一直在追逐它。而接下來必須對這種範式進行修改,才能向前發展。

Matt Bornstein: 作爲同時精通硬件和軟件的少數專家之一,能否從你的角度解釋一下,爲什麼在過去需要支持卷積神經網絡等多種不同架構時,定製化芯片製造如此艱難?展望未來,如果我們真的拋棄 Transformer 架構,芯片行業進行相應調整會有多大難度?

Naveen Rao: 硬件設計的一個基本概念就是限制計算模型的數量,所謂模型指的是一組反覆出現的運算操作集合。比如,如果我進行矩陣乘法、線性縮放和查表操作,如果看到這一模型反覆出現,那我就可以構建一款針對性優化這種操作集合的硬件。因此,定製化硬件的做法一直是尋找這些主導性的計算模型和模式,並專門爲之打造硬件。在通用性與定製化之間存在着固有的權衡。

長期以來,CPU都是主導範式,因爲大多數應用程序如Word等主要關注指令的順序執行。現在我們進入了數據並行的時代,在支持新一代算法的同時,保持足夠靈活性並在某些基本運算上擁有良好性能,這就是我們需要權衡的。比如,早期我們在Nervana構建軟硬件解決方案時,主要關注感知器和卷積神經網絡等一些基本運算。但後來出現了ResNet等不同的卷積網絡,給我們帶來一些挑戰,我們不得不考慮在頻域 (frequency domain) 而不是時域 (time domain) 進行卷積運算,這實際上改變了運算模型。這種情況更有利於GPU這類相對靈活的硬件。

但現在有了像 Transformer 這樣更模式化的架構,它使我們有機會去構建一些不太靈活但性能更高的東西。你可以想象這種極端情況:我把一個完全訓練好的神經網絡直接刻在芯片上。對於這種神經網絡,我們能做出各種創新優化,比如將所有0權重拋棄不計,不佔用任何晶體管面積;還有那些含有大量0值的矩陣乘法運算,在優化邏輯合成時,相關的晶體管也會被優化掉。所以如果我們願意完全犧牲靈活性,去刻錄一個固定的神經網絡,確實能實現很大程度的優化。但問題是,這樣優化出的芯片是否有足夠大的市場容量,能讓開發成本合理化?這就是權衡所在

02 模型採用蔚然成風

Derrick Harris: 你認爲這種非常特定且缺乏靈活性的芯片的市場將是什麼樣子?是目前一些大型語言模型供應商如谷歌、OpenAI以及一些其他公司,還是企業界也會投資於此?

Naveen Rao: 說實話,可能兩者都有市場。大規模訓練模型併爲不同領域構建定製模型註定將成爲一種趨勢,它已經是當下的現實狀況。首先,對於受監管行業而言,獲得控制權很重要;其次,各公司都希望獲得差異化,構建適用於自身數據和客戶的專屬模型,從而與競爭對手區隔開來。

但與此同時,一些主導性應用場景,比如chatGPT這樣的大型語言模型,也有很大的潛力。GPT-4在過去一年裏也在不斷更新,雖然有人說它是一年前的模型,但實際上並非如此,它在內部一直在持續演進。但即便我們認定它是一年前訓練的模型,如果這個模型仍有價值,那麼只要能通過它運行足夠多的推理,或者有足夠多的用戶付費訂閱(比如1億用戶每月付費20美元),那構建一款專用芯片的成本(大約3000萬美元)就能夠被合理化。

相比之下,運行每次推理的成本會大大降低,因此對於這些大型通用模型而言,定製化芯片的做法其實是值得的。所以在某些情況下,我們可以換種思路來看待這件事。過去我們認爲硬件是一個巨大、 高成本且永久不變的存在,但在如今融資上億美元已不足爲奇的時代,這種觀念並不適用。我可以每6個月推出一款新芯片,成本3000萬美元,根本不算什麼。所以如果我們從這個角度來看,只要知道一個模型的生命週期,以及將有多少人使用或產生多少token,我們就能夠建立一個合理的財務模型,爲每一款大型模型定製芯片

Derrick Harris: 這種轉變發生得太快了,令人難以置信。幾年前我想,做這種事的恐怕只有谷歌之類的巨頭。但現在連創立僅數年的公司都在做了。我想稍微轉移話題,從硬件方面轉向軟件方面。我的印象是,你更偏向於自定義訓練模型。但我很好奇,在這種做法和其他可選方案之間,權衡在哪裏?每種方案都有哪些適當的使用場景?

Naveen Rao: 我認爲這沒有一個統一的答案。我們希望多從客戶的角度考量,爲他們提供價值。目前,我們的大部分業務實際上是定製訓練模型。一旦客戶將這些模型投入生產,我們預計推理端的業務將進一步增長。我會將微調與預訓練統稱爲訓練,將推理看作部署生產的一部分。從收入角度看,兩者可能會趨於50:50的比例。

這是我的猜測,因爲在訓練模型後,你顯然需要將其部署投入生產;而在生產環境下,你會收集反饋並希望基於此重新訓練模型。所以,這兩者相互促進、相輔相成。當然,這種情況將來可能會發生變化。

在構建一個模型時,這個模型只是一個時間點的快照,而並非永久不變的存在。根據我的觀察,一個模型的生命週期大約爲6個月。即使是目前最優秀的模型,比如GPT-4,情況也是如此。在大約6個月後,你就會看到它經歷了很大程度的修改。如果我們從這個角度來看,情況就是這樣:我會將一個模型投入生產運行6個月,然後根據部署過程中的經驗教訓,回過頭來重新訓練、優化這個模型。

所以訓練和推理兩者是相輔相成的。說實話,我們並不偏好某一方,會隨着趨勢而動。但就我目前的觀察,訓練和推理是同步增長的

Derrick Harris: 這似乎是一種轉變。基本上我們所運行的應用程序每6個月就需要重做一次,這對企業的運作方式會產生何種影響?對於一些企業而言,這種更新速度看起來比傳統上對核心應用的節奏要快得多。

Naveen Rao: 這的確如此。在芯片行業你也能看到類似情況,芯片的生命週期大約爲2年左右。2年後,芯片並不會完全過時,但就已經較爲陳舊。當然,一些特殊場景下,企業可能會因合規審查或其他原因,將某些模型保留在生產環境中的時間更長。比如汽車領域,芯片需要運行10年甚至更長時間。這種場景下芯片經歷了大量檢查,生命週期自然會更長。但在數據中心,升級週期就會更快。

我所說的6個月生命週期並不意味着之後就要完全拋棄舊模型、重新構建新模型。而是會基於反饋持續優化現有模型,以改善應用程序的支持能力。這正是我們在 Databricks 內部構建的能力,即從已部署的模型中收集反饋,利用這些反饋改進模型,生成監督微調數據集,然後對模型進行微調,將優化後的新模型投入部署。

Derrick Harris: 那麼,與谷歌、OpenAI 等一些常見公司內部進行這一流程相比,在標準企業內部進行有何不同?因爲我一直在聽到,今年我們將會看到大語言模型真正落地到企業。我很好奇這會是一種什麼樣的情況?

Naveen Rao: 是的,讓所有人都能夠做到這一點,正是我們在Mosaic和現在的Databricks所做的一大部分工作。我們有一個著名的案例是Repl.it公司,他們只有兩個人,卻依靠我們的平臺構建了一個最先進的代碼模型。而這在5、6年前的谷歌和OpenAI內部是做不到的,那時他們不得不組建龐大的團隊來搭建基礎架構、處理故障等。

我們基本上將這種模式民主化了,爲所有人提供了一套簡化基礎設施運維的工具集。我們看到大量企業在訓練模型,具體數字我得查一下,但我們已經有超過 10萬個訓練完成的大語言模型。所以並不是什麼將要到來的事物,它已經發生了。企業正在利用新工具構建自己的模型,成本也降到了百萬美元以內就能獲得實質性價值的水平。正是這兩者的結合,讓大模型在企業中大行其道

這會是一種什麼樣的情況呢?我想很多企業目前還在摸索階段。通常來說,很多事物都歸屬於CIO的管理範疇,包括相關的IT基礎架構。但與此同時,通常會有一些業務線上的數據科學家或者 ML 工程師,負責數據處理和使用相關工具。因此企業內部的模式會略有出入。具有較好的人工智能素養的人才也已經在不斷擴散到各個企業中,推動人工智能技術的採用和部署。

Matt Bornstein: 能否幫助我們理解,一個小模型是如何能夠超越GPT-4當前的性能水平的?這是如何實現的,背後的原理是什麼?

Naveen Rao: GPT-4是在大量數據上訓練的,它具備廣泛的知識表徵能力。但對於大多數公司而言,他們只需要模型在特定領域有所專長,而不需要包羅萬象。你可以類比爲一個在各方面都很優秀的人,與一個在某一領域非常出色的人。實際上,後者能爲世界帶來更多價值,因爲我們可以有很多這樣專注於各自領域的人。

而要塑造一個"通才"而非"專家",反而價值不高。我們在不同垂直領域反覆看到,只要你用特定領域的數據訓練一個小模型,它就能輕鬆擊敗GPT-4。這個小模型在通用性能上肯定是不行的,但爲特定用例開發採用這樣一個大型通用模型,純屬大材小用,性價比極低。現在每個人都意識到了這一點。

我可以以 1/100 的成本訓練和服務一個領域模型,它的大小也只有通用大模型的 1/100,但在我的領域表現依然出色。那爲什麼還要使用成本高昂的通用大模型呢?這就是企業在權衡的計算。

Matt Bornstein: 你能分享一些實際案例嗎?因爲人們對此主張很感興趣。通過訓練或微調一個小模型就能超越GPT-4,這種說法已經成爲業內普遍接受的智慧。但當你真正去尋找示例時,比想象的要難找。

Naveen Rao: Repl.it就是一個很好的例子,他們專注於代碼補全領域。這是因爲他們擁有自己客戶的數據集。請注意,這不僅僅是一個經過領域數據訓練的小模型,關鍵是使用的訓練數據質量很高,而OpenAI在這個領域並沒有優質的數據。Repl.it積累了大量客戶嘗試使用代碼補全工具時的數據,他們用這些數據訓練模型,所以模型的性能非常好。

純監督學習要求你建立一個非常高質量的、完全監督的數據集,這個過程艱難和昂貴,需要大量的機器學習工程工作,因此當時並沒有真正流行開來。但現在我們可以獲得一種性能的平滑過渡,我可以說,我有這個相當不錯的基礎模型,它理解語言、理解概念。然後我可以開始引入一些我確實瞭解的東西。我所知道的越多,我就能引入越多。如果我沒有大量信息,也沒關係,我仍然能獲得一些有用的東西。我可以將其投入使用,或在一些受約束的環境中使用,收集反饋,進而改進模型。所以這種範式實際上是致命的殺手級範式。

03 企業應當如何躬身入局

Matt Bornstein:當前,地球上每一家企業的每一位技術領導人都可能在考慮啓動這樣一個項目,這是合理的。這可能是我們在過去10年、20年甚至更長時間內見證的最重要的技術變革。但除了來與你們(指Databricks)交談,我們真的如何判斷自己是否確實存在這樣的問題,擁有適當的數據集,以及適合使用這項技術呢?

Naveen Rao: 這是一個好問題。我認爲,幾乎所有收集數據的公司都已經擁有某種可用的數據集,要麼本身就是格式良好的數據,要麼只需稍作處理就能正確格式化。比如呼叫中心的那些文字記錄,你就只需要這些例子來展示你期望的行爲效果。正如我所說,預訓練加監督微調這一範式非常酷,因爲我只需要提供少量有價值的例子,就能顯示出性能改進,然後進一步擴大規模。

我們發現,在大多數企業中,可能存在這樣一個子集:有人曾經做過一項不錯的工作,他們收集了一些客戶體驗數據,保證了較好的質量。但同時企業還擁有過去20年積累的大量粗糙雜亂的數據,散落在各個角落。現在他們可以利用那個小而乾淨的數據集進行微調,這將產生很好的效果。接下來就可以合理化做一些 “考古”工作,挖掘其他所有舊數據,重新格式化並加入到模型訓練中,從而獲得更好的效果。

大多數企業,尤其是數字化企業,都擁有這些充當企業特徵描述的黃金數據集,比如買家行爲數據、買家交互數據等等。但過去沒有人知道如何使用它們。這曾經是人工智能10多年前的承諾,即你可以利用這些數據做些實際有用的事情。直到今天,這個承諾才真正能夠兌現。

Derrick Harris: 你提到構建有用的東西,我認爲這在某種程度上很準確地描述了當前情況。不過這些模型應用雖然有用但肯定不是確定性的,結果不能保證,企業能接受這種情況嗎?

Naveen Rao: 是的,這對於受監管行業來說確實是一個挑戰。他們喜歡使用超級確定性的模型——我知道輸入是什麼,能夠非常精確地預測輸出,以及輸入輸出的分佈情況等,一切都很好刻畫。而一個生成模型會生成新的內容、進行新的組合拼接,存在一些不可預測性,這就讓人難以確定。

我們認爲,最好的方式是讓企業找準自己業務中"好"與"壞"的定義,建立相應的評估指標。在學術界和行業中,我們有50多種不同的評估方法,比如NLU、HellaSwag等等,通過這些指標來判斷某個模型在某些任務上的表現是否優於另一個模型。很多時候,企業有自己判斷人類表現是否良好的標準。比如,如果讓某人面對客戶,他們就能憑直覺判斷這個人是否值得信賴、是否合格。但我們沒有一個完美的評估形式,通過它就能100%確定合格。

所以對於受監管行業而言,現在最困難的是制定這種評估標準,以便對比不同模型在特定領域的相對優劣,從而獲得一些信號。我們現在正在爲企業提供這樣的建議:確定你的成功標準,把它寫下來,然後我們將開始爲你構建評估方法。

Derrick Harris: 是的,我想說客戶服務領域看起來很簡單,因爲現有的服務水平實在太差,任何改進都是改進。我想問一下,你在很久以前的一篇博文中提出,可以將大語言模型視作某種結構化的表示,類似於關係數據庫,或者說是企業DNA的某種體現,囊括了他們積累的所有數據。你能進一步闡述一下這個概念嗎?因爲正如你所說,如果我們真的可以在多年積累的數據上進行訓練,似乎確實能夠組裝出某種關於這家企業實際運作方式的知識庫。

Naveen Rao: 我們一直在努力尋找人們能夠理解和接受的術語,以此來解釋新事物。它不完全等同於數據庫,所以把它比作數據庫只是一種比喻。你可以輸入數據和知識,但模型實際上能夠創造、能夠對新數據進行推理。這種推理過程發生在訓練或微調階段。

當你引入新的數據時,模型實際上能夠找到對該數據進行推理的有用表徵方式。例如,如果我滔滔不絕地叫出一些醫學期刊上的遺傳學術語,一個不瞭解遺傳學的人很快就會感到迷惑。但在多次聽到這些術語後,你實際上開始理解了。然後在聽到新的文本時,由於你對這個領域已有心智模型,你就能說“好的,我能找出這段新文本中有趣的部分了”。這種定製化的推理能力纔是最重要的。現在,我們可以稍微使用一下推理這個術語了,我覺得業界在這方面正逐漸成熟。如果我說推理這個詞,人們就不會感到困惑了。現在我可以更清楚地定義它:它是在引入定製數據時,圍繞你的數據形成一種心智模型的過程,這就是定製化推理的本質。

當你進行預訓練或微調時,你實際上是在構建一種定製的推理引擎。所以我們正在從數據庫這個比喻,轉向推理這個比喻,但本質上是在描述同一個現象:我有一種可以接受定製數據的東西,我可以在其上形成某種表徵,然後基於此爲我的業務做一些有用的事情。

Derrick Harris: 說到數據庫,我很好奇,就像數據基礎設施,至少在平臺層,要遷移需要很長時間。它會長期存在。就人們而言,他們仍然在運行他們一直在運行的相同數據庫。我們如何看待基礎模型作爲公司數據基礎設施的一部分?因爲它們似乎進化得很快,而且正如你所說,它做的事情遠不止處理數據,它還能進行推理。

Naveen Rao: 是的,我認爲目前在未來幾年裏,我們都將處於這樣一個階段,即我們不會在很長一段時間內只建立一個基礎模型。這在數據庫的早期也出現過。我記得大概是上中學的時候,數據庫正當時,Oracle 變得越來越大,所有這些不同的公司都在90年代初發展起來。但在那個時候,我認爲一家公司不會真正地承諾使用一個數據庫很長時間,因爲總會有新的技術出現,有些更快、更好。

現在這些模式已經非常成熟,我可以長期使用一個數據庫,因爲它很成熟,我知道它會運行,它會得到支持,並且它就像是我業務的基石一樣。基礎模型要達到那個地步還需要一段時間。但我認爲這正是我們開始看到領域特異性和甚至客戶特異性激增的原因,就像一旦我構建了一個真正理解我領域的模型,我們的願景是讓這種模型實際上開始變得更加自主。它實際上變成了我可以信任的東西。比如說,它只是不斷地應用於我所有的數據上。

本文來自微信公衆號“烏鴉智能說”(ID:wuyazhinengshuo),作者:智能烏鴉,36氪經授權發佈。

相關文章