歡迎關注“新浪科技”的微信訂閱號:techsina 

整理/褚杏娟 核子可樂

來源:AI前線(ID:ai-front)

GPT 不出,AI 萬古如長夜。

“對於人工智能,2022 年是有史以來最激動人心的一年。”微軟首席技術官 Scott Stein 在近日的分享中說道,但他還自信地表示,“2023 年將是 AI 社區有史以來最激動人心的一年。”

值得關注的是,微軟是 OpenAI 的主要投資者,而 OpenAI 最近 GPT-3.5 系列主力模型之一的 ChatGPT 爆火,Stein 的這次發言也牽動了網友敏感的神經:GPT-4 要來了?

生成預訓練 transformer(Generative Pre-trained Transformer,簡稱 GPT)是一種可利用互聯網數據進行訓練的文本生成深度學習模型,在問答、文本摘要、機器翻譯、分類、代碼生成和對話式 AI 領域都有相當出色的表現。

2022 年 7 月,OpenAI 發佈了最先進的文本轉圖像模型DALLE-2。就在幾周之後,Stability.AI 推出了 DALLE-2 的開源版本,名爲 Stable Diffusion。兩款模型在亮相後均大受好評,也在質量和理解文字描述的能力上展現出可喜的成果。最近,OpenAI 又推出名爲 Whisper 的自動語音識別(ASR)模型,帶來了優於原有同類模型的穩健性和準確度。

從過往趨勢來看,OpenAI 在接下來幾個月內推出 GPT-4 的概率很大。市場對大語言模型有着相當迫切的需求,GPT-3 的流行已經證明大家願意接受 GPT-4,同時也對它的準確性、計算優化、更低偏差和更高安全性充滿了期待。

GPT 不出,AI 萬古如長夜

在 GPT-1 之前,大多數自然語言處理(NLP)主要針對分類和翻譯等特定任務進行訓練,使用的也均爲監督學習方法。這類學習方法有兩個問題:過度依賴註釋數據,而且無法實現任務泛化。

GPT-1(1.17 億參數)相關論文《Improving Language Understanding by Generative Pre-Training》發表於 2018 年,其中提出了一種生成語言模型,能夠使用未標記數據進行訓練,並在分類和情感分析等特定下游任務上進行微調。

GPT-2(15 億參數)論文《Language Models are Unsupervised Multitask Learners》發表於 2019 年,其中使用的參數更多、訓練數據集也更大,語言模型自然進一步提升。GPT-2 使用任務調節、零樣本學習和零樣本任務轉換等方式提高了模型性能。

GPT-3(1750 億參數)論文《Language Models are Few-Shot Learners》發表於 2020 年,其模型參數達到了 GPT-2 的 100 倍,使用的訓練數據集更大,因此能在下游任務上取得更好的效果。

GPT-3 在故事寫作、SQL 查詢、Python 腳本、語言翻譯和摘要編寫等能力上幾乎能夠與人比肩,效果驚豔全球 AI 界。如此出色的表現,離不開其中的上下文學習、少樣本、單樣本及零樣本等技術設置。

GPT-4 可能是什麼樣子

在最近的活動中,OpenAI CEO Sam Altman 證實了 GPT-4 模型的發佈傳聞。下面是國外數據培訓企業 DataCamp 對 GPT-4 模型大小、參數水平以及計算、多模、稀疏性及性能等方面的預測。

模型大小

根據 Altman 的介紹,GPT-4 並不會比 GPT-3 大太多。因此,預計其參數大約在 1750 億到 2800 億之間,跟 Deepmind 那邊的語言模型 Gopher 基本相當。

塊頭更大的 Megatron NLG 是 GPT-3 的三倍,參數達 5300 億,但性能並沒有更好。緊隨其後的稍小版本反而性能更優,所以單純堆體量明顯不足以讓性能更上一層樓。

Altman 表示,他們正努力讓更小的模型獲得更佳性能。大語言模型需要龐大的數據集、海量算力和更復雜的實現。對於多數企業來說,不要說訓練,這類大模型就算部署起來都困難重重。

最優參數化

大模型的優化水平往往不高,爲了有效控制模型訓練成本,企業必須在準確性和成本之間做出權衡。例如雖然還能改進,但 GPT-3 確實只訓練過一次。由於無法承受成本,研究人員根本沒辦法進一步做超參數優化。

微軟和 OpenAI 已經證明,如果用最佳超參數對 GPT-3 進行訓練,該模型還有繼續改進的空間。在調查結果中,他們發現經過超參數優化的 67 億參數 GPT-3 模型與 130 億參數 GPT-3 模型的性能基本一致。

他們還發現了新的參數化方法(μP),即較小模型的最佳超參數與相同架構的較大模型的最佳超參數相同。如此一來,研究人員就能以更低的成本實現大模型優化。

最優計算

DeepMind 最近發現,訓練令牌的數量對模型性能的影響也很大,甚至不亞於模型大小。自 GPT-3 面世以來,他們一直在訓練具有 700 億參數的 Chinchilla 模型並證明了這一結論。該模型只相當於 Gopher 的四分之一,但使用的訓練數據反而是後者的四倍。

所以我們基本可以假設,要實現模型最優計算,OpenAI 會額外再加 5 萬億個訓練令牌。就是說要想將性能損失控制在最低,GPT-4 的模型訓練算力將達到 GPT-3 的 10 到 20 倍。

GPT-4 將是一套純文本模型

在問答當中,Altman 表示 GPT-4 不會是像 DALL-E 那樣的多模模型,而是純文本模型。

爲什麼這樣說?與純語言或純視覺相比,多模模型的質量往往難以控制。將文本和視覺信息結合起來本身就是個大挑戰,導致多模模型需要身兼 GPT-3 和 DALL-E 2 的雙邊優勢,這顯然很不現實。所以,GPT-4 應該不會出現什麼花哨的新功能。

稀疏性

稀疏模型使用條件計算來降低計算成本。這類模型可以輕鬆擴展至超過 1 萬億參數,仍不會產生高昂的計算成本。稀疏模型能幫助我們用較低的資源訓練出大語言模型。

但 GPT-4 應該不會是稀疏模型。爲什麼?因爲 OpenAI 長期以來只研究密集語言模型,所以不太可能犧牲體積換取算力節約。

AI 對齊

考慮到 OpenAI 一直在努力解決 AI 對齊問題,所以 GPT-4 的表現應該會比 GPT-3 更好。OpenAI 希望語言模型能延伸我們的認知、堅守人類的價值觀,併爲此訓練出了 InstructGPT。作爲 GPT-3 的變體模型,其根據人類反饋接受了訓練以確保遵循指令。有專家認爲,該模型在多種語言基準上的表現均優於 GPT-3。

目前,GPT-4 的發佈日期仍未確定。所以我們可能要到明年才能見其真容,也可能在下個月就迎來驚喜。但唯一可以肯定的是,下個版本一定能解決舊版本的某些問題,並帶來更好的性能表現。

當然,目前已經出現了不少關於 GPT-4 且自相矛盾的傳聞。比如說它有 100 萬億個參數,而且專門用於生成編程代碼。但這些都是純猜測,沒有任何根據。我們不清楚的情況還有很多,畢竟 OpenAI 沒有公佈關於其發佈日期、模型架構、大小和訓練數據集的任何消息。

結束語

AI 模型開發領域,經歷了預訓練模型 - 大規模預訓練模型 - 超大規模預訓練模型的演進。Google 發佈的 Bert 模型即是自然語言處理領域最爲典型的預訓練模型。OpenAI 則提出了 GPT 模型,尤其是 2020 年發佈的 GPT-3 模型參數量達到 1750 億,其在全球掀起大模型的浪潮。

根據 IDC 觀察,國內大力投入大模型研發和落地的以大型雲廠商爲主。例如百度智能雲推出了“文心大模型”,包括了 NLP 大模型、CV 大模型以及跨模態大模型等 36 個大模型;阿里達摩院則推出“通義大模型”系列,以 M6 大模型爲底座,發佈 Alice 一系列模型合集;華爲則從框架層、算力層以及軟件層面全面發力大模型,既有內部自主研發的盤古大模型,也開放華爲昇思 MindSpore 框架支持業界進行大模型的訓練。

隨着市場對於大模型的認知逐漸理性和落地,使用大模型的價值也開始凸顯,如不要求企業具備海量的數據基礎、應用大模型的效果更優、降低 AI 開發門檻等。很多 AI 先行者已經在成熟度較高的場景中引入了大模型。

大模型爲人工智能未來發展帶來了全新的可能,未來將如何迸發出新的可能,我們拭目以待。

參考鏈接:

https://www.datacamp.com/blog/what-we-know-gpt4

https://the-decoder.com/microsoft-cto-scott-stein-predicts-most-exciting-2023-for-ai-with-gpt-4-on-the-horizon/

https://www.idc.com/getdoc.jsp?containerId=prCHC49424422

相關文章