炫富的GPT-3來了：45TB數據，1750億個參數，還會三位數加減法

魚羊發自凹非寺

量子位報道 | 公衆號 QbitAI

那個語言模型又迭代了，現在有1750億個參數。

這個讓英偉達狂喜，讓調參師流淚的數字來自OpenAI，史上最大AI語言模型——

GPT-3。

單單論文就有72頁。

OpenAI表示，通過GPT-3，他們證明了無需梯度更新，無需微調，規模更大的語言模型就可以大大改善無關任務和小樣本（few-shot）學習的性能，達到最先進微調方法的水準。

在部分任務中，甚至超越了最先進微調方法。

不僅如此，這個語言模型，還能做加減法。

GPT-3是什麼

不妨先來看看GPT-3的實際表現。

比如，先告訴GPT-3這樣一個示例：

“whatpu”是坦桑尼亞的一種小型、毛茸茸的動物。一個使用whatpu造句的例子是：我們在非洲旅行時，看到了非常可愛的whatpu。

此後不再給GPT-3任何特定任務提示，就向它拋出問題：

“Burringo”是指加速度非常快的汽車。一個使用Burringo造句的例子是：

GPT-3造出的句子是這樣的：

在我們的車庫裏有一輛Burringo，我爸天天開着它上下班。

至於編故事的能力，在500個詞的情況下，人類判斷出其爲AI生成的概率僅爲52%。在最佳案例中，判斷準確率甚至降到了12%。

能自己編故事、糾正英語語法，甚至，GPT-3還學會了3位數基本運算。

表中，D{+,-}表示2、3、4、5位數加法或減法，2Dx代表2位數乘法，1DC代表1位數複合運算。

無需微調

前文也說到了，達到這樣的效果，不需要梯度更新，不需要微調。只需要指定任務、展示少量演示，來與模型文本交互，就能使其完成任務。

這樣一來，一方面，對於新任務，就不需要重新收集大量帶標籤的數據。

另一方面，可以避免微調階段出現過擬合，導致模型泛化能力下降的問題。

而實現的關鍵，總結起來就是：大力出奇跡。

不僅模型尺寸增大到了1750億，數據量也達到了45TB。V100嘛，是“微軟提供的高帶寬羣集中的V100 GPU”。

研究人員將預訓練模型在三種不同的設置下進行了探索。

本文的重點放在零樣本、單樣本和小樣本學習上。研究人員沒有對GPT-3進行微調，不過，論文談到，原則上是可以微調GPT-3的。

模型與架構

具體到模型與架構，研究人員採用了與GPT-2相同的模型和架構，不過，在tranformer各層中使用了交替稠密（alternating dense）和局部帶狀稀疏注意力（locally banded sparse attention）模式，類似於Spare Transformer。

GPT-3的影響

知乎問題「如何評價1700億參數的GPT-3」的標籤，已經透露出玄機。

知乎用戶CloudySky就說，看了GPT-3，再看看自己 i9+2080ti+2TB 硬盤的臺式，想想有空還是打開steam，趁打折多買幾個3A大作比較合適。

他還發出了靈魂一問：

有見過人用竄天猴去調試火箭發射井嘛？

復旦邱錫鵬教授則認爲，Pretrain+finetune仍然會是未來幾年的主流。

雖然如此恐怖的計算成本讓人有些望而卻步，但EECVC聯合創始人Dmytro Mishkin認爲：

按10年前的標準，ResNet50的計算代價也是令人望而卻步的，但事實證明它們的存在是必要的。

也有網友表示：

GPT-3可能還是無法幫助OpenAI盈利，也無法直接上線顯著造福網民，但是從中積累的大模型訓練經驗是OpenAI及其背後的微軟Azure一筆巨大的財富。這就像，人類登上火星/月球可能並不能帶來直接的資源收益，但是從中積累的科學技術卻可以推動人類社會的發展。

做NLP，雖然有了資源不一定行，但是沒有資源現在肯定是不行了。

不管怎麼說，看到這GPU熊熊燃燒的場面，想必老黃已經樂開了花。

目前，GPT-3尚未開源，可以期待一下，OpenAI這回會擠多久牙膏了。

— 完 —

炫富的GPT-3來了：45TB數據，1750億個參數，還會三位數加減法

熱門新聞

週熱門

炫富的GPT-3來了：45TB數據，1750億個參數，還會三位數加減法

馬斯克旗下SpaceX獲NASA批准，可用“二手”火箭和飛船載人航天

不作惡！IBM宣佈放棄人臉識別業務，關停技術研發

AI博士畢業，多少年薪纔不虧？中美最高200萬，日本還沒公務員掙得多

依圖創始人朱瓏《人民日報》刊文：未來10年是AI算力的“超摩爾時代”

支付寶成立數據庫獨立公司OceanBase，胡曉明任董事長

禿如其來的希望！Nature：多能幹細胞形成近乎完整皮膚結構，長出毛髮

Google人體圖像分割模型Bodypix再次更新，針對Coral開發板優化，720p/30fps流暢運行

馬斯克SpaceX內部信曝光：戒驕戒躁，我們的首要任務是星際飛船

純文本輸入，就能繪製精美數學圖表：CMU繪圖工具登GitHub熱榜

一邊動，一邊畫，自己就變二次元：實時交互式視頻風格化

李開復：單憑AI科學家顛覆行業的機會幾乎不存在，這個領域除外

清華大四本科生2篇一作論文入選ICML 2020，後浪果然翻湧

自然雜誌：光解水催化劑效率接近100％！馬斯克移民火星計劃有新招了

馬斯克的龍飛船成功對接國際空間站！剛好過境中國上空，還發生了小“事故”

小學生如何主動學會使用思維工具？方法其實很簡單

熱門新聞

週熱門