打破摩爾定律，英偉達開掛推出新GPU，30倍加速，AI新一輪爆發來臨

就在剛剛，老黃又來打破摩爾定律了：英偉達新核彈B200，一塊能頂5個H100，30倍推理加速，能訓萬億參數大模型！同時推出的AI推理微服務NIM，號稱讓全世界用上AI。

就在剛剛結束的GTC人工智能大會上，英偉達的新一代性能巨獸Backwell誕生了！

Blackwell B200 GPU，是如今世界上最強大的AI芯片，旨在「普惠萬億參數的AI」。

本來，H100已經使英偉達成爲價值數萬億美元的公司，趕超了谷歌和亞馬遜，但現在，憑着Blackwell B200和GB200，英偉達的領先優勢還要繼續領先。

老黃表示——「H100很好，但我們需要更大的GPU」！

新的B200 GPU，從2080億個晶體管中能提供高達20 petaflops的FP4性能。（H100僅爲4 petaflops）

而將兩個B200與單個Grace CPU相結合的GB200，則可以爲LLM推理工作負載提供30倍的性能，同時大大提高效率。

比起H100，GB200的成本和能耗降低了25倍！

這種額外的處理能力，就能讓AI公司訓練更大、更復雜的模型，甚至可以部署一個27萬億參數的模型。

更大的參數，更多的數據，未來的AI模型，無疑會解鎖更多新功能，湧現出更多新的能力。

現在，老黃拿在手裏的，或許是100億美元。

Part1

新一代性能巨獸，深夜重磅登場

憑藉H100成爲全球市值第三大公司的英偉達，今天再次推出了性能野獸——Blackwell B200 GPU和GB200「超級芯片」。

它以著名數學家David Blackwell（1919-2010）命名。他一生中對博弈論、概率論做出了重要的貢獻。

老黃表示，「30年來，我們一直在追求加速計算，目標是實現深度學習和AI等變革性突破。生成式AI已然成爲我們這個時代的標誌性技術，而Blackwell將是推動這場新工業革命的引擎」。

「我們認爲這是個完美的博弈概率」。

全新B200 GPU擁有2080億個晶體管，採用臺積電4NP工藝節點，提供高達20 petaflops FP4的算力。

與H100相比，B200的晶體管數量是其（800億）2倍多。而單個H100最多提供4 petaflops算力，直接實現了5倍性能提升。

而GB200是將2個Blackwell GPU和1個Grace CPU結合在一起，能夠爲LLM推理工作負載提供30倍性能，同時還可以大大提高效率。

值得一提的是，與H100相比，它的成本和能耗「最多可降低25倍」。

過去，訓練一個1.8萬億參數的模型，需要8000個Hopper GPU和15MW的電力。

如今，2000個Blackwell GPU就能完成這項工作，耗電量僅爲4MW。

在GPT-3（1750億參數）大模型基準測試中，GB200的性能是H100的7倍，訓練速度是H100的4倍。

GB200由2個GPU、1個CPU、一個主板組成

全新芯片其中一個關鍵改進是，採用了第二代Transformer引擎。

對每個神經元使用4位（20 petaflops FP4）而不是8位，直接將算力、帶寬和模型參數規模提高了一倍。

與此同時，英偉達還推出了第五代NVLink網絡技術。

最新的NVLink迭代增強了數萬億參數AI模型的性能，提供了突破性的每GPU雙向吞吐量，促進了無縫高速通信。

這也就是第二個關鍵區別，只有當你連接大量這些GPU時纔會出現：新一代NVLink交換機可以讓576個GPU相互通信，雙向帶寬高達1.8TB/秒。

這就要求英偉達打造一個全新的網絡交換芯片，其中包含500億個晶體管和一些自己的板載計算：擁有3.6 teraflops FP8處理能力。

在此之前，由16個GPU組成的集羣，有60%的時間用於相互通信，只有40%的時間用於實際計算。

另外，Blackwell還配備了RAS引擎。

爲了確保可靠性、可用性和可維護性，Blackwell GPU集成了專用引擎和基於AI的預防性維護功能，以最大限度地延長系統正常運行時間並最大限度地降低運營成本。

老黃表示，「過去8年，計算規模擴展已經增加了1000倍」。

Part2

網友：新的摩爾定律誕生了！

網友們紛紛驚歎，Blackwell再一次改變了摩爾定律。

英偉達高級科學家Jim Fan表示：Blackwell，城裏的新野獸。

- DGX Grace-Blackwell GB200：單機架計算能力超過1 Exaflop。
- 從這個角度來看：老黃交付給OpenAI的第一臺DGX是0.17 Petaflops。
- GPT-4-1.8T參數在2000張Blackwell上可在90天內完成訓練。

新摩爾定律誕生了。

賈揚清回憶道，「我記得在Meta，當我們在一小時內（2017年）訓練ImageNet時，總計算量約爲1exaflop。這意味着有了新的DGX，理論上你可以在一秒鐘內訓練ImageNet」。

還有網友表示，「這簡直就是野獸，比H100強太多」。

另有網友戲稱，「老黃確認GPT-4是1.8萬億參數」。

所以，GB200的成本是多少呢？英偉達目前並沒有公佈。

此前據分析師估計，英偉達基於Hopper的H100芯片，每顆的成本在25,000美元到40,000美元之間，整個系統的成本高達200,000美元。

而GB200的成本，只可能更高。

Part3

新超算可訓萬億參數大模型

當然，有了Blackwell超級芯片，當然還會有Blackwell組成的DGX超算。

這樣，公司就會大量購入這些GPU，並將它們封裝在更大的設計中。

GB200 NVL72是將36個Grace CPU和72個Blackwell GPU集成到一個液冷機櫃中，可實現總計720 petaflops的AI訓練性能，或是1,440 petaflops（1.4 exaflops）的推理性能。

它內部共有5000條獨立電纜，長度近兩英里。

它的背面效果如下圖所示。

機櫃中的每個機架包含兩個GB200芯片，或兩個NVLink交換機。一共有18個GB200芯片托盤，9個NVLink交換機托盤有。

老黃現場表示，「一個GB200 NVL72機櫃可以訓練27萬億參數的模型」。

此前傳言稱，GPT-4的參數規模達1.8萬億，相當於能訓練近15個這樣的模型。

與H100相比，對於大模型推理工作負載，GB200超級芯片提供高達30倍的性能提升。

那麼，由8個系統組合在一起的就是DGX GB200。

總共有288個Grace CPU、576個Blackwell GPU、240 TB內存和11.5 exaflop FP4計算。

這一系統可以擴展到數萬個GB200超級芯片，通過Quantum-X800 InfiniBand（最多144個連接）或Spectrum-X800ethernet（最多64個連接）與800Gbps網絡連接在一起。

配備DGX GB200系統的全新DGX SuperPod採用統一的計算架構。

除了第五代NVIDIA NVLink，該架構還包括NVIDIA Bluefield-3 DPU，並將支持Quantum-X800 InfiniBand網絡。

這種架構可以爲平臺中的每個GPU提供高達每秒1,800 GB的帶寬。

除此之外，英偉達還發布了統一的超算平臺DGX B200，用於AI模型訓練、微調和推理。

它包括8個Blackwell GPU和2個第五代Intel Xeon處理器，包含FP4精度功能，提供高達144 petaflops的AI性能、1.4TB的GPU內存和64TB/s的內存帶寬。

這使得萬億參數模型的實時推理速度，比上一代產品提高了15倍。

用戶還可以使用DGX B200系統構建DGX SuperPOD，創建人工智能卓越中心，爲運行多種不同工作的大型開發團隊提供動力。

目前，亞馬遜、谷歌、微軟已經成爲最新芯片超算的首批用戶。

亞馬遜網絡服務，將建立一個擁有20,000 GB200芯片的服務器集羣。

Part4

「不只是一個芯片，更是一個平臺」

自從ChatGPT於2022年底掀起AI熱潮以來，英偉達的股價已經上漲了五倍之多，總銷售額增長了兩倍多。

因爲英偉達的GPU對於訓練和部署大型AI模型至關重要，微軟、Meta等大公司都已紛紛豪擲數十億購買。

如今各大公司和軟件製造商還在爭先恐後地搶購Hopper H100等芯片呢，GB200就已經出了。

老黃表示，Blackwell不是一個芯片，而是一個平臺的名稱。

從此，英偉達不再是芯片供應商，而更像是微軟、蘋果這樣的平臺提供商，可以讓其他公司在平臺上構建軟件。

英偉達副總裁Manuvir Das表示，GPU是可銷售的商業產品，而軟件，是爲了幫人們用不同的方式使用GPU。

雖然英偉達現在仍然售賣GPU，但真正不同的是，英偉達現在有了商業軟件業務。

新軟件NIM，代表着英偉達的推理微服務。

NIM使得在英偉達的任何GPU上運行程序都變得更容易，即使是可能更適合部署但不適合構建AI的舊GPU。

也就是說，假如一名開發者有一個有趣的模型，希望向人們推廣，就可以把它放到NIM中。英偉達會確保它可以在所有的GPU上運行，這樣模型的受衆就大大擴展了。

NIM使得部署AI變得更容易，這就更加增加了客戶使用英偉達芯片的粘性。

並且，與新AI模型的初始訓練相比，NIM的推理需要更少的算力。

這樣，想要運行自己AI模型的公司，就能運行自己的AI模型，而不是從OpenAI等公司購買對AI結果的訪問權。

需要購買基於英偉達服務器的客戶，需要註冊Nvidia企業版，每個GPU每年需要花費4,500美元。

英偉達將與微軟或Hugging Face等人工智能公司合作，確保他們的人工智能模型經過調整，可以在所有兼容的英偉達芯片上運行。

然後，使用NIM，開發者可以在自己的服務器或基於雲的英偉達服務器上，高效運行模型，而無需冗長的配置過程。

Das介紹說，在自己調用OpenAI的代碼中，他只替換了一行代碼，就指向了NIM。

另外，NIM軟件還將幫助AI在配備GPU的筆記本電腦上運行，而不是在雲端的服務器上。

NIM支持跨多個領域的AI用例，包括LLMs、視覺語言模型（VLM）以及用於語音、圖像、視頻、3D、藥物發現、醫學成像等的模型。

AI API就是未來的軟件。在未來，所有LLM都可以從雲端獲取，從雲上下載，運行它的工作站。

Part5

終極生成式AI模型

而現在，整個行業都已經爲Blackwell準備好了。

2012年，將一隻小貓的圖片輸入，AlexNet識別後輸出「cat」，讓世界所有人爲之震驚，並高呼這改變了一切。

而現在從三個字「cat」輸出10 million 像素成爲了可能。僅用了10年時間，我們就可以識別文本、圖像、視頻。

萬物都皆可數字化。

網友表示，老黃向我們展示了GenAI的終極遊戲：多模態輸入——多模態輸出。

「這是我們總有一天都會使用的最終模型。它可以獲取任何模態並生成任何模態。同時，它還能在沒有每個部件的情況下工作」。

數字化的目的是讓所有的目標都能成爲機器學習的目標，從而讓它們都能被AI生成。

比如，數字孿生地球，可以很好地幫助我們瞭解全球氣象氣候的變化。

將基因、蛋白質、氨基酸數字化，可以讓人類去理解生命的力量。

在大會接近尾聲時，活動迎來了一個小高潮：WALL-E機器人也登臺表演了。

而生成式AI的未來應用不僅於此。

現在，有了世界最強的處理器Blackwell，新一輪技術革命即將開啓。

文章原標題：

《老黃祭出新核彈B200！

30倍H100單機可訓15個GPT-4模型，

AI迎新摩爾時代》

打破摩爾定律，英偉達開掛推出新GPU，30倍加速，AI新一輪爆發來臨

熱門新聞

週熱門

打破摩爾定律，英偉達開掛推出新GPU，30倍加速，AI新一輪爆發來臨

網約車巨頭激戰正酣，高德強化出租車業務：AI動態調價破解價格難題

市場趨勢建議AI加密的切入點-Fetch.AI，Render

摩根大通：臺積電的技術突破，AI時代的關鍵引擎

VeChain：已知曉基礎設施升級引發的X節點獎勵餘額問題

VeChain：X-Node獎勵餘額問題正在調查修復中，解決後將發佈通知

英偉達股價飆升引發AIAltcoin猜測

比特幣減半後的崛起：拉布如何在Meme幣競賽中淘汰Pepe和ShibaInu

繫好安全帶！美銀拉響警報：這種情境可能會戳破“AI泡沫”……

ShibaInu的硬分叉：改變SHIB未來的遊戲規則？

34年來最低，領跌亞洲貨幣！日元的極速貶值還將持續多久？

拒絕必和必拓千億收購，英美資源股價上漲

外匯戰報：美元新高，日元告急，加元穩如泰山！本週市場深度解析

瘋了！銅價一舉破萬

市場 | 睽違四個月再度開 燁聯304系不鏽鋼每噸漲4000元新臺幣

石油巨頭們的“印鈔機”歇了

熱門新聞

週熱門

市場 | 睽違四個月再度開燁聯304系不鏽鋼每噸漲4000元新臺幣