Blackwell 架構大揭祕!對話英偉達技術高管 + 22 頁技術報告解讀。

作者 |  ZeR0

編輯 |  漠影

當今全世界身價最高的兩位華人,一位賣鏟,一位賣水。

第一名是英偉達創始人兼 CEO 黃仁勳,靠給 AI 淘金者們賣 GPU,把英偉達推上全球市值第三的寶座;另一位是農夫山泉創始人、董事長兼總經理鍾睒睒,憑“大自然的搬運工”笑傲飲用水江湖。

當前,英偉達市值已經穩坐 2 萬億美元大關,與蘋果的市值差距縮小到 0.3 萬億美元。

在本週英偉達 GTC 大會上,黃仁勳一本正經地說:“我們可以附帶着賣熱水。”

這可不是句玩笑話,黃仁勳是有數據依據的:英偉達 DGX 新機的液冷散熱,液體入口溫度是 25℃,接近室溫;出口溫度升高到 45℃,接近按摩浴缸的水溫,流速是 2L / s。

當然了,比起賣水,GPU 算力纔是英偉達手裏的印鈔機

人稱“皮衣刀客”的黃仁勳,一貫具有極強的危機感和風險意識,永遠在提前爲未來鋪路。再加上芯片行業是一個高風險高成本低容錯的行業,一步走錯,可能就會跌落神壇,滿盤皆輸。所以在 AI 算力需求空前爆發、一衆強敵虎視眈眈的關鍵時刻,英偉達不敢在新品上有絲毫懈怠,必然會在短期內打出最大爆發,讓對手們望塵莫及。

當競爭對手們還在以追趕英偉達旗艦 GPU 爲目標時,黃仁勳已經站在 next Level,捕捉到數據中心客戶需求的痛點 —— 單芯不頂事,真正頂事的是解決系統級性能和能效提升的挑戰。

拿單個旗艦 GPU 比,英偉達的芯片確實配得上“核彈”稱號,性能猛,功耗也高。但黃仁勳厲害在早就跳出芯片本身,不斷向數據中心客戶灌輸“買得越多 省得越多”的理念,簡而言之買英偉達的 AI 系統方案比其他方案更快更省錢。

從 Blackwell 架構設計到 AI 基礎設施的技術佈局,都能反映黃仁勳對未來市場需求和行業趨勢的前瞻性判斷:

1、摩爾定律帶動性能提升越來越捉襟見肘,單 die 面積和晶體管快到極限,後續芯片迭代必須包括高帶寬內存、Chiplet 先進封裝、片內互聯等技術的創新組合。再加上片外互連等高性能通信的優化,共同構成了英偉達打造出專爲萬億參數級生成式 AI 設計的系統的基礎。

2、未來,數據中心將被視爲 AI 工廠,在整個生命週期裏,AI 工廠的目標是產生收益。不同於消費級市場單賣顯卡,數據中心市場是個系統級生意,單芯片峯值性能參考價值不大,把很多 GPU 組合成一個“巨型 GPU”,使其在完成同等計算任務時耗費更少的卡、時間和電力,對客戶才能帶來更大的吸引力。

3、AI 模型的規模和數據量將持續增長:未來會用多模態數據來訓練更大的模型;世界模型將大行其道,學習掌握現實世界的物理規律和常識;藉助合成數據生成技術,AI 甚至能模仿人類的學習方式,聯想、思考、彼此相互訓練。英偉達的目標是不斷降低與計算相關的成本和能耗。

4、高性能推理或生成將至關重要。雲端運行的英偉達 GPU 可能有一半時間都被用於 token 生成,運行大量的生成式 AI 任務。這既需要提高吞吐量,以降低服務成本,又要提高交互速度以提高用戶體驗,一個 GPU 難以勝任,因此必須找到一種能在許多 GPU 上並行處理模型工作的方法。

01.最強 AI 芯片規格詳解:最大功耗 2700W,CUDA 配置成謎

本週二,英偉達發佈新一代 Blackwell GPU 架構,不僅刻意弱化了單芯片的存在感,而且沒有明確 GPU 的代號,而是隱晦地稱作“Blackwell GPU”。這使得被公認遙遙領先的 Blackwell 架構多少籠上了一抹神祕色彩。

在 GTC 大會現場,英偉達副總裁 Ian Buck 和高級副總裁 Jonah Alben 向智東西 & 芯東西等全球媒體進一步分享了關於 Blackwell 架構設計的背後思考。結合 22 頁英偉達 Blackwell 架構技術簡報,關於 GB200 超級芯片、HGX B200 / B100、DGX 超級計算機等的配置細節被進一步披露。

根據現有信息,全新 Blackwell GPU 沒有采用最先進的 3nm 製程工藝,而是繼續沿用 4nm 的定製增強版工藝臺積電 4NP,已知的芯片款式有 3 類 ——B100、B200、GB200 超級芯片

B100 不是新發布的主角,僅在 HGX B100 板卡中被提及。B200 是重頭戲,GB200 又進一步把 B200 和 1 顆 72 核 Grace CPU 拼在一起。

B200 有 2080 億顆晶體管,超過 H100(800 億顆晶體管)數量的兩倍。英偉達沒透露單個 Blackwell GPU die 的具體大小,只說是在 reticle 大小尺寸限制內。上一代單 die 面積爲 814mm²。由於不知道具體數字,不好計算 B200 在單位面積性能上的改進幅度。

英偉達通過 NV-HBI 高帶寬接口,以 10TB/s 雙向帶寬將兩個 GPU die 互聯封裝,讓 B200 能像單芯片一樣運行,不會因爲通信損耗而損失性能,沒有內存局部性問題,也沒有緩存問題,能支持更高的 L2 緩存帶寬。但英偉達並沒有透露它具體採用了怎樣的芯片封裝策略。

前代 GH200 超級芯片是把 1 個 H100 和 1 個 Grace CPU 組合。而 GB200 超級芯片將 2 個 Blackwell GPU 和 CPU 組合,每個 GPU 的滿配 TDP 達到 1200W,使得整個超級芯片的 TDP 達到 2700W(1200W x 2+300W)。

值得關注的是,Blackwell 架構技術簡報僅披露了 Tensor 核心數據,對 CUDA 核心數、Tensor 核心數、向量算力等信息隻字未提。除了 FP64 是稠密,其他數據格式都顯示了稀疏算力。

相比之下,標準 FP64 Tensor 核心計算性能提升幅度不大,H100 和 H200 是 67TFLOPS,GB200 超級芯片是 90TFLOPS,比上一代提高 34%。

一種可能的推測是 Blackwell 架構的設計全面偏向 AI 計算,對高性能計算的提升不明顯。如果晶體管都用於堆 Tensor 核心,它的通用能力會變弱,更像個偏科的 AI NPU。

由於採用相同的基礎設施設計,從 Hopper 換用 Blackwell 主板就像推拉抽屜一樣方便。

技術簡報披露了 Blackwell x86 平臺 HGX B100、HGX B200 的系統配置。HGX B200 搭載 8 個 B200,每個 GPU 的 TDP 爲 1000W;HGX B100 搭載 8 個 B100,每個 GPU 的 TDP 爲 700W

在數據中心 Blackwell GPU 發佈後,業界關注焦點移向同樣基於 Blackwell 架構的遊戲顯卡 RTX 50 系列。目前距離 RTX 50 系列 GPU 的發佈日期還很遙遠,最快也得到今年年底,慢點可能要到明年甚至是後年。

不過現在已經有很多關於配置的傳言,比如採用臺積電 3nm 和 28Gbps GDDR 7 顯存、最大總線寬度有 384bit 和 512bit 兩種說法,芯片包括從入門級 GB207 到高端級 GB202,會繼續優化路徑追蹤、光線追蹤。

02.8 年 AI 訓練算力提升 1000 倍,英偉達是怎麼做到的?

從 2016 年 Pascal GPU 的 19TFLOPS,到今年 Blackwell GPU 的 20PFLOPS,黃仁勳宣佈英偉達用 8 年將單卡 AI 訓練性能提升了 1000 倍

這個聽起來令人心潮澎湃的倍數,除了得益於製程工藝迭代、更大的 HBM 容量和帶寬、雙 die 設計外,數據精度的降低起到關鍵作用。

多數訓練是在 FP16 精度下進行,但實際上不需要用這麼高的精度去處理所有參數。英偉達一直在探索怎麼通過混合精度操作來在降低內存佔用的同時確保吞吐量不受影響。

Blackwell GPU 內置的第二代 Transformer 引擎,利用先進的動態範圍管理算法和細粒度縮放技術(微型 tensor 縮放)來優化性能和精度,並首度支持 FP4 新格式,使得 FP4 Tensor 核性能、HBM 模型規模和帶寬都實現翻倍。

同時 TensorRT-LLM 的創新包括量化到 4bit 精度、具有專家並行映射的定製化內核,能讓 MoE 模型實時推理使用耗費硬件、能量、成本。NeMo 框架、Megatron-Core 新型專家並行技術等都也爲模型訓練性能的提升提供了支持。

降精度的難點是兼顧用戶對準確率的需求。FP4 並不在什麼時候都有效,英偉達專門強調的是對混合專家模型和大語言模型帶來的好處。把精度降到 FP4 可能會有困惑度增加的問題,英偉達還貼心地加了個過渡的 FP6,這個新格式雖然沒什麼性能優勢,但處理數據量比 FP8 減少 25%,能緩解內存壓力。

03.90 天 2000 塊 GPU 訓練 1.8 萬億參數模型,打破通信瓶頸是關鍵

和消費級顯卡策略不同,面向數據中心,黃仁勳並不打算通過賣一顆兩顆顯卡來賺取蠅頭小利,而是走“堆料”路線來幫客戶省錢。

無論是大幅提高性能,還是節省機架空間、降低電力成本,都對在 AI 大模型競賽中爭分奪秒的企業們相當有吸引力。

黃仁勳舉的例子是訓練 1.8 萬億參數的 GPT-MoE 混合專家模型:

用 25000 個 Ampere GPU,需要 3~5 個月左右;要是用 Hopper,需要約 8000 個 GPU、90 天來訓練,耗電 15MW;而用 Blackwell,同樣花 90 天,只需 2000 個 GPU,耗電僅 4MW

省錢與省電成正比,提高能效的關鍵是減少通信損耗。據 Ian Buck 和 Jonah Alben 分享,在 GPU 集羣上運行龐大的 GPT-MoE 模型,有 60% 的時間都花在通信上。

Ian Buck 解釋說,這不光是計算問題,還是 I / O 問題,混合專家模型帶來更多並行層和通信層。它將模型分解成一羣擅長不同任務的專家,誰擅長什麼,就將相應訓練和推理任務分配給誰。

所以實現更快的 NVLink Switch 互連技術非常重要。所有 GPU 必須共享計算過程中的結果,在 DGX GB200 NVL72 機架中,多節點 All-to-All 通信、all-Reduce 的通信速度都較過去暴漲。

全新 NVLink Switch 芯片總帶寬達到 7.2TB / s,支持 GPU 縱向擴展,能驅動 4 個 1.8TB / s 的 NVLink 端口。而 PCIe 9.0 x16 插槽預計要到 2032 年才能提供 2TB / s 的帶寬。

從單卡來看,相比 H100,Blackwell GPU 的訓練性能僅提高到 2.5 倍,即便按新添的 FP4 精度算,推理性能也只提高到 5 倍。

但如果從系統性能來看,相比上一代 Hopper 集羣,Blackwell 可將 1.8 萬億參數的 GPT-MoE 推理性能提高到 30 倍。

藍色曲線代表 H200,紫紅色曲線代表 B200,從藍到紫只涉及從 Hopper 單芯設計到 Blackwell 雙芯設計的芯片升級。加上全新 FP4、Tensor 核心、Transformer 引擎、NVLink Switch 等技術,性能漲到如綠色曲線代表的 GB200 所示。

下圖中 Y 軸是每 GPU 每秒 token 數,代表數據中心吞吐量;X 軸是每用戶每秒 token 數,代表用戶的交互體驗,越靠近右上方的數據代表兩種能力都很強。綠色曲線是峯值性能線。

爲了找出 GPT-MoE 訓練的正確並行配置,英偉達做了大量實驗(得到圖中的藍點),以探索創建硬件和切割模型的正確方法,使其儘可能實現高效運行。其探索包括一些軟件重分塊、優化策略判斷,並將大模型分佈在不同的 GPU 中來滿足性能需求。

左側 TP2 代表 2 個 GPU 的 Tensor 並行,EP8 代表跨 8 個 GPU 的專家並行,DP4 代表跨 4 個 GPU 的數據並行。右側有 TP4,跨 4 個 GPU 的 Tensor 並行、跨 16 個 GPU 的專家並行。軟件層面不同的配置和分佈式策略會導致運行時產生不同結果。

黃仁勳還從通信耗材的角度來說明 Blackwell DGX 系統能夠更省電省錢。

他解釋說在 DGX 背面 NVLink 主幹數據以 130TB / s 雙向帶寬通過機箱背面,比互聯網總帶寬還高,基本上 1 秒鐘內能將所有內容發送給每個人,裏面有 5000 根 NVLink 銅纜、總長度 2 英里

如果用光傳輸,就必須使用光模塊和 retimer,這倆器件要耗電 20kW,僅是光模塊就要耗電 2kW。只是爲了驅動 NVLink 主幹,英偉達通過 NVLink Switch 不耗電就能做到,還能節省 20kW 用於計算(整個機架功耗爲 120kW)。

04.集結高速通信能力,在單機架上打造 E 級算力 AI 超級計算機

更快的網絡,帶來了更強大的計算效率。

DGX GB200 NVL72 採用液冷機架式設計,顧名思義,通過第五代 NVLink 以 1.8TB / s 通信速度將 72 個 GPU 互連。一個機架最多有高達 130TB / s 的 GPU 帶寬、30TB 內存,訓練算力接近 E 級、推理算力超過 E 級。

相較相同數量 H100 GPU 的系統,GB200 NVL72 爲 GPT-MoE-1.8T 等大語言模型提供 4 倍的訓練性能。在 GB200 NVL72 中用 32 個 Blackwell GPU 運行 GPT-MoE-1.8T,速度是 64 個 Hopper GPU 的 30 倍。

黃仁勳說,這是世界上第一臺單機架 EFLOPS 級機器,整個地球也不過兩三臺 E 級機器。

對比之下,8 年前,他交給 OpenAI 的第一臺 DGX-1,訓練算力只有 0.17PFLOPS。

H100 搭配的第四代 NVLink 總帶寬是 900GB/s,第五代則翻倍提升到 1.8TB / s,是 PCle 5 帶寬的 14 倍以上。每個 GPU 的 NVLink 數量沒變,都是 18 個鏈路。CPU 與 B200 間的通信速度是 300GB/s,比 PCIe 6.0 x16 插槽的 256GB/s更快。

GB200 NVL72 需要強大的網絡來實現最佳性能,用到了英偉達 Quantum-X800 InfiniBand、Spectrum-X800 以太網、BlueField-3 DPU 和 Magnum IO 軟件。

兩年前,黃仁勳看到的 GPU 是 HGX,重 70 磅,有 35000 個零件;現在 GPU 有 60 萬個零件,重 3000 磅,“應該沒有一頭大象沉”,“重量跟一輛碳纖維法拉利差不多”。

第五代 NVLink 把 GPU 的可擴展數量提高到 576 個。英偉達還推出一些 AI 安全功能來確保數據中心 GPU 的最大正常運行時間。8 個 GB200 NVL72 機架可組成 1 個 SuperPOD,與 800Gb / s InfiniBand 或以太網互連,或者可以創建一個將 576 個 GPU 互連的大型共享內存系統。

據 Ian Buck 透露,目前最大配置的 576 個 GPU 互連主要是用於研究,而不是生產。

05.結語:八年伏脈,一朝登頂

從打造垂直生態的角度來看,英偉達越來越像芯片和 AI 計算領域的蘋果,在研發、工程和生態方面都展現出強大而全面的統治力。

就像蘋果用 App Store 牢牢粘住開發者和消費者一樣,英偉達已經打造了完備的芯片、系統、網絡、安全以及各種開發者所需的軟件,用最好的軟硬件組合不斷降低在 GPU 上加速 AI 計算的門檻,讓自己始終處於企業及開發者的首選之列。

在數據中心,看單個芯片峯值性能沒什麼意義,很多芯片連在一起實現的實質性算力改進,纔有直接參考性。所以黃仁勳要賣“系統”,是一步跨到數據中心客戶算力需求的終點。

相比上一代 Hopper,Blackwell GPU 的主要優化沒有依賴製程工藝技術的提升,而是更先進的內存、更快的片內互聯速度,並通過升級片間互連、多機互連的速度以及可擴展性、管理軟件,消除大量數據處理導致的通信瓶頸,從而將大量 GPU 連成一個更具成本效益的強大系統。

草蛇灰線,伏脈千里。將芯片、存儲、網絡、軟件等各環節協同的系統設計之路,英偉達早在 8 年前就在探索。2016 年 4 月,黃仁勳親手將第一臺內置 8 個 P100 GPU 的超級計算機 DGX-1 贈予 OpenAI 團隊。之後隨着 GPU 和互連技術的更新換代,DGX 也會隨之升級,系統性能與日俱增。

數據中心 AI 芯片是當前硅谷最熱門的硬件產品。而英偉達是這個行業的規則制定者,也是離生成式 AI 客戶需求最近的企業,其對下一代芯片架構的設計與銷售策略具有行業風向標的作用。通過實現讓數百萬個 GPU 共同執行計算任務並最大限度提高能效的基礎創新,黃仁勳反覆強調的“買得越多 省得越多”已經越來越具有說服力。

本文來自微信公衆號:芯東西 (ID:aichip001),作者:ZeR0

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章