在3.18-3.21英偉達GTC大會上,英偉達CEO黃仁勳得到了流行明星式的追捧與崇拜。

GTC的第一天,黃仁勳如約發佈了新一代Blackwell架構的芯片B200。與目前訓練AI最強芯片H100相比,B200的訓練性能提升4倍,推理性能提升30倍,售價在3-4萬美元之間。在AI大模型的戰場上,賣AI芯片的英偉達是最大的軍火商,現在B200無疑是火力更猛的炮彈。

英偉達的芯片之路起起伏伏:靠遊戲顯卡打下最初的地盤,2007年進軍移動芯片效果不佳,2016年以來擁抱加密貨幣、擁抱元宇宙,憑藉加密貨幣的牛市,英偉達在2016-2018年市值攀升十倍,但也隨着加密貨幣的寒冬而股價跳水。

2022年的秋天,美國芯片管制,挖礦時代終結。當英偉達當年11月財報顯示顯卡營收下滑、股價同比下跌近半時,沒人能預料到,2022年11月底ChatGPT一聲炮響,不僅引領了生成式AI的新浪潮,讓全世界都認識了OpenAI,更是把軍火商英偉達送上了神壇。

但黃仁勳自己預料到了,也一直在準備AI的爆發——2022年3月英偉達發佈了H100芯片,距離OpenAI發佈ChatGPT還有大半年,H100就專門針對AI大模型訓練做了優化。

ChatGPT發佈以來,英偉達股價一路上升。截至3月22日美股收盤,英偉達的市值已經超過了2.35萬億美元,排名全球上市公司市值第三,距離2.66萬億美元的蘋果只有一步之遙。

但英偉達的AI芯片帝國並非牢不可破。英偉達GPU原本就不是專門爲了AI訓練而設計,而是在通用的圖片處理器上疊加各種爲AI訓練適配的性能,相比之下,Groq的LPU、谷歌的TPU從底層設計上都更加AI專用化。

英偉達B200發佈後,Groq團隊(前谷歌TPU團隊核心成員創立)在社交平臺X上表示,自家的LPU芯片更快、功耗也更低;谷歌的TPU算力服務提供給了OpenAI的有力對手Anthropic;每年在數據中心上花費超500億美元的微軟,在聯合AMD研發Maia 100 人工智能芯片;軟銀集團孫正義在撒錢造芯;3月21日三星宣佈將在 2025 年初推出自己的人工智能加速器芯片。

但英偉達有自己的護城河——CUDA軟硬件協同技術。GPU的並行計算能適用於大語言模型的多維張量計算,程序員寫的代碼本來只能運行在CPU上,但通過CUDA的程序接口,能運行在GPU上。CUDA發佈於2006年,早期只有CUDA提供了對並行計算的支持,通過規模效應,CUDA已經成爲行業標準。

就在GTC大會之前,英偉達試圖禁止第三方公司兼容CUDA。這就像蘋果的iOS系統一樣,是英偉達最核心的護城河。

3月20日,就在英偉達GTC大會期間,美國商務部宣佈向英特爾提供195億美元激勵,包括85億美元資助和110億美元貸款擔保,美國政府想通過鉅額補貼將近幾十年來遷往亞洲的芯片產業引回美國。中國商務部發言人則在3月21號表示,中國歡迎全球半導體企業來華投資合作,共促產業鏈穩定。

儘管英偉達目前憑藉GPU+NVlink+CUDA壟斷了AI算力90%的市場,但在新的AI芯片公司想要彎道超車、變化詭譎的時局之下,英偉達還能保持自己的壟斷嗎?

先天缺陷、後天改良超車的GPU

AI芯片有多個技術路徑。廣義上講,只要能運行人工智能算法的芯片都叫做AI芯片,但針對AI做了特殊加速設計的專用芯片效果會更好。

GPU原本是用做圖形處理,不是專用於人工智能場景,從這點上看GPU是有先天缺陷的。但GPU因其並行計算的特點,適用於大語言模型的多維張量計算,一步步走上了爲了AI而改造之路

英偉達的改良方案很能擔當起後來“核彈工廠”的稱號:一方面堆砌算力、堆料。芯片的晶圓面積越做越大,從1997年的90平方mm到2015年之後的超過600平方mm。

英偉達也一直擅長多卡互聯,通過兩張或更多顯卡互聯工作的方式,以實現翻倍甚至是數倍於單張顯卡的性能輸出。最新Blackwell架構的B200芯片也是如此,它並不是傳統意義上的單一GPU,而是由兩個緊密耦合的芯片組成。在NVLink Switch高速互聯技術支持下,英偉達“大力出奇跡”地將72塊B200連接在一起,最終成爲“新一代計算單元”GB200 NVL72,“批發打包”成數據中心來賣卡。

另一方面,通過“改良式創新”,來逐步解決GPU跟人工智能場景的不匹配問題。這些問題包括但不限於功耗、內存牆、帶寬瓶頸、低精度計算、高速連接、特定模型優化……從2012年開始,英偉達加快了架構更新的速度,加上了各種針對AI訓練的優化,如矩陣計算(Tensor Core 4.0)、提高精度、Transformer加速引擎等。

而且,英偉達一直在追趕時代浪潮,擁抱加密貨幣、擁抱元宇宙、擁抱AI,既追求提高算力、軟硬件協同的長期主義,也追求在每一次浪潮中找準盈利點。據36Kr報道,2018 年,英偉達 CFO 公開披露了自己依靠銷售“礦卡”賺錢的事實,黃仁勳則更是在發言中透露出了自己對“挖礦”的興趣,“英偉達實際上對用戶購買 GPU 的用途有所把控,我們必須留意它(用戶買顯卡來挖礦)的存在,並保證充足的庫存來應對”。

據遠川研究所報道,在生成式AI熱潮之前,英偉達的毛利率常年維持在65%上下,而淨利率通常只有30%。而今年Q2受高毛利的A100/A800/H100的拉動,毛利率站上70%,淨利率更是高達45.81%。

專爲AI而生的芯片:TPU和LPU

相比之下,谷歌的TPU和Groq的LPU都更加專爲AI而生

谷歌研發AI芯片其實比英偉達更早。2016年Google憑藉AlphaGo戰勝圍棋冠軍而驚豔世界,隨後推出自研的專爲AI而生的芯片TPU(Tensor Processing Unit),中文名叫做“張量處理單元”——“張量”即神經網絡的基本單元,從芯片結構上就專爲AI大模型訓練設計。如果說英偉達對GPU的“魔改”是拆了東牆補西牆,那麼TPU便是通過從根本上大幅降低存儲和連接的需求,將芯片空間最大程度讓渡給了計算。

TPU 的主要任務是矩陣處理,矩陣是乘法和累加運算的組合。神經網絡運算需要進行大量矩陣運算,GPU只能按部就班將矩陣計算拆解成多個向量的計算,每完成一組都需訪問內存,保存這一層的結果,直到完成所有向量計算,再將每層結果組合得到輸出值。

而在TPU中,成千上萬個計算單元被直接連接起來形成矩陣乘法陣列,作爲計算核心,可以直接進行矩陣計算,除了最開始的加載數據和函數外無需再訪問存儲單元。這大大降低了訪問頻率,使得TPU的計算速度大大加快,能耗和物理空間佔用也大大降低。

谷歌並不對外出售TPU芯片,它仍然是英偉達的大客戶之一,並繼續大批量採購英偉達的GPU。但谷歌把TPU其部署到自家的雲服務系統中,對外(比如Anthropic公司)提供AI算力服務,這無疑壓縮了英偉達的潛在市場。

而從谷歌TPU核心團隊的離職人員,創建了Groq,其提出了一種全新的AI 芯片 LPU(Language Processing Unit,語言處理單元)。

作爲創業公司,Groq這個團隊更加鋒芒銳利,揚言稱要三年之內超過英偉達。在英偉達GTC期間,Groq也在X上各種正面硬剛英偉達:說自家的LPU芯片速度更快,功耗更低,即使英偉達有再多軟件也無法克服硬件瓶頸,僅當芯片(指英偉達芯片)架構複雜且難以高效編程時,才需要 CUDA……其中“當芯片架構複雜且難以高效編程時,才需要 CUDA”可謂直指英偉達GPU本質上是個堆料改良“縫合怪”的痛點。

LPU最誇張的指標是推理速度。運行開源大模型Mixtral 8×7B-32k,速度約爲每秒500個token;切換到Llama 2-7B,速度爲每秒750個token;而使用更大的Llama 2-70B,速度可以達到每秒300個token。

如果按照2個token相當於1個漢字的一般規律,那麼使用英偉達H100芯片生成答案時,用戶的閱讀速度幾乎可以跟上答案生成的速度,答案慢慢地展開下來。然而,使用 Groq 的芯片,生成答案就像用鼠標滾輪無意識地向下滾動網頁一樣快,頁面眨眼間就過去了。

長期以來,芯片的HBM內存所需的封裝技術被代工巨頭臺積電壟斷,而Groq則避開適用HBM內存,轉而使用SRAM內存。SRAM 的優勢在於速度快、延遲低。Groq 的芯片搭載了230MB 的 SRAM 來保證內存帶寬,片上內存帶寬達到了 80TB/s。在算力層面,Gorq 芯片的整型(8位)運算速度爲 750TOPs,浮點(16位)運算速度則爲 188TFLOPs。

但Groq芯片是推理芯片,而不是訓練芯片,不能用來訓練大模型。

Groq雖然宣稱自己芯片的功耗更低,但是從單位成本算力來看,Groq芯片並不便宜。

原 Meta 人工智能科學家、原阿里技術副總裁賈揚清做了一番估算,指出由於 Groq 的內存容量較小,在運行 LLaMa2 70B 模型時需要使用 305 張 Groq 卡,而使用 NVIDIA 的 H100 卡只需要 8 張。這相當於 Groq 的硬件成本大約是 H100 的 40 倍,而其能源成本則是 10 倍。

而世界上的雲計算廠商都在加緊研發製造自己的AI芯片。其中,微軟給芯片行業的衝擊或許會最大。微軟每年在數據中心上的支出超過 500 億美元。據報道,微軟正在研發自己的 Maia AI 服務器芯片,今年將安裝在數據中心,其正在開發的新型網卡也可以提高Maia芯片的性能。

微軟也在與英特爾聯合起來造芯。據華爾街日報2月22日報道,微軟首席執行官Satya Nadella在英特爾的一次活動上說,微軟正在設計芯片,將在英特爾最先進的工廠之一製造。納德拉沒有具體說明英特爾將爲其生產哪款芯片,但最近幾個月微軟一直在尋求加強芯片設計能力,包括去年推出的一款用於人工智能計算的新芯片。

真正的護城河——軟硬一體的CUDA

科技界沒有永遠的巨頭,但英偉達在加深自己的護城河——CUDA軟硬件協同系統。

黃仁勳在GTC上宣稱,英偉達其實是一家軟件公司,爲其他公司提供視覺計算核心技術,同時也是一家“綜合性視覺計算和並行計算技術公司”。或許,黃仁勳對標的並不是芯片公司先驅,而是通過賣硬件來賺軟件錢的蘋果。

CUDA提供了平臺性的接口,讓程序員用C語言、C++等語言寫的代碼,通過CUDA翻譯成能運行在GPU上的指令,讓原本程序裏的一行指令,變成GPU上幾十萬、幾百萬個並行的小處理單元。這樣能讓圖形設計的遊戲編程者和人工智能大模型的訓練者更好地讓GPU發揮作用。

CUDA發佈於2007年,憑藉着先行者地位和規模效應,CUDA成爲深度學習領域事實上的壟斷者。蘋果在2009年推出OpenCL,這是一種開放標準,可用於對不同供應商的 CPU、GPU 和其他設備進行編程。但OpenCL在深度學習的生態上遠不如CUDA,許多學習框架要麼是在CUDA發佈之後,纔會去支持OpenCL,要麼壓根不支持OpenCL。蘋果也沒能動搖CUDA的地位。

而就在今年GTC大會之前,英偉達或許想擴大自己的壟斷地位,開始禁止第三方硬件兼容CUDA。有用戶發現,英偉達在其CUDA軟件11.6及更高版本的最終用戶許可協議中新增了一條禁止逆向工程、反編譯或反彙編使用SDK生成結果,並在非英偉達平臺上進行轉譯的規定。

在中國,摩爾線程、壁仞、華爲都在開發自己的AI芯片,它們此前都是兼容CUDA接口的。

360集團創始人周鴻禕3月18號在視頻上表示,以前國產芯片可以通過CUDA接口來在國產操作系統上運行軟件,“爲什麼說我們國家的顯卡希望能兼容CUDA,因爲CUDA已經變成事實上的標準,如果能兼容CUDA,我們的國產操作系統(底層是Linux、底層芯片是華爲芯片)的接口不用改變,就能兼容Windows,上面可以運行軟件。”

但周鴻禕認爲CUDA的護城河沒有英偉達想象的那麼深。周鴻禕呼籲,把推理芯片和訓練芯片的研發分開,推理的難度要小於訓練,英偉達的顯卡適用於訓練但用在推理上有些浪費,國產芯片商可以研發自己的推理芯片;在訓練芯片上,鼓勵國產芯片廠商可以積極加入國際上開源的訓練框架,聯合世界上其他的廠商(甚至包括蘋果、AMD等),重新定義一個非CUDA的標準

英偉達的CUDA系統壟斷,加上美國愈發嚴格的芯片出口管制,會加強國產芯片自造一個生態系統的動力嗎?

在美國針對英偉達又一輪出口管制發佈後,2023年6月,英特爾專門把Gaudi 2芯片的發佈會放在北京開,表示“幫助構建中國人工智能的未來”、“攜手中國產業生態”,顯然是想趁英偉達的缺位,進軍中國市場。

結果2023年10月美國新版芯片出口管制發佈,AMD的MI250X、MI300,英特爾的Gaudi 2、Gaudi 3和英偉達一起上了名單。

美國對中國的芯片出口管制越發嚴格,但所有人都知道,人工智能的時代已經不可避免地到來了。這種長期的封鎖,長期的供不應求,必將加速中國芯片產業的自主研發。英偉達的AI芯片壟斷地位,並不只靠它自身的技術實力和商業策略,或許也得看時運了。

相關文章