爲什麼說液體冷卻是未來AI發展的一個關鍵點？

澎湃新聞記者邵文

在過去幾年中，大規模人工智能或機器學習的限制因素首先是硬件能力，其次是複雜軟件框架的可擴展性。最後一個限制與計算組件的關係不大，而與冷卻處理器、加速器和存儲設備有關。而隨着對計算需求的持續增長，以及對削減電力成本，降低碳排放的需要，可能意味着我們要對計算系統冷卻方式重新思考。

《The Next Platform》在近日的一篇報道中指出，液體冷卻是未來人工智能發展的下一個關鍵點。其認爲，之所以沒有更廣泛地討論這一點，是因爲數據中心已經具備充足的冷卻能力，通常配備空調機組和標準的冷通道、熱通道實施方案。對於需要一個或兩個CPU的一般企業應用程序，這是可以接受的。

然而，AI訓練系統不是兩個CPU，而是至少有兩個高端CPU和額外的四到八個 GPU。功耗從普通企業級服務器的500瓦到700瓦，到單個AI訓練節點的2500瓦到4500瓦之間。

想象一下這樣的功耗下產生的熱量，然後想象一個空調裝置試圖用冷空氣冷卻它。對於這種每機架的計算和熱量密度，有一點很清楚，那就是沒有辦法吹出足夠的空氣來充分冷卻地球上一些最昂貴、高性能的服務器設備。這會導致計算元素受到限制，或在極端情況下導致關閉。

同時，空氣是一個糟糕的熱導體，比如在寒冷的冬天，人們會覺得裸露在室外的金屬塊比空氣更寒冷，這是因爲金屬是良好的熱導體，它比空氣從你手中帶走的熱量要多。同時，相比水來說，空氣也無法容納大量的熱。

這時就要考慮另一個因素：服務器機架密度。

疫情期間，由於企業居家辦公、學校遠程教育及“健康碼”等大量應用，數據需求量暴增。據《Wealth Management》的報道，數據中心的機房需求處於歷史最高水平，最大化密度的需求正在推動新的服務器創新，但冷卻只能通過在機架（可以駐留更多系統的地方）留出空隙來讓空氣保持跟上。在這些情況下，空氣冷卻不足以完成任務，同時會導致每個機架的計算量減少，服務器機房空間浪費更多。

對於在雙CPU服務器上具有單核作業的普通企業系統，問題可能不會很快複雜化。但是對於密集的AI訓練集羣，需要大量的能量來引入冷空氣，在後端捕獲熱量，並將其恢復到合理的溫度。這種消耗遠遠超出了爲系統本身供電所需的消耗。

那麼液體冷卻如何呢？聯想 HPC（High Performance Computing，高性能計算）和AI歐洲、中東和非洲地區總監Noam Rosen解釋道，“當你使用溫水、室溫水來散熱來冷卻組件時，你不需要冷卻任何東西，無需投入能源來降低水溫。當你獲得進行大規模AI訓練的國家實驗室和數據中心的節點數時，這將變得非常重要。”

Rosen在《NLP中深度學習的能量和政策考慮因素》（Energy and Policy Considerations for Deep Learning in NLP）中，通過對幾種常見大型AI模型的訓練進行生命週期評估，指出定量細節以比較一般企業機架級電源需求與AI訓練所需的電源需求。他們檢查了自然語言處理（NLP）的模型訓練過程，發現NLP訓練過程可以排放數百噸碳，相當於一輛普通汽車整個壽命週期排放量的近五倍。

“從頭開始訓練新模型或將模型應用於新數據集時，由於調整現有模型所需的持續時間和計算能力，該過程會排放更多的碳。因此，研究人員建議行業和企業齊心協力，使用更高效、運行所需能源更少的硬件。”Rosen表示。

Rosen具體比較了溫水冷卻與空氣冷卻，“今天，可以在一個機架上安裝一百多個Nvidia A100 GPU，但唯一的方法是用溫水冷卻。相同的密度在風冷機架中是不可能的，因爲所有空插槽都可以讓空氣冷卻組件，即便如此，它也可能無法解決那麼多GPU產生的熱量。”

根據服務器配置，溫水冷卻可以帶走85%到95%的熱量。Rosen解釋道，由於水的允許入口溫度達45°C，在許多情況下，不需要耗能的冷水機，這意味着更大的節約、更低的總成本和更少的碳排放。

用水來冷卻並不新鮮，它在大型主機業務中的使用已經歷時幾十年。但隨着大型主機在數據中心中的應用慢慢減少，水冷也隨之被淘汰。但目前，由於空氣已經不足以冷卻高功率密度設備，水或者說是液體冷卻再次被提起，並被視爲未來冷卻數據中心的關鍵。

爲什麼說液體冷卻是未來AI發展的一個關鍵點？

熱門新聞

週熱門

爲什麼說液體冷卻是未來AI發展的一個關鍵點？

AI熱潮開闢“新寶地”？股票投資者找到了這些潛在贏家……

爆料稱英偉達首款AI PC處理器將基於英特爾3nm工藝，RTX 50同款GPU架構

谷歌 CEO 皮查伊：未來幾年的 AI 可能會給人一種“具備意識”的假象

開放合作步伐加快 央企數字“朋友圈”不斷擴大

互聯網大廠迎戰券商 爭奪基民的“陽謀”正在進行

Kaiko：現貨以太坊ETF批准將推動以太坊長期增長

榮耀200系列發佈：首發雅顧光影寫真大師 2699元起售

Aave社區發起提案將BNBx 添加到 Aave V3 BNB Chain

蘋果將亮出AI底牌

Floki在BNB Chain上推出基於Telegram的交易機器人，預計6 月中旬向公衆開放

Taiko上線主網，代幣預計幾周後推出

Taiko擬於今年晚些時候推出DAO

聯想股價再創近年新高 AI服務器供應鏈機遇與波動共存

谷歌CEO最新訪談：AI將無處不在 會改變我們所做的一切

dYdX Chain已向質押者分發2500萬餘USDC

熱門新聞

週熱門

開放合作步伐加快央企數字“朋友圈”不斷擴大

互聯網大廠迎戰券商爭奪基民的“陽謀”正在進行

谷歌CEO最新訪談：AI將無處不在會改變我們所做的一切