澎湃新聞記者 邵文

在過去幾年中,大規模人工智能或機器學習的限制因素首先是硬件能力,其次是複雜軟件框架的可擴展性。最後一個限制與計算組件的關係不大,而與冷卻處理器、加速器和存儲設備有關。而隨着對計算需求的持續增長,以及對削減電力成本,降低碳排放的需要,可能意味着我們要對計算系統冷卻方式重新思考。

《The Next Platform》在近日的一篇報道中指出,液體冷卻是未來人工智能發展的下一個關鍵點。其認爲,之所以沒有更廣泛地討論這一點,是因爲數據中心已經具備充足的冷卻能力,通常配備空調機組和標準的冷通道、熱通道實施方案。對於需要一個或兩個CPU的一般企業應用程序,這是可以接受的。

然而,AI訓練系統不是兩個CPU,而是至少有兩個高端CPU和額外的四到八個 GPU。功耗從普通企業級服務器的500瓦到700瓦,到單個AI訓練節點的2500瓦到4500瓦之間。

想象一下這樣的功耗下產生的熱量,然後想象一個空調裝置試圖用冷空氣冷卻它。對於這種每機架的計算和熱量密度,有一點很清楚,那就是沒有辦法吹出足夠的空氣來充分冷卻地球上一些最昂貴、高性能的服務器設備。這會導致計算元素受到限制,或在極端情況下導致關閉。

同時,空氣是一個糟糕的熱導體,比如在寒冷的冬天,人們會覺得裸露在室外的金屬塊比空氣更寒冷,這是因爲金屬是良好的熱導體,它比空氣從你手中帶走的熱量要多。同時,相比水來說,空氣也無法容納大量的熱。

這時就要考慮另一個因素:服務器機架密度。

疫情期間,由於企業居家辦公、學校遠程教育及“健康碼”等大量應用,數據需求量暴增。據《Wealth Management》的報道,數據中心的機房需求處於歷史最高水平,最大化密度的需求正在推動新的服務器創新,但冷卻只能通過在機架(可以駐留更多系統的地方)留出空隙來讓空氣保持跟上。在這些情況下,空氣冷卻不足以完成任務,同時會導致每個機架的計算量減少,服務器機房空間浪費更多。

對於在雙CPU服務器上具有單核作業的普通企業系統,問題可能不會很快複雜化。但是對於密集的AI訓練集羣,需要大量的能量來引入冷空氣,在後端捕獲熱量,並將其恢復到合理的溫度。這種消耗遠遠超出了爲系統本身供電所需的消耗。

那麼液體冷卻如何呢?聯想 HPC(High Performance Computing,高性能計算)和AI歐洲、中東和非洲地區總監Noam Rosen解釋道,“當你使用溫水、室溫水來散熱來冷卻組件時,你不需要冷卻任何東西,無需投入能源來降低水溫。當你獲得進行大規模AI訓練的國家實驗室和數據中心的節點數時,這將變得非常重要。”

Rosen在《NLP中深度學習的能量和政策考慮因素》(Energy and Policy Considerations for Deep Learning in NLP)中,通過對幾種常見大型AI模型的訓練進行生命週期評估,指出定量細節以比較一般企業機架級電源需求與AI訓練所需的電源需求。他們檢查了自然語言處理(NLP)的模型訓練過程,發現NLP訓練過程可以排放數百噸碳,相當於一輛普通汽車整個壽命週期排放量的近五倍。

“從頭開始訓練新模型或將模型應用於新數據集時,由於調整現有模型所需的持續時間和計算能力,該過程會排放更多的碳。因此,研究人員建議行業和企業齊心協力,使用更高效、運行所需能源更少的硬件。”Rosen表示。

Rosen具體比較了溫水冷卻與空氣冷卻,“今天,可以在一個機架上安裝一百多個Nvidia A100 GPU,但唯一的方法是用溫水冷卻。相同的密度在風冷機架中是不可能的,因爲所有空插槽都可以讓空氣冷卻組件,即便如此,它也可能無法解決那麼多GPU產生的熱量。”

根據服務器配置,溫水冷卻可以帶走85%到95%的熱量。Rosen解釋道,由於水的允許入口溫度達45°C,在許多情況下,不需要耗能的冷水機,這意味着更大的節約、更低的總成本和更少的碳排放。

用水來冷卻並不新鮮,它在大型主機業務中的使用已經歷時幾十年。但隨着大型主機在數據中心中的應用慢慢減少,水冷也隨之被淘汰。但目前,由於空氣已經不足以冷卻高功率密度設備,水或者說是液體冷卻再次被提起,並被視爲未來冷卻數據中心的關鍵。

相關文章