幾乎於今年舉行的年度國際超級計算機大會(ISC)今天開始。毫不奇怪,NVIDIA已經發布了一些公告。令我特別感興趣的是NVIDIA內部的1+ Exaflop AI超級計算機Selene的發佈,它是美國最快的工業系統,在全球500強中排名第7。NVIDIA還宣佈了新的PCIe版本的A100加速器,六項基於A100的超級計算機的勝利以及新的Mellanox UFM Cyber AI平臺,以預測和檢測安全威脅並預測網絡故障。儘管如此,Selene還是該節目的明星。

Selene:當有人提到NVIDIA的競爭優勢時,大多數人都會想到CUDA。當然,即使是NVIDIA推出13年後,高性能軟件仍是NVIDIA的一大優勢。CUDA使HPC和AI應用程序能夠在NVIDIA GPU上高效運行,並且受到全世界程序員的擁護。它支持數百萬個GPU上的數千個應用程序。但是,Selene可能比古老的CUDA庫和工具構成更強大的防禦性護城河。

讓我們看看Selene。它由280個NVIDIA DGX A100服務器組成,每個服務器都帶有8個安培GPU,並通過490多個200Gb Mellanox交換機互連。超級計算機通常需要長達一年的安裝時間,但是NVIDIA工程師在不到一個月的時間內組裝和測試了該平臺,這證明了DGX平臺即插即用的安裝簡便性。

早在2017年,NVIDIA就發佈了V100以及該公司的Saturn V內部超級計算機。該平臺是一臺用於研究和開發NVIDIA軟件和硬件的前30名超級計算機,已被用於大規模提高許多AI和HPC工作負載的性能。此外,它還被廣泛用於基於安培的新產品的開發中。爲NVIDIA工程師和合作夥伴提供這種超級計算機可以在多個領域形成戰略競爭優勢。

首先,它爲軟件優化和模型開發提供了最先進的平臺。圖2顯示,在該芯片推出後的兩年內,NVIDIA在各種HPC應用程序中將V100的性能提高了一倍。此外,mlperf基準測試的發佈表明,NVIDIA在AI方面的性能提高了三倍,而硬件卻沒有任何變化。

其次,像Saturn V或Selene這樣的平臺爲研究和協作創造了強大的機會。一個例子就是威震天的開發,威震天是對BERT(來自變形金剛的雙向編碼器表示)的十億多個參數自然語言模型的擴展,NVIDIA和Microsoft率先開發了這種語言,以擴展對話式AI。行業中沒有多少研究人員和開發人員擁有可用於處理此類前沿研究項目的世界一流的超級計算機,但是NVIDIA及其合作伙伴享有這種功能。我參觀了位於聖克拉拉的Saturn V設施,這確實令人印象深刻。我相信Selene會將其提升到一個新的水平。

最後,也許是最重要的是,一臺內部超級計算機爲NVIDIA工程師獨特地提供了一個龐大的AI平臺,以加快和改善產品開發。正如我此前曾報道過,利用人工智能正在成爲一個強大的方法,以高速芯片的發展和提高最終產品。例如,Synopsis的客戶已經使用AI探索了數十億種可能的物理佈局,以生產功耗更低,性能更高,需要更少的裸片面積並以更少的工程師更快進入市場的芯片。使用Ampere的NVIDIA工程師可以使用Saturn V長達近三年的時間,其使用的系統要花費數千萬美元才能建造競爭對手。安培芯片是令人印象深刻的結果。

結論

NVIDIA首席執行官黃仁勳(Jensen Huang)曾有句著名的話:“買得越多,您就越省錢”,並將這一理念運用到他的公司對工程師在HPC和AI方面的投資中。對鵝有什麼好處,對甘丹也有好處,對嗎?因此,與NVIDIA的任何潛在競爭對手(至少現在)相比,NVIDIA工程師能夠生產出更好的產品,並更輕鬆地與研究人員和合作夥伴進行協作。一家初創公司將竭盡全力來配置資源以匹配此級別的專用計算能力,而且我懷疑像英特爾這樣的大公司正在意識到擁有Selene這樣的系統將成爲那些希望進入遊戲領域的人的賭注。

相關文章