更快更節能！谷歌稱自家AI超算系統優於英偉達

當地時間週二（4月4日），谷歌公佈了其用於訓練人工智能（AI）模型的超級計算機的最新細節。該公司稱，這些系統比英偉達公司的同期系統更快、更節能。

目前，谷歌公司90%以上的AI訓練工作都是通過谷歌自主研製的TPU芯片（Tensor Processing Unit）完成的。其AI訓練的過程是：通過給模型輸入數據，使其能夠用類似人類的文本回應、並具備生成圖像等功能。

現谷歌TPU芯片已經出到第四代（TPU v4）了。谷歌公司週二發佈的一篇論文詳細闡述了，該公司是如何利用自己定製的光開關將4000多個芯片組合到一臺超級計算機中，從而幫助連接一臺臺獨立機器。

改善芯片間的連接

隨着OpenAI的ChatGPT、谷歌的Bard等AI聊天機器人的競爭愈演愈烈，改善芯片間的連接已成爲開發AI超算的科技公司的一個關鍵競爭點。

由於ChatGPT、Bard等產品背後使用的大型語言模型的規模太龐大了，無法存儲在單一芯片上。所以，這些模型必須分散在數千個芯片上，然後這些芯片必須同時工作，花費數週或更長時間來訓練語言模型。

谷歌的PaLM是該公司迄今爲止公開披露的最大的語言模型。其訓練方式是：通過將其分配到兩臺各包含4000個芯片的超級計算機中，歷時50天進行訓練。

谷歌週二稱，其超級計算機可以很輕鬆地在運行過程中重新配置芯片之間的連接，有助於避免問題並調整性能。

該公司的研究員Norm Jouppi和工程師David Patterson在上述論文中寫道，“電路切換可以很容易地繞過故障組件…這種靈活性甚至允許我們改變超級計算機互連的拓撲結構，以加速機器學習模型的性能。”

研發新版本

雖然谷歌直到現在才披露關於其超級計算機的詳細信息，不過事實上，自2020年以來，該系統已經在公司內部上線，應用於該公司位於俄克拉荷馬州的一個數據中心。

據悉，初創公司Midjourney使用該系統來訓練其模型，在輸入幾句文字後，模型就會生成新的圖像。

谷歌在論文中還寫道，相比於與TPU v4同時發佈的英偉達A100芯片，其芯片速度高達A100的1.7倍，能耗效率是A100的1.9倍。

不過谷歌也承認，並沒有將TPU v4與英偉達目前的H100芯片進行比較。給出的理由是：H100上市時間晚於谷歌芯片，並且採用了更新的技術。

此外，谷歌還暗示，正在研發一種新版本TPU，以期與英偉達H100芯片競爭，但沒有提供細節。

本文來源於財聯社，作者周子意；智通財經編輯：文文。

扎克伯格：AI芯片不再短缺 但電力供應將出現瓶頸