當地時間週二(4月4日),谷歌公佈了其用於訓練人工智能(AI)模型的超級計算機的最新細節。該公司稱,這些系統比英偉達公司的同期系統更快、更節能。

目前,谷歌公司90%以上的AI訓練工作都是通過谷歌自主研製的TPU芯片(Tensor Processing Unit)完成的。其AI訓練的過程是:通過給模型輸入數據,使其能夠用類似人類的文本回應、並具備生成圖像等功能。

現谷歌TPU芯片已經出到第四代(TPU v4)了。谷歌公司週二發佈的一篇論文詳細闡述了,該公司是如何利用自己定製的光開關將4000多個芯片組合到一臺超級計算機中,從而幫助連接一臺臺獨立機器。

改善芯片間的連接

隨着OpenAI的ChatGPT、谷歌的Bard等AI聊天機器人的競爭愈演愈烈,改善芯片間的連接已成爲開發AI超算的科技公司的一個關鍵競爭點。

由於ChatGPT、Bard等產品背後使用的大型語言模型的規模太龐大了,無法存儲在單一芯片上。所以,這些模型必須分散在數千個芯片上,然後這些芯片必須同時工作,花費數週或更長時間來訓練語言模型。

谷歌的PaLM是該公司迄今爲止公開披露的最大的語言模型。其訓練方式是:通過將其分配到兩臺各包含4000個芯片的超級計算機中,歷時50天進行訓練。

谷歌週二稱,其超級計算機可以很輕鬆地在運行過程中重新配置芯片之間的連接,有助於避免問題並調整性能。

該公司的研究員Norm Jouppi和工程師David Patterson在上述論文中寫道,“電路切換可以很容易地繞過故障組件…這種靈活性甚至允許我們改變超級計算機互連的拓撲結構,以加速機器學習模型的性能。”

研發新版本

雖然谷歌直到現在才披露關於其超級計算機的詳細信息,不過事實上,自2020年以來,該系統已經在公司內部上線,應用於該公司位於俄克拉荷馬州的一個數據中心。

據悉,初創公司Midjourney使用該系統來訓練其模型,在輸入幾句文字後,模型就會生成新的圖像。

谷歌在論文中還寫道,相比於與TPU v4同時發佈的英偉達A100芯片,其芯片速度高達A100的1.7倍,能耗效率是A100的1.9倍。

不過谷歌也承認,並沒有將TPU v4與英偉達目前的H100芯片進行比較。給出的理由是:H100上市時間晚於谷歌芯片,並且採用了更新的技術。

此外,谷歌還暗示,正在研發一種新版本TPU,以期與英偉達H100芯片競爭,但沒有提供細節。

本文來源於財聯社,作者周子意;智通財經編輯:文文。

相關文章