台湾 || 语言: 大陆简体港澳繁體台灣正體

全世界最大的超算 Frontier 使用 3072 塊 AMD GPU 訓完超萬億參數 LLM

巴比特 2024-01-14 14:24

據新智元 1 月 13 日報道，用AMD的軟硬件系統也能訓練GPT-3.5級別的大模型了。位於美國橡樹嶺國家實驗室（Oak Ridge National Laboratory）的全世界最大的超算Frontier，集合了37888個MI250X GPU和9472個Epyc7A53CPU。最近，研究人員只使用了其中8%左右的GPU，就訓練了一個GPT-3.5規模的模型。研究人員成功地使用ROCM軟件平臺在AMD硬件上成功地突破了分佈式訓練模型的很多難點，建立了使用ROCM平臺在AMD硬件上爲大模型實現最先進的分佈式訓練算法和框架。成功地在非英偉達和非CUDA平臺上爲高效訓練LLM提供了可行的技術框架。訓練完成後，研究人員將在Frontier上訓練大模型的經驗的總結成了一篇論文，詳細描述了期間遇到的挑戰以及克服的困難。

相關文章