據新智元 1 月 13 日報道,用AMD的軟硬件系統也能訓練GPT-3.5級別的大模型了。 位於美國橡樹嶺國家實驗室(Oak Ridge National Laboratory)的全世界最大的超算Frontier,集合了37888個MI250X GPU和9472個Epyc7A53CPU。最近,研究人員只使用了其中8%左右的GPU,就訓練了一個GPT-3.5規模的模型。研究人員成功地使用ROCM軟件平臺在AMD硬件上成功地突破了分佈式訓練模型的很多難點,建立了使用ROCM平臺在AMD硬件上爲大模型實現最先進的分佈式訓練算法和框架。 成功地在非英偉達和非CUDA平臺上爲高效訓練LLM提供了可行的技術框架。 訓練完成後,研究人員將在Frontier上訓練大模型的經驗的總結成了一篇論文,詳細描述了期間遇到的挑戰以及克服的困難。
相關文章