微软Ai研究院开源了一个名为DeepSpeed的深度学习库,以简化对大型模型的分布式训练

在AI项目中,我们往往需要具有更大的NLP模型才能获得更高的准确性。

但是,训练更大的NLP模型非常耗时,而且成本巨大。

微软声称,新的DeepSpeed深度学习库可提高速度,降低成本,扩大规模和可用性。

DeepSpeed支持多达1000亿个参数模型的语言模型,其中包括ZeRO(零冗余优化器),减少了模型和数据并行化所需的资源,同时增加了可训练的参数数量。

微软研究人员使用DeepSpeed和ZeRO开发了新的图灵自然语言生成(Turing-NLG),这是具有170亿个参数的最大语言模型。

Turing-NLG的参数为170亿个,是英伟达的Megatron的两倍,其参数是OpenAI的GPT-2的十倍。Turing NLG在一系列NLP任务上均达到了最新水平。

DeepSpeed的亮点:

规模:

拥有最先进的大型模型,例如OpenAI GPT-2、NVIDIA Megatron-LM、Google T5、Turing-NLG,分别具有15亿、83亿、110亿、170亿个参数。

DeepSpeed第一阶段提供系统支持,以运行多达1000亿个参数的模型。

速度:

在各种硬件上,我们目前观察到的吞吐量是最新技术的五倍。

在具有低带宽互连的NVIDIA GPU群集上,与仅对具有15亿参数的标准GPT-2模型使用Megatron-LM相比,微软的吞吐量提高了3.75倍。

在具有高带宽互连的NVIDIA DGX-2群集上,对于20至800亿个参数的模型,速度要快三到五倍。

成本:

提高吞吐量可以转化为大大降低的培训成本。例如,要训练具有200亿个参数的模型,DeepSpeed需要的资源要少三倍。

可用性:

只需更改几行代码就可以让PyTorch模型能够使用到DeepSpeed和ZeRO。与当前的模型并行性库相比,DeepSpeed不需要重新设计代码或重构模型。


开源项目GitHub地址:https://github.com/microsoft/DeepSpeed

查看原文 >>
相关文章