机器之心原创

400亿美元收购Arm,把业界顶级显卡性能一次提升20倍,市值超越英特尔成为第一大芯片公司……2020年的科技界大新闻,英伟达一家就占了好几条。

说起英伟达,很多人都知道这家公司最新推出的消费级显卡RTX3080,以及它一卡难求的火爆景象。实际上,由于GPU在高性能计算、AI等领域的大规模应用,英伟达出品已经成为了很多工作中不可或缺的一部分。

英伟达快速发展的技术,为人们带来了近乎无穷的算力,也让其自身业绩节节攀升。在过去20个季度中,英伟达已有18个季度的财务业绩超过了华尔街分析师们的预期。

当然不断的成功并没有让英伟达放缓推出新卡的步伐。

今年英伟达发布的新显卡,几乎都是由黄仁勋自家烤炉中「出炉」的。

就在自家消费级GPURTX3080显卡抢占「最强AI计算芯片」的名头后不久,11月份英伟达又为旗下的最强AI训练计算卡A100系列进行了升级。

回想今年五月份,英伟达在GTC大会上发布了7nm安培架构(NVIDIAAmpere)的A100GPU产品,其中40GB,带宽为1.6TB/s的HBM2显存令人印象深刻。11月16日,竞争对手AMD带来了7nmCDNA架构的MI100加速卡,英伟达继续出招,推出了A10080GBGPU,显存翻倍,性能大幅提升。

时隔仅半年,英伟达推出的新卡有哪些具体的提升?首先在芯片的计算性能上,A10080GB的数据没有变化,依然采用了基于7nm工艺的安培架构,集成542亿晶体管、6912个CUDA核心、加速频率1.41GHz,FP32性能19.5TFLOPS,FP64性能9.7TFLOPS,INT8性能624TOPS,额定功耗400W。

A100搭载了英伟达特有的第三代TensorCore人工智能计算单元,对稀疏张量运算进行了特别加速,执行速度提高了一倍,也支持FP64、TF32、FP16、BFLOAT16、INT8和INT4等精度的加速。通过全新的TF32,A100将上一代Volta架构的AI吞吐量提高多达20倍。

新款A100计算卡的主要升级之处在于HBM2显存:从之前的40GB直接翻倍达到80GB,显存类型升级为更先进的HBM2e。同时显存频率从之前的2.4Gbps提升到3.2Gbps,带宽也从1.6TB/s提升到史无前例的2TB/s。通过配合英伟达多实例GPU(MIG)技术,每个实例在训练时获得的内存可以增加一倍,单卡最多可提供七个MIG(每个10GB)。

英伟达最新几代AI训练卡性能的对比,图片来自AnandTech。

在A100上应用的技术还包括第三代NVLink和NVSwitch功能,相比上代,它们提供了两倍的GPU到GPU带宽,并将数据密集型工作负载到GPU的数据传输加速到每秒600GB。

通过硬件与软件的优化提升,A10080G可以在大型仿真系统中提供相比六个月前刚刚发布的A100「标准版」1.8倍性能的提升。在材料模拟软件QuantumEspresso上,单节点A10080GB也实现了近2倍的吞吐量提升。

这使得数据可以快速传输到全球最快的数据中心GPUA100上,使研究人员能够更快地加速其应用,处理最大规模的模型和数据集,如类似GPT-3这样的大规模预训练模型,很大程度上避免了对于数据或模型并行架构的需求。

在深度学习等很多领域中,研究人员对于AI算力的需求几乎是无止境的,据英伟达在今年5月的统计,自2017年底发布V100之后,训练业界机器学习模型的算力需求增长了3000倍。在五月底OpenAI的GPT-3推出以后,这一数字再次被抬高了不少。

机器学习先驱RichardS.Sutton在《苦涩的教训》中曾表示,70年的人工智能研究史告诉我们,利用计算能力的一般方法最终是最有效的方法。

这种思想获得了很多人的赞同,也引来了争议。虽然一直有人认为,找到与人类思考方式类似的因果推理范式才能真正地通往强人工智能,但基于深度学习的方法在近年来已掌握了国际象棋、围棋,实现了不少人类专家也难以企及的能力。除了前沿探索之外,更多的深度学习应用正在路上。

与此同时,英伟达还发布了「全球唯一」的千万亿次级工作组服务器NVIDIADGXStationA100,其配备四块新款A100GPU,具有高达320GB的GPU内存,输出算力2.5petaflops。在执行BERT等大模型时,新一代设备的效率相比过去提高了三倍。

虽然有超算级别的能力,但DGXStationA100无需配备数据中心级电源或散热系统,而且年底即开始供货。搭载A10080GB的第三方成套系统则预计会在2021年上半年出货。

通过新计算卡和与之配合的架构,英伟达可以向更广泛的人群输出以往仅存在于超级计算机的AI算力。而说到超级计算机,英伟达也是目前业内的领先者,在11月全球超算大会SC2020公布的TOP500榜单数据来看,近70%的机器(包括排在前10名中的8台)均采用了英伟达技术。

GPU在高性能计算领域能有如今的覆盖率,显然是因为有很大需求:在SC2020大会上,有超算界诺贝尔奖美称的「戈登·贝尔奖」颁给了由UCBerkeley、北京大学、普林斯顿大学组成的研究团队,他们的研究被认为是当今计算科学中最令人兴奋领域的重大进展。

研究团队引入基于机器学习的分子动力学方法模拟原子运动,每天能够模拟1亿原子超过1纳秒的轨迹。该研究是在美国橡树岭国家实验室的前世界第一超算Summit两万八千块英伟达V100上完成的。

戈登贝尔奖旨在表彰研究者们在高性能计算方面的成就,入围者必须证明他们提出的算法可以在世界上最强大的超级计算机上高效运行。中美获奖团队开发了一系列高度优化的代码(GPUDeepMD-Kit)并在Summit超算上顺利运行,在双精度下实现了91PFLOPS的速度,在混合单/半精度下实现了162/275PFLOPS的速度。

将人工智能算法引入到HPC领域,并将边界拓展至数据中心之外,是高性能计算领域里正在进行的一项重大变革。而在这个过程中,英伟达将会继续扮演举足轻重的角色。

今年5月份的GTC2020大会上,黄仁勋发布了7nm安培架构和A100;9月份的GTC大会上,又为我们揭晓了「PC游戏领域自1999年以来最大突破」——RTX30系列显卡。

这还没有完,在今年12月,GTC大会还有一站。

12月15-19日,英伟达行业盛会GTC中国站将在线上开幕,大会期间,所有注册参会者可通过登陆,定制个人参会日程、设置参会提醒、查看积分并兑换,换取电商购物券、拉杆箱、NVIDIAJetsonNano等好礼。观看主题演讲还将有机会赢得GeForceRTX3070显卡!所有福利仅限注册用户!即刻扫描海报二维码,免费注册,赢取大奖!

THEEND

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

点击「阅读原文」,了解更多GTCChina详细日程。

相关文章