文/黄海峰

科研机构,是科技持续发展的“发动机”。科研机构需要怎样的支撑?我们认为,除了经费和人才外,科研机构对计算能力有着更高需求,特别是高性能计算,强大的算力,能够满足大量科研项目的计算需求,缩短研发周期,进而推动高效创新。

笔者近日在华为全联接2020大会(以下简称HC)期间注意到,国内以高新技术和前沿科学研究为主的一流大学——中国科学技术大学(以下简称“中科大”),联合华为打造的“瀚海20超级计算系统”成功发布。

“瀚海20超级计算系统”在HC期间的发布仪式

“瀚海”建成:性能更强、更节能

中科大计算机科学与技术学院教授、博士生导师、网络信息中心主任、超级计算中心主任李京在HC分享“瀚海20超级计算系统”建设经验

众所周知,中科大在量子信息、化学与材料、物理、微尺度物质科学、核科学等学科领域,位居国内科研前沿,此类学科对于计算量需求巨大,也就形成了高性能计算天然的应用场景。中科大在1995年建成国家高性能计算中心(合肥),为教学科研服务。2002年众多科研方向需要购置计算设备,之后建设了超算中心,持续演进多年。

发展到2018年,中科大超级计算中心几项挑战逐渐凸显:一是科研人员作业排队时间太长,用户体验差,影响科研进度;二是原有高性能计算平台利用率过高,无法进行大规模并行计算,制约科研广度、深度、精度;三是存储小,性能低。受现有机房空间及电力限制,普通的风冷服务器无法放下,所以中科大希望选择液冷服务器提高能效实现节能。

2019年12月,为解决科研人员上述问题,中科大通过面向全社会招标,最终在其高性能计算平台落地了一个大项目,让算力终于迎来“质”的飞跃:在华为协助下,“瀚海20超级计算系统”完成全部建设和系统调优,顺利通过了项目验收。

“瀚海20超级计算系统”拥有CPU计算集群30480颗核,系统理论峰值性能2.52Pflops,实测HPL双精度浮点计算能力:700多个节点1.43PFlops,计算效率为63.95%,甚至部分计算节点HPL效率能跑出71%以上的超高性能。

“瀚海20超级计算系统”是中国高校首家在高性能计算平台中采用InfiniBand HDR100 100Gbps网络技术构建的全线速的高速计算网络,基于ConnectX-6芯片的InfiniBand和以太网卡可提供无与伦比的性能,在600纳秒的极低延迟下,每秒可发送2亿条消息,让中科大科研用户获得更快的网络性能,也是全国高校首例。

该系统也为科研用户提供了多种算力平台,采用了20台华为TaiShan服务器构建安全可靠的基于鲲鹏架构的计算集群。该架构在部分单精度和整型计算应用程序性能表现优异,带来新一轮的算力加持,提供高性能的硬件加灵活的软件综合解决方案,可用于生物信息学计算软件,和流体力学计算。

据了解,中科大“瀚海20超级计算系统”不只性能强,而且更加绿色环保,系统采用华为全液冷的解决方案,高效散热,可以大量节省机柜,降低能耗。比如在256P、FP16算力提供时只需要16个机柜的Atlas,但功耗只有36千瓦,其中的720台华为X6000液冷高密服务器计算节点仅需10个机柜即可部署,每个机柜72个节点39KW的超高密计算系统,相比传统服务器每年至少可节省电费17余万元。

使用频繁:推动高校诸多科研工作

“瀚海20超级计算系统”已成为当前中国高校中最大高性能计算校级平台之一,稳定高效运行近一年,完成几十万个作业,超2亿CPU核小时,支持了大规模的天体宇宙模拟、高并行的量化计算与等离子体模拟、托珠单抗能够有效治疗重症新冠患者的原因以及大规模的量子模拟以加快量子霸权等重要研究。

“原来我们设想,针对多种应用试运行时可能存在问题,需停机升级,结果很稳定,用户作业繁忙,无需升级。”李京介绍。“瀚海20超级计算系统”建成后,的确帮助中科大众师生完成了一系列学术科研突破。

我们在此选择几个典型案例。

第一,中科大合肥微尺度物质科学国家研究中心的胡老师针对大尺度分子固体材料的第一性原理计算模拟,以自主开发的第一性原理线性标度计算软件DGDFT[JCP 143, 124110 (2015)]为基础,开发低标度、低通讯,低内存、低的并行计算方法,实现超大规模高性能并行计算,其中DGDFT采用了多级MPI并行以及高效求本方法,具有高度可扩展性。在某校外高性能计算和“瀚海20超级计算系统”高性能计算平台上分别计算金属石墨烯C2880(2880个碳原子),在相同核数下的绝对计算速度比该校外超算运行快30%以上。

第二,中国科大网络信息中心张焕杰老师就利用其实现了ARM平台甄别邮件系统中用户弱口令问题,由原来的需要1天,缩短到30几秒即可完成,大大缩短了处理时间,提高了邮件系统的安全性。

第三,得益于华为提供的软硬件技术支持,中科大鸿雁队参赛学生开拓创新、理论与实践结合,在问题识别、分析与解决等方面得到了迅速且显著的技能提升,做到充分备战,最终再次问鼎ISC-SCC20国际大学生竞赛冠军。

中科大超级计算中心副主任李会民在HC分享“瀚海20超级计算系统”应用经验

据悉,中科大超算中心主要系统瀚海20超级计算系统实际利用率高,达到93.99%,而之前的TC4600百万亿次超级计算系统是84.47%。“目前用户需求旺盛,现有资源远远无法满足需要。”中科大超级计算中心副主任李会民表示。

“承瀚海之辽阔,比星云之光华”,整个系统运行流畅、运维简单、绿色节能,相信这套先进、高效的“瀚海20超级计算系统”,将更好地助力中科大各院校师生开展科学研究,全面促进中科大的“双一流”建设发展。

“计算”无处不在:生态合作,实现更多领域应用

如今的HPC已不再局限于科研、石油化工等传统“高精尖”领域,而将“无处不在”,日趋“普惠化”。“瀚海20超级计算系统”所采用的华为解决方案,可以服务于更多社会产业与领域,在各行各业中的使用率不断攀升,并在数字化转型中扮演着不可或缺的角色。

在近日的CCF全国高性能计算学术年会(HPC CHINA2020)大会上,华为等一众知名科技企业、高校、科研机构纷纷展示出最新科技产品与科研成果,开设专场HPC论坛,深度分享了HPC解决方案及在各领域落地的探索。

其中,以Atlas 900 AI集群为代表的华为AI+HPC融合解决方案已经在气象预测、基因测序、生命科学、金融、医疗等多行业得到快速普及,有着广泛的需求和应用。

在致力发展计算产业生态过程中,以中科大与华为携手打造“瀚海20超级计算系统”为例,其最终目标就是科技企业与科研高校、合作伙伴们实现共赢,通过绿色节能、安全可靠、极致性能的先进算力,实现各行各业的数字化转型和业务创新。

总体来看,高性能计算推动世界发展进程,已经成为重大科研前沿领域不可或缺的重要手段。“瀚海20超级计算系统”,作为未来高性能领域备受瞩目的“后浪”,能否在之后逐步走出校园,推动行业,掀起波澜,乘风破浪至彼岸,我们拭目以待。

相关文章