编者按:弯眉冷月,仲秋月圆。绿皮火车停靠首都经济圈城市河北衡水,神州高铁抵达中原城市群落的中心郑州。在2020年中国超级计算领域两场重量级的会议上,发生着回荡肺腑的讨论。这些声音朴素、结实、鲜明。拨云见月,学界与工业界一呼一吸。在“十三五”国家重点研发专项“高性能计算”总体专家组组长、北京航空航天大学钱德沛教授首发演讲的七天后,一位华为高管便在演讲时引用了他的观点,并标明信息来源为“衡水讲话”。

第一部分:全球超级计算机发展的新动向。

众所周知的全球高性能计算机(HPC)TOP500榜单历时已久,从1993年开始,于每年的 6 月和 11 月发布。榜单一直是全球高性能计算领域的风向标,反映了超级计算机发展的新动向。排行榜座次的变化折射出全球高性能计算在技术和应用方面的研究现状和发展趋势。

2013年是一个重要的年份。在此之前,榜单上排名第一位的超级计算机性能和上榜计算机的总体性能,一直呈现出这样一个趋势:超级计算机的性能每十年到十一年,提高一千倍。

回首发展的曲线,2013年成为这个榜单显著的分水岭。从那年开始,上升的曲线变得平缓,甚至于在2019年11月,TOP500榜单的前十名和前一次相比没有发生变化。

如果没有革命性的技术突破,超级计算机性能不可能再保持十年一千倍的发展速度,而有可能降到十年一百倍,或者更低。

发展之所以变缓,从技术角度观察,是遇到了一些瓶颈。

第一、能效指标的约束,不能单纯依靠系统并行规模的扩大来提高性能。

第二、登纳德缩放比例定律 (Dennard Scaling)的失效。每一代半导体工艺的进步不再能保证芯片功率密度的恒定,其结果是芯片功耗急剧上升。

第三、摩尔定律接近失效,芯片性能不再能每两年翻一番。

第四、体系结构变化缓慢,没有新的体系结构提出。在颠覆性技术方面没有新的技术出现,包括经常谈到的量子计算、超导计算,距离实用还有相当一段距离。

第五、新原理器件缺乏突破。比如,存算一体的器件和全光交换的器件等。

虽然超算性能的发展按下了减速键,但是国际上超级计算的竞争,却更趋激烈。

2015年,美国提出国家战略计算计划,美国政府多个部门协调,加快超级计算的发展。美国能源部在NSCI框架下正在实施“E级计算计划 (ECP) ”,投入将近36亿美元,其中花费近18亿美元开发软件应用,18亿美元研制3台E级计算机。原计划第一台E级机Aurora将在2021上半年完成,持续性能将达到1EFlops(每秒百亿亿次)。后续的Frontier和El Capitan将在2021-2023年完成。从目前看,美国第一台E级机有可能提前到2020年底前问世。

日本对E级计算雄心勃勃,2020年6月,日本的超级计算机“富岳(Fugaku)”成为世界上运算速度最快的计算机,这是时隔九年之后,日本超级计算机重登TOP500榜首。日本富岳的运算速度超过美国顶峰(Summit),峰值速度达到513.85PFlops/s,Linpack效率达到80.8%。

为了研制富岳系统,富士通公司专门开发了新型ARM处理器,扩展了512位的向量部件,支持8位整数运算和多种字长的浮点运算,适应人工智能应用需求。内存采用HBM2,访存带宽与计算能力之比高达0.4,这是日本超级计算机系统的特点。系统能效有很大的改进,但功耗还是达到28.33MW,仍有改进空间。

欧盟计划在2023年左右建立E级计算基础设施,装备3台左右E级计算机,在目前的欧洲先进计算合作伙伴计划(Partnership for Advanced Computing in Europe,PRACE)的基础上发展。PRACE旨在为欧洲地区科研机构提供具有世界级水平的高性能计算服务。

欧洲现在提出要研发自己的处理器,由Atos公司牵头自研处理器。另外,欧洲非常重视开源处理器架构RISC-V,在欧盟支持下,依托巴塞罗那超算建立欧洲开放计算机体系结构实验室(LOCA)。

虽然欧洲在超级计算机的硬件制造方面比美国和日本滞后,但是欧洲高性能计算基础研究和应用基础好,在新的计算模型、语言、算法,大规模数值模拟等方面很有特色。

中国的“十三五”重点研发专项,把研制依托于自主可控技术的E级计算机,研发领域并行应用软件和研发国家高性能计算环境作为其目标,要突破E级计算关键技术,使高性能计算在关键领域得到应用,并进一步推动国家高性能计算环境的服务化建设。

第二部分:新形势下的挑战。

从2015年4月对中国国防科技大学及其相关国家超算中心实施禁运起,时至今日,美国已经把中国主要的超级计算机研制单位全部列入“实体名单”,实施禁运和封锁。

在严峻的国际环境下,E级和后E级计算面临重大技术挑战,主要包括:降低系统功耗、提高应用性能、改善可编程性、提高系统可靠性等。面对这些挑战,需要体系结构的创新,关键技术的突破和软件硬件的协同。

在超级计算方面,我国要解决一系列卡脖子问题。

在高性能计算硬件方面,比如:高性能处理器和加速器、内存芯片(特别是3D内存)、新型存储系统\器件(例如非易失存储器件NVM)、高速互连网、光传输和光交换器件、IC设计EDA软件、先进的芯片制造工艺等。

在高性能计算应用软件方面,目前大部分工程计算软件依赖进口,更大的问题在于,基于国产处理器的超级计算机上的系统软件和应用软件怎么解决。

第三部分:在超级计算E级时代,需要重视哪些问题?

发展E级计算需要解决诸多技术难题。第一要重视体系结构。上世纪八十年代是体系结构研究的黄金年代,出现了RISC、超标量处理器、多层次缓存、预期执行、编译优化等一大批体系结构创新,使计算机性能每年提升60%。我们希望体系结构研究再次迎来“百花齐放、百家争鸣”的局面,使超级计算机从以规模取胜的“恐龙”式系统,向灵巧、节能、应用高效的“哺乳动物”式系统发展。

计算机体系结构有几个基本问题。例如,冯诺依曼结构如何适应大规模的并行执行?问题的求解模型如何和计算机的体系结构相匹配?计算能力如何和访存能力相匹配?这些都是体系结构需要考虑的基本问题。

到目前为止,没有一种体系结构能够覆盖所有应用的需求,通用与专用始终是长期争论的问题。未来的超级计算机可能会出现多样化、灵巧化、专用化的局面,通专结合是重要手段。

第四部分:我国“十四五”高性能计算发展设想

研发“新一代高性能计算系统及其应用”和“带动自主可控基础软硬件技术与产业的跨越式发展”,是我国编制高性能计算领域“十四五”发展规划中的两个考量。

目前,“十四五”高性能计算方向重点研发专项的立项仍处于建议阶段。其使命和愿景是研制新一代高性能计算机及其应用系统,使我国算力得到大幅提升,以满足国家创新发展的战略需求。在过去20年的发展中,我们始终强调机器、应用和环境的协同发展。“十四五”仍将坚持这一路线,在高性能计算方向聚焦三大任务:

新一代高性能计算机系统的研发,高性能计算机应用关键技术和领域应用软件的研发,依托国家超算基础设施的领域应用平台研发。

科技部目前很关注如何使算力成为国家新型基础设施,真正把计算能力像水电一样便捷地提供给用户。在此背景下,建立“超算互联网”的思路被置诸案头。目前这些动议还仍在酝酿阶段。

钱教授在演讲的最后发问:如何在外部限制与封锁下,保持我国超级计算机的持续发展?

他给出的答案是:“这是必须回答的问题,自主可控不是应该鼓励的可选项,而是唯一出路。‘为国分忧’,不仅写在会议PPT上,也是写在中国高性能计算从业者心底里的一句话。”(完)

特别说明:

1.演讲内容经钱德沛教授本人确认。

2. 2020年中国超级计算领域两场重量级的会议分别是,9月21日在河北衡水市举办的“超级计算创新联盟2019-2020年度全体会议”,9月28日在河南郑州举办的“2020全国高性能计算学术年会(HPC China 2020”)。

《亲爱的数据》出品

相关文章