有没有这样一款系统,既兼顾小机的可靠性,又兼顾x86的开放性?

在刚刚举行的HPE Superdome Flex 280媒体沟通会上,新华三智慧计算产品线的关键业务服务器产品部部长林迎全这样问道。这两个看似对立的阵营很难实现统一。但是在Superdome Flex关键业务服务器上得到了完美统一,最新发布的HPE Superdome Flex 280关键业务服务器产品更是强化了这一产品家族。

Superdome系列产品由来已久,早在惠普时代它就是强大的代名词,之后伴随着Superdome X的出现它也从最早的安腾平台扩展到了x86平台,并且在4-32路的Superdome Flex上得到完美升华, 这次我们介绍的HPE Superdome Flex 280关键业务服务器正是最新款的、基于第三代至强可扩展平台的产品。值得一提的是,这款HPE Superdome Flex 280只是提供了从2路到8路版本的平台。换句话说,这一代的HPE Superdome Flex 280已经明确进军主流市场的想法

“虽然2路市场已经占据整个发货量的70%-80%,但是8路及8路以上的市场仍然在增长”,林迎全表示。不仅如此,在IDC的统计数据中,8路服务器市场一直有着非常好的表现,“8路及以上x86服务器市场中,8路服务器占据了大约95%的市场份额,换句话说在这个层级如果卖出100台服务器中,有95台是8路”。这或许解释了为什么这款HPE Superdome Flex 280明确定位在了4到8路市场,因为这个市场相对的增长最快、销量最大。

但即便如此,这个市场依然非常小众,而且受限于原有主机的冲击,这个市场虽然玩家不多,但是竞争依旧相当激烈。一直以来,关键业务市场都是主机的天下,无论是小型机还是大型机都是专为这个市场所设计的,自然也更得到市场的青睐。不过伴随着x86架构的兴起,越来越多的行业的业务承载被分布式的x86架构的服务器所替代,特别是互联网、数字化的蓬勃发展,出现让许多传统企业也走上了x86开放架构的道路。但是在关键领域,小机的地位依然是固若金汤。

“我们做了一些调研,在国内关键业务服务器市场中,80%-90%以上的应用场景集中于数据库,比如金融行业的银行、保险等等。其余包括制造业的生产线、ERP系统,交通行业的计费和监控系统,政府涉及的税务、社保等系统,医疗行业的HIS、PACS系统等等,也都需要关键业务服务器来实现”,林迎全介绍说。也正因为如此,虽然看似市场份额占比并不高,但是关键业务正如其名,在“关键”领域中发挥举足轻重的作用。

这正是Superdome Flex关键业务服务器所明确瞄准的市场。其实上述市场并非没有受到x86开放架构的冲击。早在2014-2015年的时候,许多传统行业也在尝试摆脱使用小型机。但最终的结果并不让人满意——因为传统架构的封闭系统和数据孤岛,让原有系统迁移的难度极大,而且在迁移之后的稳定性也无法保证,甚至出现了“反迁移”的情况——客户痛定思痛,继续选择使用小型机平台,彻底告别了x86。

这就不能不提到衡量在关键业务领域服务能力的特性——RAS。所谓RAS特性是Reliability(可靠性)、Availability(可用性)和Serviceability(可维护性)3个词的缩写。对于刚刚我们提到的通信、金融、政府、制造业等领域来说,用户对于RAS特性的关注程度不亚于对性能、可扩展性的重视。这是为什么呢?因为RAS特性关乎关键业务能否连续、稳定地运行,而关键业务一旦出现问题,造成的损失是难以估量的,其关系到企业的声誉和未来发展。

RAS特性的具体表现就是“5个9”甚至“6个9”的硬性标准。所谓“5个9”或者“6个9”,主要指的是IT系统的可靠性,是包括软硬件在内的一体化的评判标准,即系统可以正常使用时间与总时间(1年)之比。“5个9”代表了IT系统在连续运行1年时间里最多可能的业务中断时间是5.26分钟,而“6个9”的要求则更为苛刻,中断时间只有31秒。

千万不要小看这几分钟甚至几十秒,要知道在很多行业每宕机1秒都会带来巨额的经济损失。著名调研机构Qualtrics Group曾有一组数字——服务器每宕机1分钟,平均会使运输业损失15万美元,银行业损失27万美元,通信业损失35万美元,制造业损失42万美元,证券业损失45万美元……这也从直接经济效益的角度解释了关键业务平台对于稳定性和可靠性的高要求。

因此,众多关键业务选择小型机是一个必然的选择,其本质就是小型机提供了高RAS特性,可以保障业务的持续运行。也正因为如此,多少年来,即便x86架构已经占领了服务器市场的绝大多数份额,但是对于关键业务来说客户依然更信赖小型机。而HPE Superdome Flex系列关键业务服务器的出现就摆脱了这种尴尬。为了让x86平台变得更加稳定,Superdome Flex 系列关键业务服务器继承了传统小机的高RAS性能。

这其中一个技术就是高容错性。“宕机其实是一种保护机制,但这种保护机制导致了IT系统中断、业务中断”,林迎全解释说。为了让系统具备更高的容错性,不至于遇到一般的故障就宕机,HPE首先增强了包括内存在内的系统部件的稳定性,应用了包括ECC校验、ADDDC校验等多种技术,同样在UPI互联层面也进行了加强。这样一来,就使得底层系统及故障能够得到尽快的处理,也保障了系统的稳定性。

当然只有这些是不够的。针对Superdome Flex面对的高可用应用场景,增加了智能化的管理,使得系统故障可以做到“自愈”——甚至在故障产生之前,主动故障分析引擎就可以提前判断,并在第一时间进行自我修复,全程无需人工干预。由此,HPE Superdome Flex 280也实现了普通x86所不具备的从固件到数据,从处理器到内存的多层级、多部件自愈或者自我修复,这样就可以保障系统在第一时间恢复正常,提升系统的RAS能力。

当然这种“自愈”也不是全能的,就像人类的免疫力有限一样。面对那些比较大的故障,系统如果无法在短时间内进行自我恢复,就会采取下一步措施——隔离。以往,遇到这样的情况系统都会上报故障,而对于Superdome Flex来说则可以把故障暂时进行隔离,或者降低一些性能运行(比如在遇到互联故障的时候可以将带宽减半),这样虽然运行效率降低了,但是整个系统仍然在运行,也避免了宕机的出现。

比如在数据库应用场景中,许多客户都会选择大内存进行加速,比如上百GB的内存。如此多的内存放在一起会有很高的故障率,以往这也是宕机频发的“重灾区”。而Superdome Flex就提供了对于内存预警的高颗粒度检测,可以实现普通x86上难以发现的内存故障预警,并根据实际情况进行快速定位和智能化决策。“在硬件方面,这些应用措施保证了Superdome Flex系统是最强壮的x86系统”。

除了硬件,在软件层面Superdome Flex依然有过人之处。Serviceguard for Linux是HPE专有的容灾软件,它也是从原有的Serviceguard for Linux移植而来。经过20多年在关键领域的应用,Serviceguard for Linux被证明是一款成熟的、可靠的软件,而在移植到Linux环境下以后,它可以实现从最简单的双机、单一中心的、双中心的、同步的双机双模,甚至是两地三中心的这种双模加异步的备份,乃至于至实现洲际的这种容灾备份能力。这同样也是HPE整个高可用系统不可缺失的环节,构筑了HPE在关键业务软件应用的“护城河”。

你以为这就是Superdome Flex系列关键业务服务器的全部了?并非如此。伴随着智能化的发展,各行各业都在强调AI的作用,尤其是在系统运维和管理上,智能化或者自动化运维也是行业绕不开的话题。虽然以稳定、可靠等特性为主打,但是HPE Superdome Flex 280在智能化算法上也可圈可点。“Superdome Flex 本身已经内置了一些AI算法,它把一些过去积累下来的故障数据、AI模型移植到现在的平台上,也形成了本地化的小型故障排除工具。而在管理特性方面,Superdome Flex 还能够支持OneView数据中心基础设施的管理软件)和开源的OpenStack、RedFish等等。

早在20年前的小型机时代,惠普就是整个行业的佼佼者,其主打的Superdome也一直是行业的标杆机型。而在如今这个分布式、开放式架构的时代,Superdome Flex系列同样提供给了客户面向关键业务的全新选择。以往,在关键业务领域客户不选择x86可能是在可靠性、稳定性等层面有顾虑,但是Superdome Flex关键业务服务器证明了x86平台同样可以通过软硬件上的优化实现不逊于小型机的高RAS特性,同时开放架构的它也具备了更便捷、更广阔的应用空间。

从小型机到4-32路扩展的Superdome Flex和2-8路的Superdome Flex 280,科技在发展,计算在延续。

相关文章