破一项纪录很难,更难的是破多项纪录。

日前,业界公认的AI基准性能评测平台MLPerf官网放出了各大厂商的参赛测试成绩,其中宁畅信息产业(北京)有限公司(以下简称“宁畅”)搭载NVIDIA T4 /A100 GPU卡的Nettrix X640 G30 AI服务器,在ResNet、BERT、DLRM等基准性能测试中取得30项世界第一。

这不是宁畅第一次在性能测试领域获得如此殊荣。早在今年9月国际知名标准性能评测机构SPEC的CPU2017测试中,宁畅的R620 G30服务器就曾打破16项世界纪录;算上之前的测试,宁畅R620 G30服务器共计拥有并保持24项SPEC世界纪录。

这些成绩让人好奇——宁畅是一家怎样的公司?在整个业界看来已成为“红海”的服务器市场,宁畅作为新玩家的目标如何,能否占据自己的一席之地呢?我们下面就尝试对这些问题一探究竟。

行业“老兵”创业,实力不可小觑

主流服务器市场已很久没有新鲜血液加入,更多的是厂商间的合并与协作,比如IBM与联想、HPE与新华三都走了类似的道路。也正因为如此,中国服务器市场的玩家实际上变得越来越少,即便放眼全球,HPE与Cray的合并也符合了“分久必合”的大趋势,一年前放眼市场,服务器市场格局似乎已定。

宁畅服务器品牌发布现场

但宁畅的出现打破了这样的局面,这家注册于2019年12月的公司是一家全新的服务器厂商。但组建宁畅的团队成员却是行业老兵。在官网上我们看到这样的描述:“宁畅团队专注服务器领域已有15年,早在宁畅公司创立前,核心团队研发服务器产品广泛应用于互联网、电信、金融、医疗、教育等行业”。

这也是我们意料之中的情形,毕竟上榜MLPerf和SPEC在内的许多测试都需要专业的技术和多年的积淀,并非一朝一夕能够完成。你可千万不要以为这些项目只要制造出一台服务器就可以送去测试了,其实这背后还包括了大量优化的工作,甚至MLPerf测试本身就设计了“优化赛道”,鼓励企业进行特定AI应用优化。

从这个角度来说,宁畅能够拿下30项第一绝非侥幸,证明这家公司在技术领域的深厚储备。而在市场策略上,宁畅也打破了传统销售中标准服务器的模式,走上“精细定制化”的道路,为各种规模的客户提供差异化的服务器定制服务。

“定制化”这三个字说起来容易,但是在实际生产中不同行业、不同客户都会提出五花八门的需求,而宁畅要做的就是聆听客户的差异化需求并给出切实可行的方案。单就这一点,就意味着宁畅有着强大的设计与研发团队,并且在制造和成本控制上实现了业内一流水准。

这次的MLPerf测试比赛就是最好的证明。

瞄准差异化定制,宁畅打造多卡“性能猛兽”

X640G30 AI服务器是宁畅精心打造的一款AI服务器,它最大的特点就是超大的扩展空间和灵活多变的设配能力,如最高可支持10张NVIDIA A100 PCIe卡或21张NVIDIA T4 PCIe卡,无论是进行AI训练还是AI推理都变得游刃有余。而在这次MLPerf测试中,X640 G30 AI服务器的表现也相当抢眼。

16卡配置X640 G30部分测试分数对比图

同配置下更能看出不同品牌的差异化,这种差异化一方面是硬件的差异,另一方面也体现了软件优化的层级。对比行业同配置AI服务器,X640 G30 AI服务器搭配四张A100 GPU卡的情况下,在Resnet50、SSD、RNN-T、BERT、DLRM等10项测试中分数值取得世界第一;搭配16张T4 GPU卡配置的情况下,X640G30打破六项世界纪录,性能一骑绝尘。

X640 G30平均单卡测试分数对比

同样的领先也出现了平均单卡性能方面(单卡平均性能=整机测试结果/搭载GPU卡个数),X640 G30 AI服务器在提交成绩的13家服务器厂商中也表现抢眼,获得了11项性能第一成绩。由此看来,无论是单卡、多卡还是平均性能,X640 G30 AI服务器都表现出了强大的领先优势,这也与宁畅对于产品的锤炼与打磨分不开。

如今“软件定义XX”的概念越来越普及,也让许多人看到了软件的提升作用而忽视了硬件的表现。但即便是工业标准服务器,不同厂商的x86就一样吗?答案是否定的,不然无论是MLPerf还是SPEC测试就都没有存在的意义。事实上,一款合格的服务器出厂之前要经过大量测试与配置设置,而不同品牌对这些测试的要求上限也不同。

宁畅服务器产品家族

宁畅的服务器也是如此。在满足“行业标准”这个底线之外,为提升品质、为用户带来更好体验,宁畅服务器除了进行“常规压力测试”之外,还涵盖了电磁耐受性、高温高热、跌落震动等多个层面的测试,进一步保障了服务器自身的稳定性与可靠性,也有助于产品性能的最大化发挥。

作为电子设备,电流是零部件之间沟通的唯一手段,而保证电性能可靠、信号质量纯净也是保障服务器稳定的第一道屏障。为此,宁畅服务器在设计之初就进行过Base function基本验证测试、Efficiency效率测试、Inrush Current电流冲击测试、Overshoot&Undershoot过冲和下冲测试等等,确保电性能的稳定性。

在确定了电流稳定性和板级严谨测试之外,兼容性也是一台服务器必须要进行的测试。为此宁畅针对客户需求,对于内存、硬盘(HDD、SSD、NVMe)、网卡、阵列卡等常见扩展卡的兼容性测试,同时这些测试都会使用客户自用操作系统去做全面验证,模拟客户体验并给出反馈。更重要的是,在这个环节还会进行性能模拟测试,这也就是刚刚我们提到的SPEC测试相关内容。

作为主打“精细化定制”的服务器厂商,宁畅需要最大限度快速满足客户需求,因此开发出了“自动化测试”系统平台,用宁畅人自己的话说就“好比一台车要在高速路上边跑边组装、边检验,车停下来便完成所有测试与装配,用户接过方向盘就可开走”。

宁畅自动化测试能力

说起来容易做起来难。其实放眼整个行业,像宁畅一样具备全面自动化测试能力厂商屈指可数。凭借着行业的深厚积淀,宁畅研发的自动化测试平台NASA(Nettrix Autotest and Stress Application)则可以从测试环境搭建、测试日志收集、测试数据分析,到最后的测试bug提交,已实现全面自动化,测试用例自动化覆盖高达95%以上。

保障了稳定性、兼容性,宁畅还要考虑到客户对配置、BMC、BIOS等底层系统以及接口的设置要求。从市场端来看,超过半数客户的服务器都需要定制化以组建数据中心,如大家熟知的BAT,以及互联网后浪:字节、美团、拼多多等,都有自己管理、配置数据中心的标准。而这种定制化数据中心的需求,对于众多中小互联网企业同样存在。

这也是宁畅打出“普惠定制”牌的底气,依托自己技术积累降低“定制化”服务器行业门槛,做大市场蛋糕。

中标6000万元订单,服务器定制化呈新蓝海

日前,宁畅官网爆出了中标某 “互联网大厂”6000万元大单消息。虽然并没有说出这家公司的名字,但我们可以看到宁畅产品以及技术实力,已获得行业头部用户的认可。

截至10月,宁畅公众号文章显示,宁畅已中标的互联网权威用户已涵盖搜索、视频、云计算诸多行业。许多人都觉得服务器定制化的业务太高端,要求太高、利润太薄,许多企业也不太愿意参与。

但是宁畅服务器从发布到现在的半年多时间看来,这部分业务却有着非常大的市场,除了之前以互联网为代表的超大规模数据中心之外,其实5G、移动通讯、电信以及边缘计算等多个领域的客户也同样有定制化服务器的需求,这也恰恰是符合宁畅所强调的“行业精细化”的范畴。

当然,获得某项或者多项第一,打破世界纪录亦或是中标千万大单都是硬实力表现,但对于初创公司宁畅只能说是“万里长征迈出了第一步”,未来更长更远的路还在等待着它,我们也希望宁畅能不断挑战自我,为更多客户提供符合业务需求的优质产品。

相关文章