原标题:劝劝你的同事吧,数据科学需要开放的态度

文/IT创事记 祁萌

英特尔建议基础设施架构师们做出一些努力,来帮助同事们可以用开放的态度选择平台。

这些从事着数据科学工作的同事常常以为,基于GPU的硬件平台能够广泛地为深度学习训练工作负载提供非常高的吞吐量,进而加快人工智能模型的开发速度。

在一些专门的深度学习训练中,这种使用专用硬件加速的观点其实并没有什么不妥。不过在许多数情况下,事实并非如此。

因为职务视角的关系,他们至少没有从两个维度去考虑这种选择的合理性,而这两个维度,也都是投资人工智能的企业最关心的部分。

这两个维度中,一个涉及了数据分析或人工智能作业的核心工作流程,另一个则涉及了整个IT基础设施平台本身的投资回报问题。

通常在企业发现人工智能的应用场景,也就是用例后,都会进入一个的固定流程,我们把它叫做人工智能应用的底层数据管道。它需要从数据的创建、传输和提取起步,经过数据准备、数据分析,最后才能支持企业付诸行动——进入人工智能的部署和应用。

Business Broadway此前发布的一份分析结果显示,目前在这个流程中,收集和清洗数据要耗费数据科学家大约40%的时间,而这个流程如今大部分需要在英特尔至强平台上完成。

而在这一流程的后半部分,也就是应用最终以企业级规模部署到生产环境中时,企业通常仍会选择通用计算平台进行机器学习和深度学习的推理——毕竟很少有IT团队会拥有足够的预算,来为此提供相应规模的GPU平台。

讨论这一问题的一个前提是,英特尔至强平台原本就拥有多种用途,能够支持广泛的工作负载。借助软件优化和集成英特尔深度学习加速技术的推理加速功能,基于CPU运行人工智能的速度已经大幅提高了。

所以,在许多非专门的深度学习训练中,如果数据科学家部署小规模的GPU平台只是用来实验新算法和工作负载,那对于投资而言就不那么经济了。

基础设施架构师往往对这种不“经济”的感受更加直接和深刻。一方面是因为架构的复杂性提升了;另一方面,效率、可扩展性和灵活性也会受到这种选择影响。

在效率表现上,由于针对常见人工智能软件框架,如TensorFlow和PyTorch、库和工具所做的优化,CPU平台可以帮助保持较高的性能功耗比和性价比。

尤其是扩展性上,用户在设计系统时可以利用如英特尔以太网700系列,和英特尔傲腾内存存储技术,来优化网络和内存配置。这样一来,他们就可以在充分利用现有硬件投资的情况下,轻松扩展人工智能训练的工作负载,获得更高的吞吐量,甚至处理巨大的数据集。

英特尔深度学习加速技术在这里起到了重要的作用。第二代和第三代英特尔至强可扩展处理器在集成了这些技术后,显著提升了嵌入式人工智能工作负载的性能。

其中,今年6月发布的第三代英特尔至强可扩展处理器对bfloat16(BF16)浮点格式的支持,不仅进一步提升了模型推理能力,还能为模型训练提供支持。

bfloat16是一个精简的数据格式,与如今的32位浮点数(FP32)相比,bfloat16只通过一半的比特数且仅需对软件做出很小程度的修改,就可达到与FP32同等水平的模型精度。

Facebook曾经联手英特尔在多卡训练工作负载中验证bfloat16的优势——在不修改训练超参数的情况下,BFloat16与单精度32位浮点数 (FP32) 得到了相同的准确率。

在英特尔和Facebook的联手下,经采用支持BF16加速技术的第三代英特尔至强可扩展处理器来训练模型,性能较 FP32 提升了1.64 倍。

除了在处理器上提供更强的人工智能性能,英特尔目前在面向人工智能优化的软件,以及市场就绪型人工智能解决方案两个维度,都建立起了差异化的市场优势。

例如在软件方面,英特尔2019年2月进行的 OpenVINO/ResNet50 INT8 性能测试显示,使用 OpenVINO或TensorFlow和英特尔深度学习加速技术时,人工智能推理性能可提高多达 3.75 倍。

不只是互联网巨头,在如对人工智能应用有着很高期待的医疗行业,英特尔的解决方案也获得了惊人的效果。

GE医疗是GE集团旗下的医疗健康业务部门,它构建了一个人工智能医学影像部署架构。

在这个解决方案中,GE医疗采用了英特尔至强可扩展处理器,和英特尔固态盘,以及多项英特尔关键技术——例如英特尔深度学习开发工具包,和面向深度神经网络的英特尔数学核心函数库等。

从效果看,这一解决方案最终比基础解决方案的推理速度提升了多达14倍,且超过了GE原定推理目标5.9倍。

相比这些有一定技术实力的行业Top企业,更多对人工智能抱有期待的企业,正在从英特尔完整的生态系统中获得这种能力的提升。

今天,英特尔已经携手解决方案提供商,构建了一系列的精选解决方案。这些方案预先进行了配置,并对工作负载进行了优化。这就包括了如基于人工智能推理的英特尔精选解决方案,以及面向在面向在Apache Spark上运行的BigDL的英特尔精选解决方案等。

主流云服务商同样看到了它的市场价值。目前,主流云服务商已经开发了面向英特尔架构优化的与配置人工智能环境。在这一环境下,用户可以利用英特尔深度学习加速技术等功能,为按需部署等人工智能提供支持。

其中,AWS提供了面向机器学习和计算密集型应用优化的EC2实例;Microsoft Azure则提供了面向英特尔架构优化的数据科学虚拟机(DSVM);而Google Cloud Platform则提供了面向英特尔平台和新推出的英特尔机器实例的TensorFlow优化。

对于广泛需要本地部署人工智能的企业而言,英特尔所提供的差异化优势同样可以便捷获取。在如Dell、HPE以及Lenovo等主流OEM供应商那里,他们同样可以轻松获得经优化后可在英特尔至强平台上运行的AIaaS——人工智能功能即服务。

【IT创事记】聚焦于企业级科技生态、策略及商业知识。你可以在各主流媒体平台看到IT创事记的同名文字专栏和【IT创事记·视频】专栏。如果你有相应的内容希望分享,记得在公众号留言告诉我们。

相关文章