热舞双截棍飙中文，黄教主把GTC中国峰会开成了英伟达2018成果展

　　大数据文摘作品

　　记者：魏子敏、蒋宝尚

　　“我每次来中国都学一些中文，总有一天会全程中文做完主题演讲。”

　　英伟达异常低迷的股价似乎并没有影响黄教主的心情。在刚刚结束的最新GTC 2018中国峰会上，英伟达创始人黄仁勋依然一身皮衣，激情四射地完成了长达两个小时的主题演讲。过程中，黄教主生怕现场中国听众听不懂英文没有办法互动，多次转换中文解释，“很便宜”、“太重了”、“你们听得懂吗”。

　　同时，他还在现场发布了两段鬼畜机器学习训练视频：和Michael Jackson一起热舞、以及和李小龙一起玩儿双截棍，也是煞费苦心。

　　尽管非常热闹，但这次大会并没有发布什么非常新的产品，更多是在“炒冷饭”。甚至可以说，整场大会颇像一场英伟达的2018年终成果展。

　　这场中国峰会上，黄教主回顾了今年早些时候英伟达在日本、欧洲的GTC大会上已经发布的几个比较重要的产品线，包括新的Turing、新的HGX-2、T2、Rapids、AGX Xavier等。

　　显然，今年英伟达的发布重点仍然集中在人工智能领域，特别是应用端，黄教主在大会中非常高调的宣布了在这些应用领域，英伟达都分别与哪些中国公司达成了合作。

　　还是一起来看看本次大会的演讲精华，或者说是英伟达在今年都发布了哪些成果。

　　新的Turing 通过光线追踪和Al重塑图形学

　　新的HGX-2加速了HPC

　　新的T4加速了超大规模数据中心

　　RAPIDS 加速了机器学习和数据分析

　　AGX Xavier是世界上第一台用于自主机器的Al计算机，现已全面投入生产

　　再一起具体来看看。

　　新的Turing：通过光线追踪和AI重塑图形学

　　演讲开始，黄教主提到十五年前，英伟达发明了可编程着色器。基于可编程着色器设计的GPU彻底改变计算机图形学。在手机视频游戏和游戏机中都少不了GPU。

　　英伟达最初设计的GPU，包含可编程着色器的基本处理器。而图灵(Turing)包括三个处理器，一个用于经典可编程着色的处理器，第二个处理器，专门用于光线跟踪，以模拟光线在房间内反弹时的特性。

　　图灵标志着第一次实时光线追踪成为可能。第三个处理器是核心-Tensor Coret，这个处理器使得深度学习、神经网络、人工智能以令人难以置信的速度运行。

　　Turing可凭信超过100TFLOP5的处理速度处理深度学习模型，从而生成特效、增强图像质量，并打AI角色动画。甚至可以使人物生动和人造世界非常逼真。

　　在会议上，黄仁勋以一款名为“剑影”的游戏为例，展示了GPU处理能力的强大。

　　顺应计算世界两大趋势，英伟达的HGX-2

　　“当前摩尔定律已经终结！”

　　在本次大会上，黄教主多次提到了这一趋势。而这也是英伟达和其合作伙伴需要尽快准备应对的形式。

　　一般来说，在相同的价格下，GPU性能每10年会加速100倍，这是行业输以依存的基础。英伟达也已在10年内为众多关键应用程序加速了1000倍，加速计算需要全栈专业知识，其中涵盖架构、芯片设计、系统、算法以及应用程序优化等。

　　除了摩尔定律的终结，黄教主提到的英伟达所笃定的第二个趋势是人工智能。他大肆赞扬了人工智能给世界带来的变化，并表示对于大多数行业来说，没有占统治地位的物理定律，不存在可以模仿和改进其策略的基本原则方程，而借助AI，行业可以从海量数据中学习建立预测模型，并将这些模型应用到行业的环境或运行中。数据越多，训练强大AI模型的能力越强——电商、等售、金融服务、电信、医疗保健，这些都正在成为数据驱动的Al行业。

　　那么，现在我们的数据量级有多大呢？

　　当然，人工智能讲改变运算，也将重塑计算的设计。

　　超大规模数据中心是互联网时代的产物，最适用于Hadoop或MapReduce分布式存储和计算，数百万个成本适中的节点可同时为数百万用户运行小任务。

　　科学家正在融合物理模拟和Al预测方法来创建数量级更大的模型-这一尝试在多精度Volta Tensor Core GPU的支持下得以实现。与此同时，数据科学家和Al 开发者需要使用HPC在更多数据上训练更复杂的Al模型，英伟达推出的HPC正在成为Al计算机，并且为科学家、数据科学家和Al开发者所用。

　　黄教主提到，互联网公司极度依赖机器学习来打造能够提供个性化推荐的特色服务，超大规模节点必须作为一个HPC集群，来训练模型或分别为运行各类Al 模型的数百万并发用户提供服务。

　　这样，超级计算机会变成人工智能计算机，科研、互联网和工业领域的工作内容包括机器学习，深度学习，数据分析。

　　黄教主接下来称，为了应对这一趋势，英伟达专为大型模拟仿真设计了HPC，并在今年创建了V100 HGX-2。

　　这一新产品在今年8月份发布，搭载连接8个V100GPU，总共1PFLOPS，每个GPU以300GB./s的速度与其他GPU交互，并且以每秒3T8的速度访问所有256GB的显存。其运用NVIDIA NVSwitch 连接所有GPU并整合记忆体，具备前所未见的运算效能、频宽和记忆体拓朴，可以更快速、更有效率地训练这些模型。

　　“蛮重的”，黄教主手持这台庞大的运算中心据他介绍重达300-400磅。带着他演讲了一会儿的黄教主气喘吁吁，甚至需要停下来歇会儿才能继续演讲。

　　当然，价格用黄教主的话说，也“不是很便宜的”。

　　英伟达也宣布，中国计算机产业中的领军企业包括华为，浪潮，联想，QCT，曙光，Supermicro 都正在使用HGX-2计算机，百度和腾讯将提供基于HGX-2的云计算服务。

　　新的T4为超大规模数据中心加速

　　对大规模计算集群，黄仁勋介绍了英伟达的新产品——T4，主要目的是应对那些必须以低延迟完成的工作。

　　“一旦软件构建完成，它们需要在数据中心运行，去年我们推出了第一代推理平台P4，这是一个被广泛采用的NVIDIA推理平台。”

　　在此基础上，今年英伟达发布了新的T4——新一代加速超大集群，为超大规模数据中心加速。据了解，T4引入了革命性的Turing Tensor Core技术，具有多精度计算功能，T4提供从FP32到FP16到INT8以及INT4精度的突破性性能，其性能比CPU高出40倍。

　　“很小，像candybar一样大”

　　黄仁勋称，T4的能耗比CPU还小，但比CPU速度高百倍。

　　与P4不同，T4在训练和推理方面都很出色，FP32，FP16TC，INT8 TC，INT4TC可以混合匹配，以实现最高的性能和精度，理论性能从65TFLOPS到230 TOPS。70W-适用于超大规模集群的理想功耗。

　　相对应还有一系列产品，包括TRT5——推理优化工具，支持Tensor Core和丰富的模型类型，例如，CNN，RNN，MLP等。

　　TRT 推理服务器系统也是英伟达今年一款新的开源软件，并支持单个GPU上运行多种模型，TRT 推理服务器是容器化的，可在Kubernetes上运行。

　　黄教主称，T4已经在30天前开始投入生产，并且宣布了已经有的一批中国合作伙伴

　　GPU加速机器学习RAPIDS为机器学习和数据分析加速

　　在2今年10月的欧洲GTC大会上，NVIDIA发布了一款针对数据科学和机器学习的GPU加速平台，该平台已为多个行业领先者所采用，并能帮助超大规模公司以前所未有的速度分析海量数据并进行精准的业务预测。

　　RAPIDS构建于Apache Arrow、pandas和scikit-learn等流行的开源项目之上，为最流行的Python数据科学工具链带来了GPU提速。为了将更多的机器学习库和功能引入RAPIDS，NVIDIA广泛地与开源生态系统贡献者展开合作，其中包括Anaconda、BlazingDB、Databricks、Quansight、scikit-learn、Ursa Labs 负责人兼Apache Arrow缔造者Wes McKinney以及迅速增长的Python数据科学库pandas等等。

　　RAPIDS与开源社区合作，加速数据科学和机器学习。借助V100和HGX-2，T4，RAPIDS以及所有加速堆栈，NVIDIA启动加速整个新HPC生态的过程。

　　Xavier：拥有对机器人所需的每项功能优化的专用处理器

　　2018 年1月，英伟达在CES大会发布了Xavier，拥有对机器人所需的每项功能优化的专用处理器。包括：ISP图像传感器处理单元、PVA可编程立体视觉加速器、VPU 视频处理器、OFE 光流引擎、Tensor Core可编程张量处理器、CUDA 并行计算加速器、GPU 图像加速器、DLA深度学习加速器、CPU。

　　Xavier是第一个专为处理机器人计算业务流而设计的芯片，可以处理高速率传感器、复杂传感器、Al和控制算法的传感器、机器人的处理器性能使其具有功能性、灵活性和安全性。

　　黄仁勋接下来介绍了英伟达AGX系列产品。这个系列是一个用于自主机器的Al计算机，应用适配自动驾驶、机器人和智能仪器等各种应用层面。

　　Xavier系列目前已经完美囊括包括自动驾驶、机器人等五大最热的人工智能平台，并且每一领域都已经有了一系列合作伙伴。

　　其中机器人系列已经和京东、美团、菜鸟达成合作：京东运输机器人具有连接到Jetson AGXXavier的高清传感器，可提供360度视觉和感知处理，以全面了解环境；美团选择了Jetson AGXXavier，因为它们需要最高的加工性能；菜鸟选择Jetson AGXXavier作为其最后一英里的运输车辆和仓库机器人。