2018年8月20日,NVIDIA在德国科隆国际游戏展上举办了GeForce Gaming Event展前发布会,正式发布全新一代的GeForce系列游戏显卡。该显卡采用全新的图灵架构,首次引入GDDR6显存技术以及NVLink多卡互连技术。在命名上也并非之前传闻的GTX 1180,而是全新的RTX 20系列显卡。

既然是一个全新设计的架构,我们就要好好看一看这个以计算机科学之父、人工智能之父艾伦·麦席森·图灵(Alan Mathison Turing)命名的Turing图灵新架构到底有哪些过人之处:

一、硬件方面

Turing图灵架构,也是台积电12nm(有说法称最初计划使用三星10nm),其中最大的核心TU102集成189亿个晶体管,核心面积754平方毫米,是仅次于GV100的史上第二大GPU核心。相比上代Pascal帕斯卡家族的大核心GP102,它的晶体管数量增加了55%,面积则增大了60%,甚至是次级新核心TU104都超越了GP102,拥有136亿个晶体管、545平方毫米面积。

帕斯卡架构每个SM阵列集成128个FP32浮点单元,图灵架构则改成了2个FP64双精度浮点单元、64个FP32单精度浮点单元、64个INT32整数单元、8个Tensor核心、一个RT核心。支持浮点和整数并发操作,并有新的执行数据路径,类似伏特架构汇总的独立线程调度。按照NVIDIA的统计,每执行100个浮点指令,平均会有36个整数指令,两种指令可以并发执行。如此一来,帕斯卡架构的整数和浮点计算就可以分配得更加均衡,并与新的Tensor、RT核心相配合,更合理、高效地完成各种负载。整体而言,图灵核心的CUDA阵列可以每秒执行14万亿次FP32浮点操作、14万亿次INT32整数操作。

二、实时光线追踪技术

光线追踪(Ray Tracing)技术则堪称图形界的“圣杯”,简单地说就是在图形渲染过程中实时跟踪物体和环境的光线,准确进行光线反射和折射、全局照明、物理阴影的绘制,可以带来近乎百分之百真实的渲染画面,尤其是光影效果。其工作原理简而言之即为利用光源以及光的反射原理,在画面渲染上从被动式变为主动式。我们可以把之前的画面渲染看做是手绘,我们看到一处风景不错,构思好画面后进行绘画,在创作的时候就要考虑到不同光线照射在不同物体、不同角度后产生的不同画面景象,而实时光线追踪更像是一台照相机,创作者无需考虑光线变化所带来的画面的变化,显卡会对这些数据进行计算,并最终呈现出最接近真实状态的图形,对于开发者来说是随时随地随手拍摄就能出现的图像。

三、Tensor核心、AI加速

NVIDIA在伏特架构上引入了全新的专用处理模块Tensor Core,也就是张量计算核心,重点用来支持深度学习、高性能计算(也是晶体管大户)。图灵架构则是在游戏卡上引入Tensor Core,同时针对游戏图形应用做了大量的调整优化,尤其是浮点精度方面。

现在火热的深度学习,就运用了超大规模的数据运算,其中就经常会用到矩阵融合乘加(FMA)运算,Tensor核心就是为这种矩阵数学运算专门服务的。它可以对两个4×4 FP16浮点矩阵进行相乘操作,然后将结果加入到另一个4×4 FP16/FP32浮点矩阵中,最终输出新的4×4 FP16/FP32矩阵,这叫做混合精度数学运算,因为输入矩阵是半精度,结果则可以达到全精度。每个时钟周期内,图灵架构的Tensor核心可以执行64个FMA运算,从而大大加速矩阵运算,可用于新的神经实时图形渲染、深度学习训练和推理。

NVIDIA把看起来高深莫测的Tensor核心放到游戏卡里,显然不是做专业运算的,其深度学习能力也是为游戏服务的,结合新的神经图形框架(Neural Graphics Framework),简称NGX,可以在游戏中实现DLSS深度学习超采样抗锯齿、AI Super Rez超级分辨率、AI Slow-Mo慢动作、AI InPainting等等。这些计算繁琐、资源消耗巨大的操作,在以往也可以实现,但会付出很大的代价,效果也不尽如人意,如今有了新的Tensor核心,就可以建立属于GPU核心自己的DNN深度神经网络,将AI融入游戏。

四、混合渲染、高级渲染

图灵架构虽然引入了光线追踪,但以现在的GPU性能和技术算法,显然不可能把一切渲染都交给光线追踪,传统的光栅化渲染依然离不开。

五、GDDR6显存

随着Geforce RTX 2080以及RTX 2080Ti显卡详细规格的公布,高速、低电压、低功耗,大容量的GDDR6显存成为关注的焦点。本次Geforce RTX系列采用的是三星打造的GDDR6显存芯片,采用10nm级工艺打造,两个读写通道,引脚带宽提升到18Gbps,速度更快,可达到72GB/s的数据传输速率。在电压方面,也从GDDR5的1.55V下降至1.35V,功耗降低35%左右,同时支持8K视频处理、VR、AR以及人工智能等领域。通过降低电压的方式,GDDR6能够实现降低运行功耗的目的,将进一步降低终端产品的能耗。另外,但显存容量上,较GDDR5的单片8GB和16GB(单片容量1GB或2GB),GDDR6可以提升到32GB,也就是单片4GB。

小结:本次新显卡的上线伴随着游戏性能的大幅提升,对于游戏玩家而言,将会在游戏中得到更好的游戏体验,往常只能望而兴叹的游戏或许在未来可以成为可能。特别是在VR方面,图灵是英伟达首款支持USB Type-c和VirtuaiLink的显卡系列,通过单条轻量级USB-C数据线来驱动下一代VR头显,推动VR走向下一代。

查看原文 >>
相关文章