摘要:在处理器封装的左下角是用于储存操作系统的闪存颗粒,考虑到这是一个承载着深度学习模型的,「可升级到自动驾驶能力」的硬件,闪存颗粒的容量应该不会小。特斯拉芯片总工程师 Pete Bannon 表示,处理全自动驾驶的缓存带宽至少要达到 1TB/秒,而 FSD 芯片的 SRAM 实际上能提供 2TB/秒的带宽。

关注并标星电动星球News

每天打卡阅读

更深刻理解汽车产业变革

————————

距离马斯克发布「毁天灭地」的 Autopilot 硬件 3.0 已经过去两个多月了——但有一个问题:这块以「全自动驾驶(FSD)」命名的电路板,真的价值 56000 元吗?或者说的更严重点,它真的代表着人类出行的未来吗?

我们曾经对那场发布会进行过解析,感兴趣的朋友可以在公众号后台回复「FSD」查看。

而现在,美国知名智能汽车媒体 Clean Technica 似乎拿到了更多幕后消息。

在前两天的文章里面,Clean Technica 针对硬件 3.0 的技术规格作出了更具体的判断——这是一只猛兽!

我们将这篇文章绝大部分进行了翻译,并作未改变意思的编辑和注解,顺便在文末加了几个彩蛋。

  • 总览:来自车企的芯片弄潮儿

首先让大家看一张硬件 3.0 主板的图片。

根据马斯克的说法,这块主板做了完整的冗余,也就是说硬件 3.0 的每一个功能区都可以损坏,而整套硬件依然可以保持正常工作。主板的右侧是一些视频输出接口,左侧是电源接口和一些另外的输入/输出接口。

整块主板最明显的部分,就是硕大的两个银色处理器封装(称它们为处理器不太合适,稍后会解释)。两个处理器不是为了增强性能,而是为了图像处理的安全和准确性——特斯拉实际上只允许一块处理器工作,另一块是为了冗余和相互对照处理结果。

在处理器封装的左下角是用于储存操作系统的闪存颗粒,考虑到这是一个承载着深度学习模型的,「可升级到自动驾驶能力」的硬件,闪存颗粒的容量应该不会小。

处理器封装的两旁是各自 4 片,一共 8 片 LPDDR4 运行内存颗粒。虽然 FSD 硬件使用的是三星的 14 纳米工艺,但是运行内存颗粒上面很明显打着镁光的 LOGO。采用镁光内存颗粒的原因可能是镁光颗粒的频率相对更高,而三星颗粒的频率更低一点。

LPDDR4 是一种运行内存规范,是从DDR4 规范的分支,主要应用于功耗更低的移动设备,比如说手机等。LPDDR4 的速度比 DDR4 略慢,但是还是比硬件 2.X 的 DDR3 运行内存速度快很多。

最后再回到水冷模块下面的两块银色处理器封装。

单块封装的面积大概是 260 毫米,Clean Technica 做了一张主流芯片的封装面积对比图。可以看到 2016 年英特尔的 14 纳米处理器 i7 6700K 面积大概是 176 平方毫米,16 纳米工艺,单芯片算力为 FSD 芯片 21%的英伟达 Xavier,封装面积是 350 平方毫米。12 纳米工艺的 2019 年顶级 GPU,RTX2080Ti,封装面积是 754 毫米。

  • 硬件 3.0 主芯片:心有猛虎

上文说过的「处理器封装」其实并不准确,因为在封装里面包含着三种不同的处理单元:负责图形处理的 GPU、负责深度学习和预测的神经处理单元 NPU,还有负责通用数据处理的中央处理器 CPU。

特斯拉官方表示,图像数据处理的流程首先从摄像头的高速数据传输开始——高速指的是 25 亿像素/秒,大概是往 21 块 1080P 的全高清屏幕塞 60 帧画面的程度。这个数据传输速度比特斯拉车型现有的8颗摄像头可以产生的数据量多了不止一个维度。

如此高的传输速度现在还用不上——因为 FSD 芯片内置的图像处理器ISP最高「只能」处理 10 亿像素的数据量,也就是 8 块 1080P 屏幕每秒 60 帧的程度——这已经追上现在世界上最快的消费级图像传输标准 DisplayPort 1.4 了,而车载芯片「传统上」是要落后消费级起码一个时代的。

图像处理器 ISP 的作用主要是将摄像头产生的原始 RGB 三原色数据转化成复杂的图像信息,这些信息的下一站是神经处理单元 NPU,NPU 会根据深度学习模型对图像数据作出处理——但在此之前,这些数据将会存储在 SRAM 内。

那什么是 SRAM?

SRAM 一般被应用在处理芯片的 1-3 级缓存上,你可以简单地将它理解为比运行内存速度快很多,同时成本也高很多的存储芯片。有多快?特斯拉芯片总工程师 Pete Bannon 表示,处理全自动驾驶的缓存带宽至少要达到 1TB/秒,而 FSD 芯片的 SRAM 实际上能提供 2TB/秒的带宽。

那32MB 的缓存又是什么概念?做一个不是十分准确但足够形象的比较,零售价 16999 元的英特尔酷睿 i9-9980XE,SRAM 缓存总量也仅为33.75MB。另一个细节是,2010 年英特尔CPU的最大 SRAM 仅为16MB,2014 年也只是增长到了 24MB。

SRAM 的价格之高,特斯拉 SRAM 规格之激进,相信大家也能管中窥豹——而 Pete Bannon 在发布会上也将巨大的 SRAM 容量总结为 FSD 芯片对比市场上同类芯片的最大的优势。

芯片内部的所有数据都在浅蓝色标注的主通道上传输,或者叫NOC(Network on Chip),然后才会经过总带宽为 68GB/s的LPDDR4 运行内存——所以特斯拉目前的传感器数据产生量大概率不会超过 68GB/s,甚至不会超过 34GB/s,当然这也已经是一个很吓人的数字了——但内存带宽可能还是自动驾驶的瓶颈。

NPU 是 FSD 芯片里面的真正大杀器。但总有一些其他方面的数据处理是NPU 无法完成的,这时候就需要 CPU 和 GPU 共同参与。

FSD 芯片内置了主频为 1GHZ 的 GPU,拥有 600TOPS 的运算能力。特斯拉的表述是 GPU 主要负责一些后处理的任务,比如说描绘人类能看得懂的界面和图形——也就是说 2.X 时代特斯拉自动驾驶硬件的 AB 面设计将会大概率被取消。总的来说,按照特斯拉在发布会上对 GPU 的描述,以后的 FSD 芯片里面,GPU 的地位将会被继续削弱。

除此之外,一些通用数据只能交给 CPU 处理,特斯拉采用的是 12 个 64 位 ARM Cortex A72 内核,运行频率为 2.2GHZ——准确点说应该是三个四核 CPU 的并联架构。

特斯拉对于 CPU 架构的选择有点让人摸不着头脑,因为 A72 是 ARM 在 2015 年推出的架构(虽然 2016 年才正式商用),往后可用的架构包括 A73 和 A75(A76 和 A77 是 2018/2019 年发布的)。

不过考虑到 FSD 芯片的研发是从 2016 年开始的,采用再前一年的架构也很正常。因为老架构更便宜,而多个核心叠加的方式也保证了多线程总性能不比如今顶级的 4 核心移动端 CPU 弱,甚至尤有胜之——硬件 3.0 的 CPU 性能是硬件 2.5 的 2.5 倍。

  • 英伟达该开始紧张了?

在 FSD 芯片吊打全宇宙之后,英伟达在官方网站上发文称特斯拉此举「提升了自动驾驶计算的门槛」,满满的商业互吹味道。

事实上,英伟达本身就是被吊打的主角。目前多家 Tier1 供应链厂商和主流车企都在采用的英伟达 AGX Xavier,是 FSD 之前算力最强的车载计算芯片——能提供 30TOPS 的算力(特斯拉在发布会称 Xavier 算力为21TOPS,那是仅计算 GPU 单元的算力,后来英伟达发文指正)。

但特斯拉提出 21TOPS 的标准非常诛心:「多少 TOPS 能够真正应用于自动驾驶相关的图像处理和行为预测?」

这个标准和「芯片能提供多少算力」是截然不同的,它涉及到芯片本身的效率。当然英伟达标注 30TOPS 并没有做错,因为 Xavier 并不仅能用于自动驾驶,还能处理其他与汽车相关的数据。

所以我们必须清楚,当我们评判一套复杂的软件体系的时候,最根本的目的就是要看它能达到多高的工作效率。最好的硬件,并不总是那些拥有最高理论性能的硬件。

特斯拉的 FSD 芯片非常复杂,连本应该是主处理器的 CPU,在 FSD 体系下都沦为了「协处理器」。特斯拉成功打造了一套在处理「自动驾驶」场景下非常高效的硬件,但在运行其他驾驶相关任务的时候却未必。

然而英伟达也充分暴露了缺点——英伟达 AGX Pegasus 最高可以通过双芯片的布局实现 320TOPS 的总算力,但英伟达自家的 NV Link 2.0 多芯片数据传输标准却只能提供 100GB/s 的带宽。要知道坐拥 2TB 带宽SRAM 的特斯拉也已经开始抱怨带宽不够用了。

更何况 AGX Pegasus 双芯片的功耗高达 500W,在大多数电动汽车还没达到随便开 500 公里的今天,每小时多用小半度电依然是个不小的挑战——而 FSD 芯片的功耗可以保持在 200W 左右。

  • 硬件 4.0 什么时候到来?

马斯克在自动驾驶投资者日的发布会上,说过新一代的 FSD 芯片会在两三年内到来,而性能将会起码再翻一番。Clean Technica 也对硬件 4.0 的技术规格做了一点预测:

首先,CPU 部分将会跟进最新的架构。考虑到 FSD 2 代已经在研发当中,Cortex A75 会是一个可能性相当高的选择。新的架构在提升性能的同时还会更省电,同时能节约更多芯片内的空间。

其次,特斯拉可能会将运行内存升级到 LPDDR5(这一点我们表示不赞同,因为 LPDDR5 甚至还没有进入消费领域)。也有可能特斯拉为了成本和功耗的考虑小幅升级到 LPDDR4X,更低电压同时还有更高速度(这点我们同意)。

另外还有基本是板上钉钉的 SRAM 容量提升,以及新一代摄像头——现在的摄像头甚至无法满足硬件 3.0 的处理能力。最后一点可能就是彻底消失,或者起码篇幅极小的 GPU,毕竟硬件 3.0 中 GPU 的唯一作用只有处理那些 CPU 和 NPU 无法处理的车机画面显示。

  • Clean Technica 的总结

特斯拉硬件 3.0 是一头彻头彻尾的猛兽——然后还要提几点可能大家没注意到的,但能够解释为什么硬件 3.0 使特斯拉领跑自动驾驶赛道的细节,领跑指的是败者食尘那种领跑。

几乎所有现在在做电动汽车的企业都有那么一两手必杀技,但如果是和特斯拉比。即使是 2012 年的 Model S,都算得上是秒杀全场,而这还只是在电动汽车的基础素质上秒杀,比如说续航、充电。

至于在智能、自动驾驶、自研能力上面,特斯拉的垂直整合能力可以说是天下无双。

其他汽车厂商造电动汽车的方式,就是在供应链上买积木,如果买来的积木拼不上,那就用小刀略作修改,或者只能再买别的积木——而特斯拉造车,是自己造积木,所有部件浑然天成,并且都有着自己的升级迭代计划。

马斯克曾经说过,自动驾驶能且只能在纯电动汽车上面实现,他是对的。汽油机相对更滞后的动力响应,以及更复杂的控制,都让自动驾驶在汽油车上变得更危险。

最后,FSD 芯片再次证明了,特斯拉依然在领先全世界——领先好几年那种。

  • 电动星球的彩蛋

我们其实找到了一些更深入的消息。

前不久我们在 Reddit 上面找到了一张 6886x3511 像素的 FSD 主板黑白照片。我们无法 100%确定这张照片是真的,但是可能性起码达到了99.9%,因为上面每一个零件都有编号,而且连 PCB印 刷的瑕疵都异常清晰。

在芯片封装的左边是运行内存颗粒,镁光的 LOGO 和颗粒序列号清晰可见——而序列号就是颗粒的身份证号,可以通过序列号查询出颗粒的具体规格。

首先,根据第一行序列号,这是一颗 2018 年第二周生产的颗粒(8表示2018,B 表示第 4 周,镁光只在双数周进行颗粒封装),然后这是一颗 D-Die 颗粒(D 代表 D-Die,属于镁光产品线中性能相对一般的型号), 77 分别代表芯片生产地和封装地,7 代表中国台湾(5 代表中国大陆)。

第二行序列号相对更复杂,我们登陆了镁光的官网,输入第二行序列号进行解密,然后得到了颗粒的详细编码,根据这一行编码,我们可以得知颗粒的详细规格。

其中MT 代表 Micron Technology,镁光科技的名称;53 代表这是一颗 LPDDR4 颗粒;D 代表 1.1V 的工作电压;512M 表示单颗颗粒的容量为 512MB;32 表示单颗粒位宽为 32bit,D2 表示这款颗粒是双层封装,也就是单颗体积里面有两颗 512MB 的颗粒,总容量 1GB;DS 是包装编号;046表示这款颗粒的工作频率是 2133MHZ;第一个 A 表示Automotive,车用颗粒;后面的 AT 表示 Automotive Temperature,符合车载工作温度要求;最后一个 D 依然表示这是一颗 D-Die 颗粒。

也就是说,特斯拉硬件 3.0 实际上是拥有 4GB(考虑双系统冗余)128bit 2133MHZ运行内存的,这个技术规格并不算顶尖——但那是与消费级电脑相比,与车载运算系统比,其实可以算是顶尖级别的了。

在 FSD 芯片的左下角是一颗闪存芯片,上面没有 LOGO,但是有一串序列号——这是东芝闪存颗粒特有的序列号。

东芝官网没有查询入口,我们在美国商业资讯网 businesswire.com 上面找到了 2017 年 12 月的一则供应链新闻,里面提到了这款闪存的型号 THGAF9G8L2LBAB7,是一款满足车载娱乐系统和 ADAS 系统工作需求的 UFS 2.1 高速闪存,容量为 32GB。

32GB 应该算是一个不大不小的数目,但用于承载操作系统和深度学习模型已经足够了,因为自动驾驶硬件上面的存储芯片并没有多媒体存储的需求。

在两块 FSD 芯片的下面,是一块印着 M 字 LOGO 的芯片——这是顶级网络芯片公司 Marvell 的 LOGO,根据上面的产品编号,我们也在谷歌上找到了相对应的芯片,隶属于千兆级别的有线网卡系列,最大传输速率为 128MB/s,其他的用途我们并不清楚。

以上,可能就是在狠心车主拆解之前,全网对于特斯拉 FSD 芯片最详细的解析了,希望大家没有睡着,我们下次再见。

相关文章