从车间一出来,紧接着我们就被带到了旁边的停车楼楼顶。这里正好可以看到旁边正在建设中的 Fab 38 工地。Fab 38,代号“Sparrow”,是英特尔在 Fab 28 的旁边修建的一座新晶圆厂,面积差不多(原话“还是4个美式橄榄球场”),但整体技术水平更加先进,耗资超过10亿美元。由于 Fab 38 采用了特殊的房顶设计,需要一座极其巨大的起重机才能够吊起组成房顶的一节钢架。于是英特尔找来了比利时起重巨头 Sarens,在 Fab 38 工地上组装一台 SGC 系列巨型起重机。这将是目前为止全球第二大起重机,吊钩载重达到了惊人的2850吨。(第一大在慕尼黑,客户也是英特尔)仅为了组装这台起重机都要用到4台塔吊,花费至少一个季度。而且整个工程实在太大,需要的水泥太多,以至于英特尔直接在工地旁边修建了自己的水泥厂。Fab 28 代表的是英特尔的今天,而 Fab 38 将会代表这家芯片巨头的未来。落成启用后,Fab 38 预计将主要采用更新的 RibbonFET + PowerVia 技术来取代“过时”的 FinFET 晶体管工艺,用于生产 Intel 4、3、20A 等未来制程产品,并且成为近两年公司力推的代工服务战略 IDM 2.0 的基地之一,从而更好地服务亚洲和欧洲的代工客户。
上世纪70年代美国半导体人才严重短缺,英特尔召回了公司早期员工、EPROM 技术的发明者多夫·福罗曼 (Dov Frohman),满足了他返回故土以色列创办高科技研究中心的夙愿,让他在海法创办了 IDC。最初 D 字代表设计 (design),后来全面升级为研发 (development)。这次我的以色列行程,除了 Fab 28 之外的另一站就是位于 IDC 的芯片测试实验室。对于英特尔来说,芯片测试并不是从产线上随机抽个样,装到主板上看下能不能开机——整个测试流程非常复杂,要求严苛,而且该公司的指标是“每一枚出厂的芯片都必须经过测试”(流程不尽相同)。为此英特尔在 IDC 大楼内修建了一座巨大的、迷宫一般的芯片测试实验室,包括开机、验证、游戏、跑分、外设兼容、极端环境稳定性等多项测试内容。甚至当芯片出现故障的时候,这里还有一个神秘的“芯片手术室”,有一组身份对外保密的工程师在里面,对芯片进行纳米级微创手术……另外在前面提到的 IDM 2.0 战略之下,英特尔还为包括微软、戴尔、联想等在内的 Windows 设备品牌提供测试服务,这些测试工作也是在 IDC 的实验室环境下进行的。这些测试工作不仅由 IDC 员工完成,每次有新一代芯片问世时,来自全球各地的设计师、工程师都会参与。
接下来正式进入芯片测试实验室。我们的第一站是开机房 (power-on room)。简单来说,芯片设计师首先做出纸面设计,然后交到晶圆厂“打样”,花费几周到几个月不等的时间生产出 ES1(工程师样本)芯片。出厂之后,测试样品的第一环节就是开机。然后是验证实验室 (validation lab)。在这里,英特尔会进一步对芯片的各项子系统(集成显卡、逻辑、内存、连通性、兼容性)进行深入的验证测试。由于英特尔需要在这里运行数百甚至上千台测试机,整个验证实验室的占地面积也很大。这样做的原因是测试工作不能随便抽几张芯片进行,必须实现规模化。验证测试环节会采用一些市面在售的硬盘、内存、显卡等。但为了更好地测试芯片对于还未普及的新技术的兼容性,工作人员也会自主设计一些高度定制化的主板、PCIe 模拟卡、USB 外设模拟设备等。比如,测试用的主板就不是市售的,而是英特尔自主设计,名为“参考验证平台” (RVP),里面的功能和配置都可以通过远程遥控来实现,省的工程师还要跑来跑去进行调试。再比如下图中的这张看起来有点像显卡的东西:其实它是第一台采用 PCIe 5.0 的设备,是英特尔的测试工程师为了测试新芯片(包括12和即将发布的13代酷睿)的 PCIe 5.0 兼容性,而专门自己设计的 FPGA(由 Altera 生产)。PCIe 5.0 测试用 FPGA 图片来源:硅星人 via 英特尔你可以把这张卡看成是一个“超级模拟器”,它能够模拟显卡、存储、内存、网络等各种各样的设备,但它更重要的作用是监控并记录测试对象芯片对于 PCIe 5.0 设备的控制性能表现。并且由于它是一台 FPGA,工程师可以轻松地使用 DIP 开关以及重新编程的方式来快速修改它的功能和性能——也即调节测试当中的变量。
除了这张 FPGA 卡之外,英特尔还自主开发了很多灵活调节的测试装备。比如测试视频输出,CPU 集成显卡需要支持多显示器,但是在实验室里每台试验台都装一堆显示器太占地方了,于是英特尔开发了一个像是 U 盘一样的装置,能够模拟多台显示器插入的状态,直接插在主板上就行了。下面这个东西也是英特尔自己攒出来的,专门测试各种 USB-C 接口的性能。大家知道 C 口支持的 USB 版本、传输协议、功能非常多,相当混乱,买错线/转接头是常有的事。而英特尔希望能够确保芯片在尽可能多的情况下设备都能够正常工作,于是设计了这么一个能够模拟各种传输协议、菊花链等情况。以及下图红色管道的装置:这并不是什么 CPU 风扇/AIO 之类的东西,它正式的名字是液压气动冷却系统 (HPCS),也可以叫热管 (thermal head),作用是模拟各种可能出现的温度变化情况,比如冷启变热、热启变冷、急热急冷等,从而确保最终芯片在各种情况下都能够保持可靠性能。答案当然是送去检修了。而这些最重要的工作,都在地下的 debug 实验室完成。最后,我们来到了 debug 实验室。这里的工程师的任务是根据楼上汇报的问题找到问题究竟出在在哪里,确认原因,并且试图通过各种不同的方式来进行修复,然后将修复结果交给设计师,让他们去重新修改芯片的设计。一位 debug 工程师告诉我,按理来说,如果自己的设计师同事都在认真无误地工作,他们应该是失业的……不过现实情况并非如此,在指甲盖大小的一块晶粒上,可能要分到几十甚至上百设计师,每人负责一个区块。而在区块之间,很可能因为电路的顺序搞错了,而导致芯片无法正常工作,“在我们这再正常不过了。”而且,一年到头出 bug 的概率还是挺小的,所以这支 debug 工程师团队也并不大(当天在办公室里的就五个人)。麻雀虽小,五脏俱全。debug 部门拥有我在整个芯片测试实验室里见到的最酷的装备。图中右侧的 LADA 机器,能够用高功率激光改变芯片工作原理 图片来源:硅星人 via 英特尔首先是下面这台机器,它的名字叫做 LADA,全称“激光辅助期间改变”(laser-assisted device alteration)。比方说 debug 团队发现了芯片中的某根晶体管出现了问题,想要验证一下修改建议是否有效——只需要把芯片放到这台机器下方,用超高精度和高功率的激光对芯片的指向部位进行照射,就可以修改那根晶体管的属性,从而改变芯片的工作方式。LADA 机器 图片来源:Linus Tech Tips而如果激光也不能完全解决问题,需要对芯片动手术,怎么办?房间中间的机器名为 FIB,也即聚焦离子束 (focused ion beam)。这台机器真的堪称芯片的手术台:它先用激光对已经封装好的芯片进行烧灼。在封盖上切出一个微米级别的“创口”,然后再用 FIB 对芯片上的电路进行亚微米级别的“修改”。英特尔没有透露公司一共有多少 FIB 工程师,只是表示达到该公司要求的技术操作级别的操作员,在全世界可能也就两位数。以下图为例:离子束能够在极微小的电路上架设出新的桥梁,把设计错误的电路用正确的方式连接起来。用 FIB 技术对芯片进行物理修改,能够减少设计方案修改次数,加速方案的验证流程,最终缩短芯片研发时间和周期,确保满足英特尔对于一代芯片24-36个月不等的研发周期 deadline。
以上就是这次硅星人对英特尔 Fab 28 和 IDC 芯片测试实验室的访问记录。这次访问是英特尔在以色列举办的 Intel Technology Tour (ITT) 的一部分,共有来自全球十多个国家的数十位分析师参加。ITT 议程还包括即将发布的13代酷睿芯片的 demo等更多新技术和产品。另外,上周我们也撰写了一篇对以色列科创环境、创业文化的报道,欢迎各位阅读。同时欢迎读者朋友继续关注硅星人,下周我们将揭晓一款由英特尔开发的跨平台(电脑/智能手机)的全新软件产品。测试中的(13代酷睿?)芯片 图片来源:硅星人 via 英特尔来自第三方公司的工作人员正在测试13代酷睿超频性能 图片来源:硅星人 via 英特尔我们在行程中还见到了 Arik Shemer。他是一位芯片debug工程师,和许多以色列早期员工一样也是从美国“返乡”的,1978年开始工作,至今已经44年,在公司内部现职员工年份里却只能排到前30。不过他很自豪地表示,当年经常拍电报发邮件(不是email)联络的同事兼朋友 Pat Gelsinger,如今已经成为了公司的 CEO……GYAT = get your acts together,英特尔“大名鼎鼎”的公司文化之一…… 图片来源:硅星人 via 英特尔