作者:Jason 信息平权 

(以下内容全部来自公开信息)

B系列二季度开始发货

现在已经“in production”,将在第二季度开始发货(production shipments),并在第三季度逐步ramp up,而对应的客户的数据中心将在第四季度建成。“We will see a lot of Blackwell revenue this year” 我们今年会看到很多B系列收入....

(这个挺超预期的,个人认为最积极的信号就是这个了。毕竟之前过分保守的sellside都认为要12月出货了...)

需求和ROI问题

在GPU上每花费1美元,云提供商就有机会在4年内获得5美元的托管收入。在HGX H200 服务器上每花费 1 美元,托管Llama 3服务的 API 提供商就能在 4 年内获得 7 美元的收入。

需求来自:ChatGPT 和GPT-4o、其他多模态Gemini Anthropic 等等。 还有一大批AI初创企业, 大约有 1.5- 2 万家, 还有各种设计工具应用--生产力应用、 数字生物学,很多视频领域实现了端到端训练,比如自动驾驶。 主权AI,他们希望训练自己的国家数据,以训练他们的主权模型。

主权AI

主权AI收入将从去年的零,发展到今年的高个位数(也就是接近百亿美金了)

特斯拉

预计汽车行业将成为今年数据中心领域最大的Enterprise企业垂直市场,带来数十亿美元的收入机会(大概十几到几十万卡,马斯克要兑现下单承诺了)

GH200今年20亿美金收入

第一套 H200 系统已由 Jensen 交付给 Sam Altman 和OpenAI 团队,并在上周为他们精彩的 GPT-4o 演示提供了动力(符合我们之前推测)今年全球会有9台新超级计算机使用Grace Hopper ,今年将交付总计200 exaflops的高能效人工智能处理能力。 (200exaflops相当于200个256集群啊,单集群售价是接近1000万美金,差不多20亿美金收入贡献)

网络收入第一次单独拆出来

老黄:我们致力于3 条网络链路, 从用于单计算域的 NVLink到 InfiniBand , 再到以太网网络计算结构。

(非常清晰,NVlink目前负责高带宽域负责scale-up,而IB负责scale-out,但NVlink在逐渐继续向外走。同时IB是AI factory,以太网络是AI cloud,老黄准备两者都吃 )

以太网络将贡献几十亿美金收入

老黄:Spectrum-X正在与多家客户进行量产, 其中包括一个10万GPU的大型集群。预计 Spectrum-X 将在一年内跃升为价值数十亿美元的产品线。

(个人判断,Spectrum未来空间一点不比IB小,前面几年训练阶段IB独领风骚,进入大规模推理部署RDMA更被普遍接受。而英伟达反而成为目前AI Cloud 以太网络设备目前可能收入第一大厂商....是不是反常识)

推理将变得非常复杂(老黄为我证明)

老黄:我们预计推理能力将随着模型复杂度、用户数量和每用户查询次数的增加而扩大 。在过去的四个季度中,我们估计推理驱动了我们数据中心约 40% 的收入。

(这次没有更新推理占比,毕竟上次被反复challenge,因为的确里面GenAI占不到1半,大家期待看到的还是GenAI推理。不过看现在的势头,估计很快会上去,这个季度不更新占比数字,下个季度又要更新了。以及待会的call back上一定会被问,可能会更新)

NV下一步靠什么

从 Blackwell 到 Spectrum-X 再到 NIMs,我们已经准备好迎接下一波增长浪潮。

(给出了未来几个引擎,GB200之后还有GR200,以及网络、软件收入会是长期收入。非常合理,未来算力甚至存力本身都会通缩,但价值会逐渐积累在网络和软件上)

AIPC

老黄:即使是PC计算堆栈也将发生革命性的变化。而这仅仅是一个开始,”GeForce RTX GPU 的安装量已超过 1 亿,拥有完整的技术堆栈,可在 GeForce RTX PC 上部署和运行快速高效的推理。 TensorRT LLM现在可以加速微软的Phi-3 Mini模型、谷歌的Gemma 2B和7B模型以及流行的AI框架,包括LangChain和LlamaIndex。昨天,英伟达和微软宣布针对Windows进行AI性能优化,帮助在GeForce RTX AI PC上运行LLM的速度提高了3倍

什么叫提供系统解决方案

老黄:Grace CPU、 Blackwell GPU、 NVLink、 Quantum、 Spectrum、各类交换机、高速互联以及丰富的软件和合作伙伴生态系统的组合,让我们能提供比前几代更丰富、更完整的解决方案。”  AI现在是一个系统问题,它不仅仅是一个LLM,它是一个由一堆LLM共同组成的复杂系统。这促使我们对所有芯片进行优化,使其作为一个系统协同工作。因为我们构建了整个数据中心,因此可以监控一切、测量一切、优化一切,我们知道所有的瓶颈在哪里,并与客户一起优化。我们对整个数据中心规模的深入了解是我们今天与众不同的根本原因。

1年一迭代,客户吃得消吗,建设跟得上吗

对于AI厂商来说,领先非常重要,训练时间非常重要,你想做上一个台阶、推出最领先性能的玩家,而不是每次迭代优化0.3%的玩家。因此,这也是我们还在疯狂出货hopper原因,因为下一个台阶就在眼前。(指的是GPT-5?)

为什么用ARM

Grace允许我们做一些现在的系统配置不可能做到的事情。Grace 和 Hopper 之间的内存系统是连贯和高度耦合的,且用的内存是 LPDDR。这让我们可以创建具有非常大的 NVLink 域的东西,这对下一代大型语言推理模型至关重要。

(计算范式变了,ARM会在各个端逐渐吃掉X86)

责任编辑:于健 SF069

相关文章