沸腾的春晚和烧焦的CPU

今年春节格外晚，立春之后又一周。

本以为到了“律回岁晚冰霜少，春到人间草木知”的时节，没想到，南方遭遇了雨雪冰冻天气。春节回家的路，漫长而坎坷。

为了给春晚拉人气，央视在2月初专门举行发布会。关注发布会人不多，但在影视行业打拼多年的斌哥一眼看到了亮点——今年春晚首次引入VP电影制作。

春晚的VP不是副总裁（Vice President），而是虚拟制片（Virtual Production）。它用计算机生成图像、实时渲染等技术，将虚拟场景与现实拍摄相结合。“VP电影就是造梦，你知道原来搞VP电影得花多少钱？”

看着斌哥故弄玄虚的神情，笔者知道VP电影一定很贵。斌哥说《阿凡达》是2009年VP电影巅峰之作，成本大约是2.37亿美元。“你觉得央视春晚用VP做视觉，能花多少钱？”

笔者一脸茫然。斌哥得意洋洋地说，VP电影需要实时渲染引擎、LED墙、混合虚拟制作，还需要高性能GPU，支持实时光线追踪技术。“原来这些技术只能靠外国公司，贵得不得了。现在很多中国公司都能支持了。所以春晚才会用VP做视觉，总价不会太贵。中国技术擅长从跟随到超越。”

看着搞电影的斌哥给笔者这个写IT的头头是道地讲GPU，竟一时语塞。“那你知道，做好一台春晚，需要多少核CPU？” 笔者反问道。

现在轮到斌哥哑口无言了。其实春晚和CPU的历史，也是中国技术的故事。

CPU都烧焦了

春晚和CPU深度绑定，始于2015年。那一年春晚首次引入红包互动。那年春晚，人们目光不再只聚焦电视屏幕上五彩斑斓的晚会，而是盯紧手机，摇啊摇，仿佛每个人都在与时间赛跑。

全民抢红包的热情带来了海啸山崩般巨大流量。除夕当晚20点到凌晨零点48分，互动总量达到110亿次。互动峰值达到了每分钟8.1亿次。人们隔着屏幕瓜分喜悦，然而抢红包的热情也“烧焦”了服务器。由于大量用户在同一时间参与抢红包，红包系统出现了短暂宕机。

2018年，春晚红包迎来了新的合作方。尽管有了前车之鉴，还是没想到春晚登录实际峰值超过了2017年双十一的15倍，3倍扩容的服务器资源依旧不够。宕机使得部分用户无法正常登录，红包功能无法使用。

合作方换了又换，2019年，又一家公司再次挑战春晚红包项目。要知道，抢红包的人每一年都在增加，经计算，当晚需10万台服务器支持春晚互动，其中5万台服务器需要外部采购。虽然这一年，合作方成功地支撑了高达208亿次互动，没有出现明显的服务中断，但也付出了巨大投入。

至此，在春晚舞台上，互联网企业们轮番登场。虽然红包互动越来越稳了，但红包互动保障成本却居高不下。

以2019年春晚为例，当年合作的互联网企业额外采购了5万台服务器，根据公开数据，2018年，全球服务器市场销售额达到了867.75亿美元，中国服务器市场出货量达到了330.4万台。当时服务器市场价格在3~5万之间，所以5万台服务器，大概是15~25亿元。

在全球华人的节日里，互联网企业都希望呈现最完美的自己，最诱人的奖品和最丝滑的体验。在大厂日进斗金的日子里，25亿不过是一次昂贵的品牌营销。时至今日，大家都要打打算盘。毕竟，成本和收益是颠扑不破的商业规律。没人真的想赔本赚吆喝。

你要当显眼包啊

互联网企业给春晚合作打了样，按理说同行都会按照这个剧本把春晚互动保障演下去，没想到，2022年的画风变了。

那一年，直到倒数19天，央视才正式官宣与京东合作。然而，疫情对全球供应链造成了严重影响。芯片生产和运输出现延迟；远程工作、在线教育、电商购物需求暴增，使得服务器供不应求，京东云本想大量采购服务器保障春晚，但却买不到。

负责人开了几天会，最终拍板通过“云舰”调度计算资源保障春晚互动体验。当年参与春晚保障的春江对笔者说，技术保障团队拼死拼活、没日没夜大战了19天，办公室挤满了行军床，平均两天一次压测做了七轮，直到最终保障成功。

京东人欣喜之余发现了一个秘密，不买服务器，也能接住春晚“泼天的流量”。于是仅仅隔了一年，京东又合作春晚了。

2024年1月24日，京东成为总台春晚独家互动合作平台。一回生，两回熟。春江说，技术团队靠着肌肉记忆也能把春晚保障做下来，没想到负责人提出了新要求——在确保观众互动体验的前提下，再完成两个目标，一是团队全面应用大模型技术，借机推进智能应用的大规模实践；其次希望通过先进技术把保障工作的IT成本降下来，向技术要效益，相较于虎年春晚，综合成本要降低50%以上。

换句话说，别家大厂保障春晚是增加服务器，京东这架势不仅不增加，还要减少服务器。笔者不知道当时保障团队的内心感受，但春江表示，经过这两年的技术捶打，大家觉得这个目标似乎也是大概率可行的。

看来这一次，京东云是铁了心要当显眼包。

科学地预测未来

1月24日春晚官宣后，京东云迅速对外亮相了基于大模型的AI指挥官，即春晚保障Agent。这个Agent集成了京东商业大促和保障虎年春晚、湖南卫视跨年晚会相关数据，输入到保障成本降低50%的目标后，Agent“口吐莲花”，一下子生成了八、九个策略。

项目备战组开会精简了下，确定了五步走战略：即流量预测、算力压榨、军演压测、智能监控、安全防护。当然，春晚互动保障涉及的工作非常多，步骤繁杂。这五步和保障工作的IT成本息息相关。

其实春晚保障工作的起点，是“预测”。

预知未来本是一门玄学，但流量预测，则是实打实的科学。正如京东负责智能运营的张杰所说，即便是春晚泼天的流量，也有迹可循。

用户即流量，用户多则流量大。所以，根据大厂APP的活跃用户数，就能预测出每日流量。但春晚流量预测有点特殊：第一，京东提供了1亿实物礼品和30亿红包，可能会吸引新用户在当晚注册登录抢礼品；第二，京东设置了红包裂变玩法，还会再叠加部分新用户；第三，京东购物券会引发用户购物下单，这是电商公司的独有场景；第四，每个用户从红包互动到商城购物，场景越多流量计算越复杂。

如果不讲究精准，大可估算一个超大流量，计算资源Buff足够，系统就能抗下洪峰。但这种方式缺点也很明显，一个字，贵。京东云要降低保障成本，就得测得准。张杰说，在书画界，临摹代表着100%再现原作。事后看，京东云通过AI模型精准预测流量，最终实现了“临摹需求”，即计算资源和高并发流量的精准匹配。

从字面上看着“临摹需求”四个字，笔者不明觉厉．．．．．．张杰解释说，首先京东有春晚流量历史数据以及合作地方台跨年晚会互动数据；其次，从原始数据中提取有用特征，包括时间、特殊事件等数千个维度，来提取流量周期性和趋势性特征；通过多种模型来学习和验证，包括时间序列模型、机器学习模型等等；最后，再不断地验证模型预测效果并修正。经过反复打磨，基于Data Science的预测准确率可达95%。

应对流量洪峰从“硬抗”到“智抗”

大多数人都没用过服务器，但都用过笔记本。当你打开很多程序，电脑忽然卡住，散热风扇声音骤然加大。这样的场景似曾相识吗？

有经验的人会打开电脑任务管理，看到CPU数值一路飙升到80%~90%，卡顿原因就找到了。在强制关掉几个应用程序后，CPU数值降下来，笔记本就恢复了正常运转。这就是电脑的运算极限。服务器的极限同样如此。

想降低春晚保障的IT成本，就要充分利用服务器的CPU，但利用率太高又会造成系统卡顿。怎么能实现既要、又要呢？京东云产品研发部吴亮亮说，用混部。

混部，是指混合部署，就是将离线任务和在线任务部署在一起，两种任务共享算力，从而提高CPU的整体利用率。“离线任务”是指不需要实时处理的数据，例如大量数据分析、数据挖掘、数据备份等。通常，离线任务集群CPU利用率可达80%。“在线任务”是指需要实时或近实时处理的用户交互和数据，以提供即时的服务和响应。例如你在电商平台搜索、下单、支付等。为了保障稳定性，在线任务计算集群的CPU利用率通常在20%~30%。

很明显，两种任务脾气不一样，离线任务“慢性子”，在线任务“急脾气”。很久以前，京东分别为离线任务和在线任务建立了计算集群，后来发现这种形式很浪费：比如，618大促时，在线任务计算量骤然增加，需要增加服务器才能保障用户下单丝滑。但离线任务的计算还空置着很多服务器，利用率不高。度过了618大促，在线集群空闲时候，离线任务很多又使得离线机群算力紧张。

既然如此，干脆削峰填谷，把离线任务和在线任务混和部署在一起，谁任务重谁就多用服务器。虽然说起来容易，但把两种属性不同的任务部署在统一的计算集群，它们真的会“打架”。

吴亮亮介绍说，虽然离线任务性子慢，但是抢资源能力很强。两种任务在一起干活，在线任务需要计算资源时候得不到，系统就会卡顿、不稳定。比如，春晚红包互动系统需要计算资源时，离线任务一定要第一时间让出来。

但如何能保障春晚红包在线任务抢占能力呢？首先，它要享有最高优先级，即红包等在线任务工作时离线任务不能来抢占；其次，它还要有特权，即红包等在线任务需要资源时离线任务要立即退出，不能赖着不走。

为了保障好红包互动系统，吴亮亮团队专门开发了一套强悍的算法，它赋予了在线任务无上特权以及彪悍的争抢能力，使得抢夺效率提高了80%。

笔者问吴亮亮，这么厉害的算法，有名字吗？他说还没给它起名字，看它在春晚的表现再说。

有了精准的流量预测和高效的算力腾挪，京东云应对春晚流量从加服务器的“硬抗”转向了依靠智能调度和压榨算力的“智抗”。

大模型是幻兽帕鲁

接下来就是压力测试，看看在预估流量压力下，系统和CPU是否撑得住。

京东云技术保障部老曲对2022年春晚保障印象最深的，就是七轮压测。“为了不影响白天业务系统，压测都在零点开始。工作大平台摆满了行军床，小伙子们干完活倒头就睡。我习惯了，多晚都要回家。”

五轮压测下来，老曲感觉头重脚轻，便随身带了血压仪。“那你身体今年扛得住吗？”笔者问他。他眉飞色舞地说，今年只有两轮压测，而且今年有大模型。

老曲说，今年有三种大模型来帮忙。

首先是ForceBot全链路军演机器人和故障分析大模型。ForceBot是制造问题的高手，故障分析大模型则是解决问题的高手。ForceBot通过模拟海量用户抢红包、购物等行为，制造了大量真实流量，对压测系统形成高并发压力。

故障分析大模型则承担故障诊断、故障分析、故障记录等工作。在找到根本原因之前，故障大模型可以提出临时解决方案以缓解问题。例如，增加服务器资源、优化数据库查询、调整缓存策略等。工程师可以根据数据和故障分析报告，确认故障原因以及整改方案。

第二个登场的是运维大模型。它能覆盖历年大促以来上层业务、PaaS组件以及底层基础资源各场景的故障快速发现和根因定位；能够保证在春晚红包活动期间，一旦出现问题分钟级内发现问题、定位根因及修复，为春晚红包系统稳定性保驾护航。

第三个是兜底的是安全大模型。今年春晚红包互动，京东App可以不登录抢红包，这意味着DDoS攻击的风险大大增加了。演练期间，系统模拟了春晚红包抽奖期间不登录抽奖的超大流量。安全大模型则可以提供辅助决策核心信息，根据系统个性化防御组件能力，一键生成可用的防护意见，大幅提升应急响应速度。

“大模型这么能干，你们不担心下岗吗？” 老曲满怀信心地摇了摇头，春晚保障是个超大，超复杂的系统工程。此前大模型都是扮演个人工作助手，在这种项目引入大模型，探索智能化保障，对提升效率很有帮助。“在咱眼里，现在的大模型，就是打工的幻兽帕鲁。”

中国式超越

虽然挑战不小，但今年保障工作进行得相当顺利。春节前几天，老曲告诉笔者，保障筹备工作基本结束了，大家静待春晚。

2024年2月9日20点，龙年春晚拉开序幕。七轮口播，光电交映间，用户在京东的互动量超552亿次，京东云稳稳地接住了洪峰。大家说，有喜悦，但没有特别激动，因为一切都在计划中。

还记得前文说在线任务集群的CPU利用率通常在20%~30%吗？通过混部技术，京东云实现了混部计算集群 CPU 利用率在春晚活动期间整体60%左右，最大峰值可达85%。

正是凭借着极端压榨CPU性能以及各种AI大模型提高效率，在春晚保障这种超级项目中降低成本，如此匪夷所思的目标，还真让京东云完成了。不夸张的说，同比2022年至少降低了50%。

在京东云负责人看来，春晚保障既是“阅兵场”也是“练兵场”。“这次保障成功，不仅有技术升级，也促进了团队全面向智能化转型；不仅推进智能应用大规模实践，也锻炼了支持人工智能、大模型数字基础设施，形成了更全面，更高效，更低成本的大型活动保障体系。”

春江曾经给笔者提过一个词，叫“中国式超越”。他说就是中国技术擅长从学习到超越，把成本压下来，还能有利润空间。这样，才能在激烈的市场竞争中活下去。

春江的话，让笔者想起2023年逆势长虹的新能源汽车和并不为人熟知的液化天然气载运船。原来，选购一套汽车空气悬挂需要10万元左右成本，但中国强悍的供应链能力和研发把成本大幅度降低，越来越多国产新能源配置空气悬挂，对很多外资豪华品牌形成巨大体验优势，开始在全球市场突围。

液化天然气载运船更是逐步克服了对进口技术依赖，大大降低了生产成本，从极小的全球市场份额，一路占全球总量的35%，市场份额还在不断攀升。

其实，在这个变革的年代，中国技术的翅膀依旧在飞一般翱翔。在成本与体验的天平上，技术人努力寻找着精妙的平衡点。步入2024年，中国科技之舟依旧会遭遇狂风巨浪，但怀揣梦想的航海者，仍将坚定地驶向远方。

（文中凯哥、春江、张杰、吴亮亮、老曲均为化名）

责任编辑：张恒星 SF142

沸腾的春晚和烧焦的CPU

热门新闻

周热门

沸腾的春晚和烧焦的CPU

NASA 超级计算机已落后：拖累任务进度，亟需升级换代

微软推出DirectX 12 Work Graphs 提升GPU渲染效率

澜起科技：2023年归母净利润同比下降65.30%

澜起科技：2023年归母净利润4.51亿元，同比下降65.30%

机构报告2023Q4全球PC CPU出货量6725万颗：环比增长9%，同比增长 24%

纯国产CPU龙芯大获全胜！3年MIPS官司结束 芯联芯赔偿4147.66万元

国产兆芯x86 CPU双路服务器重磅发布！64核心、32条内存

千寻位置发布单北斗高精度定位芯片：国产CPU、厘米级精度

炬芯科技：将推出最新一代升级为CPU+D

打破常规：使用物理表盘打造的独特 CPU 监控器

英特尔涨超3% 第五代数据中心CPU、Guadi 3加速器细节更新

得润电子(002055.SZ)：CPU Socket产品作为公司高速连接器领域的核心产品，已经通过Intel公司的认证

GPU与CPU，英伟达与英特尔

外盘头条：拜登任命新国家经济委员会副主任 阿克曼回补美债空头仓位并警告风险太高 英伟达将为微软设计CPU

英特尔的新危机：英伟达将为微软设计用于Windows的CPU

热门新闻

周热门

纯国产CPU龙芯大获全胜！3年MIPS官司结束芯联芯赔偿4147.66万元

外盘头条：拜登任命新国家经济委员会副主任阿克曼回补美债空头仓位并警告风险太高英伟达将为微软设计CPU