今年春節格外晚,立春之後又一週。

本以爲到了“律回歲晚冰霜少,春到人間草木知”的時節,沒想到,南方遭遇了雨雪冰凍天氣。春節回家的路,漫長而坎坷。

爲了給春晚拉人氣,央視在2月初專門舉行發佈會。關注發佈會人不多,但在影視行業打拼多年的斌哥一眼看到了亮點——今年春晚首次引入VP電影製作。

春晚的VP不是副總裁(Vice President), 而是虛擬製片(Virtual Production)。它用計算機生成圖像、實時渲染等技術,將虛擬場景與現實拍攝相結合。“VP電影就是造夢,你知道原來搞VP電影得花多少錢?”

看着斌哥故弄玄虛的神情,筆者知道VP電影一定很貴。斌哥說《阿凡達》是2009年VP電影巔峯之作,成本大約是2.37億美元。“你覺得央視春晚用VP做視覺,能花多少錢?” 

筆者一臉茫然。斌哥得意洋洋地說,VP電影需要實時渲染引擎、LED牆、混合虛擬製作,還需要高性能GPU,支持實時光線追蹤技術。“原來這些技術只能靠外國公司,貴得不得了。現在很多中國公司都能支持了。所以春晚纔會用VP做視覺,總價不會太貴。中國技術擅長從跟隨到超越。”

看着搞電影的斌哥給筆者這個寫IT的頭頭是道地講GPU,竟一時語塞。“那你知道,做好一臺春晚,需要多少核CPU?” 筆者反問道。

現在輪到斌哥啞口無言了。其實春晚和CPU的歷史,也是中國技術的故事。

CPU都燒焦了

春晚和CPU深度綁定,始於2015年。那一年春晚首次引入紅包互動。那年春晚,人們目光不再只聚焦電視屏幕上五彩斑斕的晚會,而是盯緊手機,搖啊搖,彷彿每個人都在與時間賽跑。

全民搶紅包的熱情帶來了海嘯山崩般巨大流量。除夕當晚20點到凌晨零點48分,互動總量達到110億次。互動峯值達到了每分鐘8.1億次。人們隔着屏幕瓜分喜悅,然而搶紅包的熱情也“燒焦”了服務器。由於大量用戶在同一時間參與搶紅包,紅包系統出現了短暫宕機。

2018年,春晚紅包迎來了新的合作方。儘管有了前車之鑑,還是沒想到春晚登錄實際峯值超過了2017年雙十一的15倍,3倍擴容的服務器資源依舊不夠。宕機使得部分用戶無法正常登錄,紅包功能無法使用。

合作方換了又換,2019年,又一家公司再次挑戰春晚紅包項目。要知道,搶紅包的人每一年都在增加,經計算,當晚需10萬臺服務器支持春晚互動,其中5萬臺服務器需要外部採購。雖然這一年,合作方成功地支撐了高達208億次互動,沒有出現明顯的服務中斷,但也付出了巨大投入。

至此,在春晚舞臺上,互聯網企業們輪番登場。雖然紅包互動越來越穩了,但紅包互動保障成本卻居高不下。

以2019年春晚爲例,當年合作的互聯網企業額外採購了5萬臺服務器,根據公開數據,2018年,全球服務器市場銷售額達到了867.75億美元,中國服務器市場出貨量達到了330.4萬臺。當時服務器市場價格在3~5萬之間,所以5萬臺服務器,大概是15~25億元。

在全球華人的節日裏,互聯網企業都希望呈現最完美的自己,最誘人的獎品和最絲滑的體驗。在大廠日進斗金的日子裏,25億不過是一次昂貴的品牌營銷。時至今日,大家都要打打算盤。畢竟,成本和收益是顛撲不破的商業規律。沒人真的想賠本賺吆喝。

你要當顯眼包啊

互聯網企業給春晚合作打了樣,按理說同行都會按照這個劇本把春晚互動保障演下去,沒想到,2022年的畫風變了。

那一年,直到倒數19天,央視才正式官宣與京東合作。然而,疫情對全球供應鏈造成了嚴重影響。芯片生產和運輸出現延遲;遠程工作、在線教育、電商購物需求暴增,使得服務器供不應求,京東雲本想大量採購服務器保障春晚,但卻買不到。

負責人開了幾天會,最終拍板通過“雲艦”調度計算資源保障春晚互動體驗。當年參與春晚保障的春江對筆者說,技術保障團隊拼死拼活、沒日沒夜大戰了19天,辦公室擠滿了行軍牀,平均兩天一次壓測做了七輪,直到最終保障成功。

京東人欣喜之餘發現了一個祕密,不買服務器,也能接住春晚“潑天的流量”。於是僅僅隔了一年,京東又合作春晚了。

2024年1月24日,京東成爲總檯春晚獨家互動合作平臺。一回生,兩回熟。春江說,技術團隊靠着肌肉記憶也能把春晚保障做下來,沒想到負責人提出了新要求——在確保觀衆互動體驗的前提下,再完成兩個目標,一是團隊全面應用大模型技術,藉機推進智能應用的大規模實踐;其次希望通過先進技術把保障工作的IT成本降下來,向技術要效益,相較於虎年春晚,綜合成本要降低50%以上。

換句話說,別家大廠保障春晚是增加服務器,京東這架勢不僅不增加,還要減少服務器。筆者不知道當時保障團隊的內心感受,但春江表示,經過這兩年的技術捶打,大家覺得這個目標似乎也是大概率可行的。

看來這一次,京東雲是鐵了心要當顯眼包。

科學地預測未來

1月24日春晚官宣後,京東雲迅速對外亮相了基於大模型的AI指揮官,即春晚保障Agent。這個Agent集成了京東商業大促和保障虎年春晚、湖南衛視跨年晚會相關數據,輸入到保障成本降低50%的目標後,Agent“口吐蓮花”,一下子生成了八、九個策略。

項目備戰組開會精簡了下,確定了五步走戰略:即流量預測、算力壓榨、軍演壓測、智能監控、安全防護。當然,春晚互動保障涉及的工作非常多,步驟繁雜。這五步和保障工作的IT成本息息相關。

其實春晚保障工作的起點,是“預測”。

預知未來本是一門玄學,但流量預測,則是實打實的科學。正如京東負責智能運營的張傑所說,即便是春晚潑天的流量,也有跡可循。

用戶即流量,用戶多則流量大。所以,根據大廠APP的活躍用戶數,就能預測出每日流量。但春晚流量預測有點特殊:第一,京東提供了1億實物禮品和30億紅包,可能會吸引新用戶在當晚註冊登錄搶禮品;第二,京東設置了紅包裂變玩法,還會再疊加部分新用戶;第三,京東購物券會引發用戶購物下單,這是電商公司的獨有場景;第四,每個用戶從紅包互動到商城購物,場景越多流量計算越複雜。

如果不講究精準,大可估算一個超大流量,計算資源Buff足夠,系統就能抗下洪峯。但這種方式缺點也很明顯,一個字,貴。京東雲要降低保障成本,就得測得準。張傑說,在書畫界,臨摹代表着100%再現原作。事後看,京東雲通過AI模型精準預測流量,最終實現了“臨摹需求”,即計算資源和高併發流量的精準匹配。

從字面上看着“臨摹需求”四個字,筆者不明覺厲......張傑解釋說,首先京東有春晚流量歷史數據以及合作地方臺跨年晚會互動數據;其次,從原始數據中提取有用特徵,包括時間、特殊事件等數千個維度,來提取流量週期性和趨勢性特徵;通過多種模型來學習和驗證,包括時間序列模型、機器學習模型等等;最後,再不斷地驗證模型預測效果並修正。經過反覆打磨,基於Data Science的預測準確率可達95%。

應對流量洪峯從“硬抗”到“智抗”

大多數人都沒用過服務器,但都用過筆記本。當你打開很多程序,電腦忽然卡住,散熱風扇聲音驟然加大。這樣的場景似曾相識嗎?

有經驗的人會打開電腦任務管理,看到CPU數值一路飆升到80%~90%,卡頓原因就找到了。在強制關掉幾個應用程序後,CPU數值降下來,筆記本就恢復了正常運轉。這就是電腦的運算極限。服務器的極限同樣如此。

想降低春晚保障的IT成本,就要充分利用服務器的CPU,但利用率太高又會造成系統卡頓。怎麼能實現既要、又要呢?京東雲產品研發部吳亮亮說,用混部。

混部,是指混合部署,就是將離線任務和在線任務部署在一起,兩種任務共享算力,從而提高CPU的整體利用率。“離線任務”是指不需要實時處理的數據,例如大量數據分析、數據挖掘、數據備份等。通常,離線任務集羣CPU利用率可達80%。“在線任務”是指需要實時或近實時處理的用戶交互和數據,以提供即時的服務和響應。例如你在電商平臺搜索、下單、支付等。爲了保障穩定性,在線任務計算集羣的CPU利用率通常在20%~30%。

很明顯,兩種任務脾氣不一樣,離線任務“慢性子”,在線任務“急脾氣”。很久以前,京東分別爲離線任務和在線任務建立了計算集羣,後來發現這種形式很浪費:比如,618大促時,在線任務計算量驟然增加,需要增加服務器才能保障用戶下單絲滑。但離線任務的計算還空置着很多服務器,利用率不高。度過了618大促,在線集羣空閒時候,離線任務很多又使得離線機羣算力緊張。

既然如此,乾脆削峯填谷,把離線任務和在線任務混和部署在一起,誰任務重誰就多用服務器。雖然說起來容易,但把兩種屬性不同的任務部署在統一的計算集羣,它們真的會“打架”。

吳亮亮介紹說,雖然離線任務性子慢,但是搶資源能力很強。兩種任務在一起幹活,在線任務需要計算資源時候得不到,系統就會卡頓、不穩定。比如,春晚紅包互動系統需要計算資源時,離線任務一定要第一時間讓出來。

但如何能保障春晚紅包在線任務搶佔能力呢?首先,它要享有最高優先級,即紅包等在線任務工作時離線任務不能來搶佔;其次,它還要有特權,即紅包等在線任務需要資源時離線任務要立即退出,不能賴着不走。

爲了保障好紅包互動系統,吳亮亮團隊專門開發了一套強悍的算法,它賦予了在線任務無上特權以及彪悍的爭搶能力,使得搶奪效率提高了80%。

筆者問吳亮亮,這麼厲害的算法,有名字嗎?他說還沒給它起名字,看它在春晚的表現再說。

有了精準的流量預測和高效的算力騰挪,京東雲應對春晚流量從加服務器的“硬抗”轉向了依靠智能調度和壓榨算力的“智抗”。

大模型是幻獸帕魯

接下來就是壓力測試,看看在預估流量壓力下,系統和CPU是否撐得住。

京東雲技術保障部老曲對2022年春晚保障印象最深的,就是七輪壓測。“爲了不影響白天業務系統,壓測都在零點開始。工作大平臺擺滿了行軍牀,小夥子們幹完活倒頭就睡。我習慣了,多晚都要回家。”

五輪壓測下來,老曲感覺頭重腳輕,便隨身帶了血壓儀。“那你身體今年扛得住嗎?”筆者問他。他眉飛色舞地說,今年只有兩輪壓測,而且今年有大模型。

老曲說,今年有三種大模型來幫忙。

首先是ForceBot全鏈路軍演機器人和故障分析大模型。ForceBot是製造問題的高手,故障分析大模型則是解決問題的高手。ForceBot通過模擬海量用戶搶紅包、購物等行爲,製造了大量真實流量,對壓測系統形成高併發壓力。

故障分析大模型則承擔故障診斷、故障分析、故障記錄等工作。在找到根本原因之前,故障大模型可以提出臨時解決方案以緩解問題。例如,增加服務器資源、優化數據庫查詢、調整緩存策略等。工程師可以根據數據和故障分析報告,確認故障原因以及整改方案。

第二個登場的是運維大模型。它能覆蓋歷年大促以來上層業務、PaaS組件以及底層基礎資源各場景的故障快速發現和根因定位;能夠保證在春晚紅包活動期間,一旦出現問題分鐘級內發現問題、定位根因及修復,爲春晚紅包系統穩定性保駕護航。

第三個是兜底的是安全大模型。今年春晚紅包互動,京東App可以不登錄搶紅包,這意味着DDoS攻擊的風險大大增加了。演練期間,系統模擬了春晚紅包抽獎期間不登錄抽獎的超大流量。安全大模型則可以提供輔助決策核心信息,根據系統個性化防禦組件能力,一鍵生成可用的防護意見,大幅提升應急響應速度。

“大模型這麼能幹,你們不擔心下崗嗎?” 老曲滿懷信心地搖了搖頭,春晚保障是個超大,超複雜的系統工程。此前大模型都是扮演個人工作助手,在這種項目引入大模型,探索智能化保障,對提升效率很有幫助。“在咱眼裏,現在的大模型,就是打工的幻獸帕魯。”

中國式超越

雖然挑戰不小,但今年保障工作進行得相當順利。春節前幾天,老曲告訴筆者,保障籌備工作基本結束了,大家靜待春晚。

2024年2月9日20點,龍年春晚拉開序幕。七輪口播,光電交映間,用戶在京東的互動量超552億次,京東雲穩穩地接住了洪峯。大家說,有喜悅,但沒有特別激動,因爲一切都在計劃中。

還記得前文說在線任務集羣的CPU利用率通常在20%~30%嗎?通過混部技術,京東雲實現了混部計算集羣 CPU 利用率在春晚活動期間整體60%左右,最大峯值可達85%。

正是憑藉着極端壓榨CPU性能以及各種AI大模型提高效率,在春晚保障這種超級項目中降低成本,如此匪夷所思的目標,還真讓京東雲完成了。不誇張的說,同比2022年至少降低了50%。

在京東雲負責人看來,春晚保障既是“閱兵場”也是“練兵場”。“這次保障成功,不僅有技術升級,也促進了團隊全面向智能化轉型;不僅推進智能應用大規模實踐,也鍛鍊了支持人工智能、大模型數字基礎設施,形成了更全面,更高效,更低成本的大型活動保障體系。”

春江曾經給筆者提過一個詞,叫“中國式超越”。他說就是中國技術擅長從學習到超越,把成本壓下來,還能有利潤空間。這樣,才能在激烈的市場競爭中活下去。

春江的話,讓筆者想起2023年逆勢長虹的新能源汽車和並不爲人熟知的液化天然氣載運船。原來,選購一套汽車空氣懸掛需要10萬元左右成本,但中國強悍的供應鏈能力和研發把成本大幅度降低,越來越多國產新能源配置空氣懸掛,對很多外資豪華品牌形成巨大體驗優勢,開始在全球市場突圍。

液化天然氣載運船更是逐步克服了對進口技術依賴,大大降低了生產成本,從極小的全球市場份額,一路佔全球總量的35%,市場份額還在不斷攀升。

其實,在這個變革的年代,中國技術的翅膀依舊在飛一般翱翔。在成本與體驗的天平上,技術人努力尋找着精妙的平衡點。步入2024年,中國科技之舟依舊會遭遇狂風巨浪,但懷揣夢想的航海者,仍將堅定地駛向遠方。

(文中凱哥、春江、張傑、吳亮亮、老曲均爲化名)

 

責任編輯:張恆星 SF142

相關文章