阿里妹導讀:2019年雲棲大會,阿里雲正式發佈第三代自研神龍架構,全面支持ECS虛擬機、裸金屬、雲原生容器等,貫穿整個IaaS計算平臺,並在IOPS、PPS等方面提升5倍性能,用戶能在雲上獲得物理機100%的計算能力。本文將爲大家揭祕今年雙11最具挑戰的搜索廣告、金融級業務核心交易數據庫如何遷移至第三代神龍架構,詳解神龍架構如何支撐阿里巴巴最大規模雲原生實踐落地,以及神龍架構如何通過宕機演練大考、備戰雙11的背後故事。

文末福利:電子書《玩轉ECS從入門到精通》免費下載。

2020年的雙11,天貓又創造了新的紀錄:訂單峯值達到創紀錄的58.3萬筆/秒,銷售額達到歷史新高4982億,阿里雲神龍再次成功扛住了全球流量洪峯。2020年是雙11全面雲原生化的第一年,也是神龍架構順利支撐雙11的第三年。

今年雙11,基於第三代神龍架構,搜索、廣告以及核心交易數據庫等存儲和網絡高負載業務完成全面雲化,神龍輸出千萬核CPU計算能力,完成了阿里巴巴經濟體所有業務負載100%在神龍公有云部署。

兩年前,阿里雲神龍首次支撐雙11大促;去年,雙11核心系統全面on神龍;今年,雙11所有業務部署在神龍公有云。神龍架構已連續三年順利支撐雙11,每年不變的是一如既往的表現平穩,爲用戶提供瞭如絲般順滑的購物體驗,而變化的是神龍架構的不斷升級和迭代。

一 最具挑戰、沒有之一:搜索廣告業務升級至第三代神龍架構

對於電商平臺來說,搜索功能是最核心的功能,百微秒的結果展示延遲都將直接影響到平臺用戶最終交易的轉化,用戶體驗至關重要。所以,搜索廣告業務對計算和網絡的性能要求是極盡苛刻的,而這也是目前神龍架構面臨的最具挑戰的業務,沒有之一。

今年雙11,搜索廣告業務支撐了數以千計的會場場景,日均商品曝光千億次;日均模型發佈上萬次,單模型容量1TB+,模型參數達千億級,實時每分鐘更新1億模型參數;日均樣本數據處理達100PB,單次請求超過200億次浮點運算。這些數據的背後,搜索業務團隊對底層基礎設施提出了兩大挑戰。

極致的性能需求,要求雙向百G全線速處理網絡流量

根據歷史數據預測,雙11凌晨零點線上搜索廣告業務的網絡帶寬將達到雙向100G極限全線速,所以要求基礎設施資源能配合提供雙向100G全線速(line speed)流量帶寬處理的能力,以確保順利支撐零點流量峯值。實際在雙11當天零點,線上大部分網絡流量均來自搜索廣告業務的彈性裸金屬實例,網絡帶寬均如預期達到了極限全線速。

第三代神龍架構,通過網絡硬件加速實現了網絡帶寬全線速處理,可以提供100Gbps網絡帶寬、2400萬PPS網絡轉發和100萬雲盤IOPS,極好地滿足了搜索廣告業務雙向100G全線速流量帶寬的處理需求,不僅幫助搜索廣告業務順利扛過了雙11零點流量洪峯,同時還提升了資源的利用率。

進一步提升離線搜索和在線搜索混部服務質量

搜索廣告業務分爲在線搜索和離線搜索,這兩個系統對資源的需求是天然互斥的:離線搜索業務要求極高吞吐能力,需要確保數以億計的數據可以在15分鐘內完成處理完成;在線搜索則是對時延有極高的要求,需要確保1000萬數據亞秒級處理的實時性和極高的可用性。

第三代神龍架構引入了高級QoS特性,可多級調度網絡和存儲QoS,實現多維度精準調度,極好地支撐搜索廣告的離線業務和在線業務混部,最終幫助搜索廣告業務實現了同時達到在線業務低時延和離線業務高吞吐的混部業務目標。

事實上,在阿里巴巴集團實際的業務場景中發現,在同樣的資源配置的情況下,神龍裸金屬比普通物理機的QPS可以提升30%,延時可以降低96.3%,資源利用率也有大幅提升。

二 扛住58.3萬筆/秒新峯值,核心交易數據庫on神龍

11月11日零點剛過26秒,天貓雙11訂單達到58.3萬筆/秒的峯值,是2009年首次雙11的1457倍,每一筆剁手交易操作都會經歷一系列核心交易數據庫的處理,如何保證全球最大規模交易高峯的海量訂單的有序、準確和順滑成爲了核心交易數據庫的挑戰。

衆所周知,數據庫本身就是一個重存儲的業務,核心交易數據庫更是對資源的IOPS、時延等性能指標極其敏感。雙11核心交易數據庫之所以選擇神龍架構,是因其能夠滿足“高併發、低時延、高穩定”三大需求。

高併發

在雙11這樣全球罕見的超大規模併發量場景下,計算能力是一個關鍵因素。升級迭代後的第三代神龍架構,存儲和網絡性能均達到500%提升,VPC雲網絡全線速轉發,存儲IOPS可達100萬,存儲每秒吞吐量可達到5GB,完全可以滿足核心交易系統的交易高峯的訂單處理需求。

低時延

得益於神龍芯片的加速能力,基於神龍架構的第六代增強型實例讀延遲最低200 μs,寫延遲能力100μs,每一個數據包最低延遲爲20μs。在實際場景中,非常好地滿足了核心交易數據庫的時延需求。

高穩定

與其他無狀態業務不同的是,核心交易數據庫要求金融級的穩定性和容災。穩定性恰恰也是神龍架構最重視的,神龍架構自研了非常輕量級的Dragonfly Hypervisor,在計算的抖動性方面可以做到百萬分之一級別。得益於此,神龍架構順利幫助核心交易數據庫順滑地支撐了雙11購物季。

三 神龍架構,爲全球最大規模的雲原生實踐提供支撐

2020年雙11最重要的是完成了全球最大規模的雲原生實踐,創造了諸多的“雲原生的第一次”:80%核心業務部署在阿里雲容器ACK上,可在1小時內擴展超百萬容器;首次大規模應用Serverless,彈性伸縮性能提升10倍以上;雲原生中間件峯值調用量超百億QPS。

與此同時,計算的紀錄也被不斷刷新:實時計算Flink處理峯值達40億條/秒,相當於一秒看完500萬本新華字典的所有信息;MaxCompute單日計算數據量達1.7EB,相當於爲全球70多億人每人處理230張高清照片。

神龍架構是真正爲雲原生場景打造的計算平臺,爲這場最大規模的雲原生實踐提供了堅實的底座。神龍架構通過I/O offload芯片加速,對容器等產品適配程度極高,能高效調度和自動化彈性伸縮的容器化產品,具備在3分鐘啓動50萬核vCPU的極速彈性能力。

事實上,從設計到實現,神龍架構都是“爲雲而生”,不僅使得阿里雲服務器比傳統物理服務器性能更強勁,還能極大地幫助客戶節省計算成本。最終,神龍架構爲這場雲原生化運動帶來了澎湃動力和極致效能:每萬筆峯值交易的IT成本較四年前下降了80%,規模化應用交付效率提升了一倍之多。

四 單實例可用性99.975%的底氣,平穩應對“宕機”突襲大考

全鏈路壓測演練是備戰雙11必不可少的環節,我們爲突襲演練專門設計了App,簡化成一個“按鈕”,串聯了阿里巴巴經濟體的各種技術架構和業務手段。今年的演練多了一些意料之外的實彈突襲,包括斷網攻擊、集羣宕機攻擊和數據中心斷電攻擊等。突襲攻擊如此兇猛,讓技術工程師們沒有一絲絲的防備。

10月某個凌晨的2點,“按鈕”被按下,神龍雲服務器被注入故障代碼,一個擁有近千臺服務器的集羣瞬間宕機。

不到2分鐘,運維監控大屏顯示網絡數值迅速下跌,技術保障團隊迅速鎖定故障源頭、啓動應急預案,緊急展開修復,隨後確認主備切換。

10分鐘,主備雲服務器完成切換,一切恢復如常。

這似乎很瘋狂,但能讓公司提前爲包括宕機在內的各種故障做好準備,將其影響降至最低,同時倒逼阿里技術持續進化,包括神龍架構。

神龍架構在這次宕機突襲中表現突出,架構健壯性經受住了大考,這要歸功於ECS提供的主機遷移的功能,其實現依賴於配置可遷移、資源可遷移,網絡可遷移,存儲可遷移等關鍵技術,可以最小化降低客戶業務中斷。

同時,神龍架構還彙集了阿里雲十年累積的上百萬服務器歷史故障數據、異常預測算法以及軟硬結合的故障隔離、硬件加速的熱遷移等能力於一身,能夠保障70%以上的常規軟硬件故障在發生之前無感消除。這些也是使得阿里雲敢將單實例可用性目標提升至99.975%、多可用區多實例可用性目標定爲99.995%的底氣所在,這也是雙11所有業務敢上雲的原因之一。

作爲阿里雲基礎產品部門最大的跨部門協同項目,第三代神龍架構迭代升級涉及到神龍計算、ECS、VPC、存儲、AIS服務器和AIS物理網絡等衆多團隊,更是經過長達兩年的預研評估、產品立項、技術研發和灰度測試,最終才完成了阿里巴巴經濟體所有業務負載100%在神龍公有云部署。雙11是阿里雲產品、技術和服務最大的“試煉場”,全量並順利承載雙11大促所有業務就是神龍架構能力最好的證明。

當前,阿里雲自研的神龍雲服務器支撐了各種流量高峯:如12306的春運搶票、微博熱點的暴漲流量、釘釘2小時擴容10萬臺雲服務器等。未來,歷經多年雙11實踐考驗的神龍架構將致力於更好地幫助客戶實現業務的快速創新和飛躍。

電子書免費下載

《玩轉ECS從入門到精通》進階篇

ECS,不只雲服務器。本書從入門與選型、自動化運維最佳實踐以及架構優化思維三方面來介紹,通過多種服務化工具的使用助你輕鬆管理雲服務器ECS,手把手教你ECS最佳實踐,自動化運維與雲上架構必讀。

相關文章