原標題:Serverless 如何落地?揭祕阿里核心業務大規模落地實現

2020年,新冠肺炎疫情催化數字化生活方式漸成常態。在企業積極進行數字化轉型,全面提升效率的今天,幾乎無人否認揹負“降本增效”使命誕生的 Serverless 即將成爲雲時代新的計算範式。

Serverless 將開發者從繁重的手動資源管理和性能優化中解放出來,正在引發雲計算生產力的新變革。

然而,Serverless 的落地問題卻往往很棘手,例如傳統項目如何遷移到 Serverless,同時保障遷移過程業務連續性,在 Serverless 架構下如何提供完善的開發工具、有效的調試診斷工具,如何利用 Serverless 做更好的節約成本等,每一個都是難題。

尤其涉及到在主流場景大規模的落地 Serverless ,更是並非易事。正因爲這樣,業界對於 Serverless 核心場景規模化落地最佳實踐的呼喚更加迫切。

總交易額 4982億元,訂單創建峯值 58.3萬筆/秒,2020年天貓雙11 又一次創造記錄。對於阿里雲來說,今年的雙11 還有另一個意義,阿里雲實現了國內首例 Serverless 在覈心業務場景下的大規模落地,扛住了全球最大規模的流量洪峯,創造了 Serverless 落地應用的里程碑。

Serverless 落地之痛

挑戰一:冷啓動耗時長

快彈是 Serverless 天然自帶的屬性,但是快彈的條件是要有極致的冷啓動速度去支撐。在非核心的業務上,毫秒級別的延時,對業務來說幾乎不受影響。但是,對於核心業務場景,延時超過 500 毫秒已經會影響到用戶體驗。

雖然 Serverless 利用輕量化的虛擬技術,不斷的降低冷啓動,甚至某些場景能降低到 200 毫秒以下。但這也只是理想的獨立運行場景,在覈心業務鏈路上,用戶不僅是運行自己的業務邏輯,還要依賴中間件、數據庫、存儲等後端服務,這些服務的連接都要在實例啓動的時候進行建連,這無形中加大了冷啓動的時間,進而把冷啓動的時間加長到秒級別。

對於核心在線業務場景來說,秒級別的冷啓動是不可接受的。

挑戰二:與研發流程割裂

Serverless 主打的場景是像寫業務函數一樣去寫業務代碼,簡單快速即可上線,讓開發者在雲上寫代碼,輕鬆完成上線。

然而在現實中,核心業務的要求把開發者從雲上拉回到現實,面對幾個靈魂拷問:如何做測試?如何灰度上線?如何做業務的容災?如何控制權限?

當開發者回答完了這些問題,就會變的心灰意冷,原來在覈心業務上線中,“函數正常運行”只佔了小小的一環,離上線的距離還有長江那麼長。

挑戰三:中間件的連通問題

核心在線業務不是獨立函數孤立運行的,需要連接存儲、中間件、數據中後臺服務,獲取數據後再計算,進而輸出返回給用戶。

傳統中間件客戶端需要打通和客戶的網絡、初始化建連等一系列操作,往往會使函數啓動速度下降很多。

Serverless 場景下實例生命週期短、數量多,會導致頻繁建連、連接數多的問題,因此針對在線核心應用常用的中間件的客戶端進行網絡連通優化,同時對調用鏈路進行監控數據打通,幫助 SRE (Site Reliability Engineer )從業者更好的評估函數的下游中間件依賴情況,對於核心應用遷移上 Serverless 非常重要。

挑戰四:可觀測性差

用戶大多數的核心業務應用多采用微服務架構,看核心業務應用的問題也就會帶有微服務的特性,比如用戶需要對業務系統的各種指標進行非常詳盡的檢查,不僅需要檢查業務指標,還需要檢查業務所在系統的資源指標,但是在 Serverless 場景中沒有機器資源的概念,那這些指標如何透出?是否只透出請求的錯誤率和併發度,就可以滿足業務方的需求?

實際上,業務方的需求遠不止這些。可觀測性做的好壞還是源於業務方是否信任你的技術平臺。做好可觀測性是贏得用戶信任的重要前提。

挑戰五:遠程調試難度高

當核心業務出現線上問題時,需要立即進入調查,而調查的第一要素就是:現場的保留,然後登陸進行調試。而在 Serverless 場景中沒有機器層面的概念,所以如果用戶想登陸機器,在現有的 Serverless 基礎技術之上是很難做到的。當然原因不僅限於此,比如 Vendor-lockin 的擔心等。

上面幾大類痛點的概括,主要是針對開發者的開發體驗,對於實際的開發場景中,是否真的是"提效", 而不是新瓶裝舊酒。目前仍有大部分核心應用開發者對 Serverless 還是持有觀望狀態,當然也不乏一些質疑觀點,“FaaS 只適合小業務場景以及非核心業務場景”。

Serverless 的 雙11 “大考”

2019 年 12 月諮詢公司 O'Reill發佈Serverless 使用調研中,已有 40% 的受訪者所在的組織採用了 Serverless。2020 年 10 月,中國信息通信研究院發佈的《中國雲原生用戶調研報告》指出:“Serverless 技術顯著升溫,近 30%的用戶已在生產環境中應用。”2020 年,越來越多企業選擇加入 Serverless 陣營,翹首以待更多 Serverless 規模化落地核心場景的案例。

面對 Serverless 開發者數量的穩步增長的現狀,阿里巴巴年初就制定了“打造 Servrelss 雙11”的策略,目的不只是單純的去抗流量、打峯值,而是切實的降成本,提高資源利用率,通過“雙11 技術鍊金爐”把阿里雲 Serverless 打造成更安全、更穩定、更友好的雲產品,幫助用戶實現更大的業務價值。

與過去 11 年的雙11都不同的是,繼去年天貓雙11核心系統上雲後,阿里巴巴基於數字原生商業操作系統,實現了全面雲原生化,底層硬核技術升級帶來了澎湃動力和極致效能。以支撐訂單創建峯值爲例,每萬筆峯值交易的 IT 成本較四年前下降了80%。Serverless 也迎來了首次在雙11 核心場景下的規模化落地。

場景一: 前端多場景

2020雙11,阿里巴巴集團前端全面擁抱雲原生 Serverless,淘系、飛豬、高德、CBU、ICBU、優酷、考拉等十數 BU ,共同落地了以 Node.js FaaS 在線服務架構爲核心的雲端一體研發模式。

今年 雙11 在保障穩定性、高資源利用率的前提下,多 BU 的重點營銷導購場景實現了研發模式升級。前端 FaaS 支撐的雲端一體研發模式交付平均提效 38.89%。依託 Serverless 的便利性和可靠性,淘寶、天貓、飛豬等 雙11 會場頁面快捷落地 SSR 技術,提高了用戶頁面體驗,除了保障大促以外,日常彈性下也較以往減少 30% 計算成本。

場景二:個性化推薦場景

Serverless 天然的彈性伸縮能力,是“個性化推薦業務場景”選擇由 Serverless 實現的最重要原因,數以千計的異構應用運維成本一直是這個場景下的痛點。通過 Serverless 化進一步釋放運維,讓開發者專注於業務的算法創新。

目前這個場景的應用範圍越來越廣,已經覆蓋了幾乎整個阿里系 APP:淘寶,天貓,支付寶,優酷,飛豬等等,因此我們可以對機器資源利用率方面做更多的優化,通過智能化的調度,在峯值時的機器資源利用率達到了 60%.

場景三:中、後臺場景

2020年,世紀聯華 雙11 基於阿里雲函數計算(FC)彈性擴容,在大促會場 SSR、線上商品秒殺、優惠券定點發放、行業導購、數據中臺計算等多個場景進行應用,業務峯值 QPS 超過 2019 年 雙11 的 230%,研發效率交付提效超過 30%,彈性資源成本減少 40% 以上。

當然,適用於 Serverless 的場景還有很多,需要更多行業的開發者們共同豐富。總的來說,今年 FaaS 的成績單非常耀眼,在 雙11 大促中,不僅承接了部分核心業務,流量也突破新高,幫助業務扛住了百萬 QPS 的流量洪峯。

阿里雲如何擊破 Serverless 痛點?

那麼,面對行業共有的Serverless落地之痛,阿里雲是如何克服的呢?

預留模式 + 按量模式消除冷啓動

在 2019 年的 Serverless 2.0 重大升級中,阿里雲函數計算率先支持了預留模式,接着 AWS Lambda 幾個月後,也上線了類似的功能。

爲什麼阿里雲會率先提出這個問題?阿里雲 Serverless 團隊不斷探索真實業務的需求,按量模式的按需付費模式,雖然非常的誘人,但是冷啓動時間過長,因此把核心在線業務拒之門外。接下來阿里雲着重分析了核心在線業務的訴求:延時小,保證資源彈性。那如何解決呢?

請看下圖,一個非常典型的業務曲線圖,用預留模式方式滿足底部固定的量,用彈性能力去滿足 burst 的需求。

針對 burst 擴容,我們利用兩種擴容方式結合進行滿足:按資源擴容 與 按請求擴容,比如用戶可以只設置 CPU 資源的擴容閾值爲 60%,當實例的 CPU 達到閾值後,就會觸發擴容。此時的新請求並沒有立即到擴容實例,而是等待實例準備好後再導流,從而避免了冷啓動。

同理,如果只設置了併發度指標的擴容閾值爲 30(每一個實例承載的併發度),同樣滿足這個條件後,也會觸發同樣流程的擴容。如果兩個指標都進行了設置,那麼先滿足的條件會先觸發擴容。

通過豐富的伸縮方式,阿里雲函數計算解決了 Serverless 冷啓動的問題,很好的支撐了延時敏感業務。

核心業務研發提效 38.89%

“提升效率”本應該是 Serverless 的優勢,但對於核心應用來說,"快" = "風險大",用戶需要經過 CI 測試,日常測試,預發測試,灰度部署等幾個流程驗證,才能確保函數的質量。這些流程是阻礙核心應用使用 FaaS 的絆腳石。

針對於這個問題,阿里雲函數計算的策略是" 被集成“,把研發平臺的優勢與阿里雲函數計算進行結合,既能滿足用戶的 CI/CD 流程,又能享受到 Serverless 的紅利,幫用戶跨過使用 FaaS 的鴻溝。

阿里集團內部通過暴露標準的 OpenAPI 與各個核心應用的研發平臺進行集成,經過雙十一業務研發的驗證,研發效率大大提高了 38.89 %。在公有云上我們與雲效平臺集成,把研發流程 與 FaaS 結合的更緊密、更順暢,幫助集團外的業務提高人效。

中間件連通

核心應用離不開上下游的配合,一旦核心應用使用了函數計算,又該如何與中間件相配合?傳統應用開發需要集成各類中間件的 SDK,進行打包上線,但對於 Serverless 的函數來說,代碼包的大小就是一個硬傷,這個問題將將直接影響冷啓動的時間。

阿里雲函數計算經過兩個階段的發展,第一個階段我們通過搭建中間件 Proxy, 通過 Proxy 去打通中間件,函數只用單一的協議與 Proxy 進行交互,從而 offload 掉中間件的 SDK 的包袱。

第二個階段:隨着中間件能力的下沉,一些控制類型的需求也被提上了議程,比如:命令下發,流量管理,配置拉取等等,期間阿里雲擁抱了開源組件 Dapr,利用 Sidecar 的方式 Offload 中間的交互成本。

上述的方案,是基於阿里雲函數計算的 Custom Runtime,以及 Custom Container 功能完成的。

極致的開發體驗

遠程調試,日誌查看,鏈路追蹤,資源利用率 ,以及完善周邊工具鏈是開發者的必備能力。阿里雲函數計算同時啓動了不同的攻關小組,首先與 Tracing/ARMS 結合,打造清晰的鏈路追能力,與 SLS集成打造了全面的業務數據監控。

因此,業務可以根據需求進行自定義,並且擁抱開源產品 Prometheus 暴露出資源利用率,支持遠程調試能力的 WebIDE。

再加上阿里雲近期剛開源的重磅武器:Serverless-devs ,一個無廠商綁定的、幫助開發者在 Serverless 架構下實現開發/運維效率翻倍的開發者工具。開發者可以簡單、快速的創建應用、項目開發、項目測試、發佈部署等,實現項目的全生命週期管理。

Serverless 初始的痛點有很多,爲什麼阿里雲卻能把Serverless落地到各行各業?

首先,阿里雲提供了所有云廠商中最完整的 Serverless 產品矩陣,包括函數計算 FC、Serverless 應用引擎 SAE、面向容器編排的 ASK、以及面向容器實例的 ECI。

豐富的產品矩陣能夠覆蓋不同的場景,比如針對事件觸發場景,函數計算提供了豐富的事件源集成能力和百毫秒伸縮的極致彈性;而針對微服務應用,Serverless 應用引擎能做到零代碼改造,讓微服務也能享受 Serverless 紅利。

其次, Serverless 是一個快速發展的領域,阿里雲在不斷拓展 Serverless 的產品邊界。例如函數計算支持容器鏡像、預付費模式、實例內併發執行多請求等多個業界首創的功能,徹底解決了冷啓動帶來的性能毛刺等 Serverless 難題,大大拓展了函數計算的應用場景。

最後,阿里經濟體擁有非常豐富的業務場景,可以進一步打磨 Serverless 的落地實踐。今年阿里經濟體的淘系、考拉、飛豬、高德等多個BU的雙11核心業務場景均使用了阿里雲函數計算,並順利扛住了雙11的高峯。

Serverless 引領下一個十年

“勞動生產力的最大激進,以及運用勞動時所表現的更大熟練、技巧和判斷力,似乎都是勞動分工的結果” 這是摘自《國富論》的一段話,強調的是“勞動分工” 的利害關係,任何一個行業,市場規模越大,分工將會越細,這也是著名的“斯密定理”。

同樣,這一定理也適用於軟件應用市場行業,隨着傳統行業進入了互聯網化階段,市場規模越來越大,勞動分工越來越細,物理機託管時代已經成爲了歷史,被成熟的 IaaS 層取代,隨之而來的是容器服務,目前也已經是行業的標配。

那麼,接下來的技術十年是什麼呢?答案是:Serverless,抹平了研發人員在預算、運維經驗上的不足,在對抗業務洪峯的情況下,絕大多數研發也能輕易掌控處理,不僅極大地降低了研發技術門檻,同時大規模提升了研發效率,線上預警、流量觀測等工具一應俱全,輕鬆做到了技術研發的免運維,可以說 Serverless 是更細粒度的分工,讓業務開發者不再關注底層運維,只關注於業務創新,以此大大提高了勞動生產力,這就是“斯密定理”效應,也是 Serverless 成爲未來必然趨勢的內在原因。

當下,整個雲的產品體系已經 Serverless 化,70% 以上的產品都是 Serverless 形態。對象存儲、消息中間件、API 網關、表格存儲等 Serverless 產品已經被廣大開發者熟知。下一個十年, Serverless 將重新定義雲的編程模型,重塑企業創新的方式。

相關文章