河南2小時暴雨紀錄又被刷新!收好這份避險生存指南

文/吳俊宇 顧翎羽  

編輯/謝麗容

“上雲”已是共識,但云計算在自然界的“雲”面前依舊脆弱。

7月18日18時開始,河南鄭州出現罕見持續強降水天氣過程。強降雨導致當地多區域電力、電信基礎設施受到影響。雲服務需要24小時在線,電力是其基礎。斷電的直接結果是,雲服務受到了不同程度的衝擊。

7月21日,中國移動公告稱,河南部分地區受極端天氣影響,樞紐機房斷電,目前無法正常辦理移動業務。

當天,河南本地一家名爲海騰數據的服務商也在官網掛出數據中心受影響的通知。該公司稱,機房由柴油發電帶載,附近油站因道路積水導致無法供油到機房。考慮到存儲油量有限,市電恢復時間不確定,建議用戶緊急備份數據,或遠程關機以避免數據受損。

7月22日,《財經》記者致電多位海騰數據人士得知,其服務依舊尚未完全恢復。出問題的鄭州機房已有十餘年曆史,存儲了當地政府、企業的數據。

此外,中國聯通中國電信也不同程度受到了影響。部分互聯網公司在鄭州的服務器節點出現波動。老牌網絡原創文學平臺晉江文學在7月20日發佈公告稱,主要網站業務所在的異地骨幹機房在鄭州市,機房因爲暴雨停電暫時靠備用發電機供電,部分線路會有不穩定現象。這意味着,短時間內,晉江文學的一部分服務和用戶將受到波及。

在中國企業在“上雲”越來越普遍的情況下,雲基礎設施的7×24小時運轉顯得愈發重要。公司規模越大,用戶越多,宕機造成的服務中斷將引發越嚴重的後果。鄭州暴雨前一週,B站、A站、豆瓣、晉江文學也曾因服務器故障服務長時間中斷。尤其是中國最大的視頻社區平臺B站的宕機,在全網引發轟動。

人們對雲宕機的容忍度幾乎到了無法容忍的地步了。“水電煤”是生活必需品,雲作爲新一代的“水電煤”,也斷不起。數據中心作爲雲計算的基礎設施,和發電廠、自來水廠一樣舉足輕重。

自然災害不可抗拒,但除了緊急啓動保護措施,數據中心其實在災害發生前有一整套“容災備災”的機制。如何建立這套機制,正是這次暴雨留下的最大教訓。

被暴雨衝擊的“雲”

此次鄭州暴雨來的又急又猛。

鄭州市氣象臺數據顯示,18日-20日三天降雨量617.1mm。鄭州常年平均全年降雨量爲640.8mm。這意味着三天下了以往一年的量。

暴雨以及隨之而來的內澇直接導致電力設備崩潰了。鄭州市區一座110千伏變電站被迫停止運行,部分區域生產生活用電受到影響。通信運營商是重要的受影響對象。鄭州暴雨致多處通信網絡中斷。截至7月21日10時,鄭州移動基站停電3563個,基站退服3152個。這還不包括當地的聯通和電信。

如此暴雨下,雲基礎設施也很難獨善自身。

事實上,和北京、東部沿海、南部沿海城市相比,位於中部地區的鄭州並非雲廠商數據中心的集中所在地。阿里雲、騰訊雲、百度雲均未在此建設數據中心,也沒有關鍵節點。

但鄭州本地有多家雲服務代理商,包括景安網絡、海騰數據、億恩網絡、騰佑科技等公司。它們通常提供服務器託管、IDC加速等雲計算周邊服務。它們在中原地區很重要,甚至被一些三方研究報告稱爲本地IDC龍頭企業。

簡單理解,大型雲廠商在全國重要區域會建設雲計算的“大腦”和“骨架”,但在無法全面覆蓋的其他區域,這些代理商則是提供了“血管”或是“毛細血管”的服務。

值得注意的是,他們大多位於鄭州高新技術產業開發區,也就是這次暴雨核心影響區域之一。

有消息稱,暴雨發生後,海騰數據在其官網掛出了數據中心受到影響的通知。該公司建議用戶緊急備份數據,或遠程關機以避免數據受損。記者致電海騰數據相關人士得知,斷電之後,其柴油發電設備隨即上線,但供油量不足,無法覆蓋所有服務器。

受影響的還有景安網絡,《財經》記者致電景安網絡人士得知,其機房位於鄭州東部的高新技術產業開發區。20日下午16時,斷電導致服務器下線。截至7月21日下午18點,該公司已經通過柴油發電機緊急供電,但服務依舊不穩定。

前述的另一家鄭州本地IDC服務商情況類似。這家公司也在鄭州高新區。該公司有技術人士證實,其服務也因斷電受到衝擊。好在公司服務器都在二樓,沒有被泡,不會因暴雨而不可挽回。

一位頭部雲廠商資深技術人士解釋說,服務器被浸泡會直接導致服務中斷,設備受損。嚴重情況下,IT設備可能直接報廢。其中的數據也會遭遇無可挽回的丟失。

該技術人士認爲,通常情況下,雲廠商對數據中心的選址、建造都有考慮,容災備災技術能力相對較強。數據中心用電會有一套三級保護機制,除了正常供電外還有柴油發電、蓄電池,可以保證全年不間斷供電。爲避免暴雨、洪災的影響,服務器通常會放在二樓以上。

不過,這次鄭州暴雨強度太大,直接導致鄭州本地部分服務商三級保護失效了。

首先是城市大規模、長時間斷電。中國電網鄭州供電公司此前在面對媒體“停電搶修爲何這麼久”的疑問時回應,大水浸泡過後的受損電力設備都需要搶修後重新做實驗,保證安全的情況下才能送電。雲服務商機房裏的柴電設備、備用電源在長時間斷電的情況下,不敢給所有機房同時開足馬力。

另外,部分公司的柴電設備、備用電源均被特大暴雨“一鍋端了”。前述鄭州本地IDC服務商一位技術人士說,公司柴電設備在戶外、備用電源智能撐1小時-2小時。暴雨襲來,一樓被泡,發電機和電源都派不上用場,兩個大機房都受到了影響。

其中還包含少部分人爲因素。一位資深技術人士告訴《財經》記者,一些嚴格的做法是,服務器、IDC機房會擺放規則,還會限制服務器的數量、擺放密度,以及備用電源的所在區域。目的就是避免出現“一鍋端”現象,但這樣成本會高很多。除了電信運營商的大型機房,大部分中小型企業會選擇低成本模式。

雲計算服務中斷往往會連帶造成客戶損失。當問及客戶損失要如何處理時,景安網絡相關人士表示,目前已經多次接到相關反饋,公司會予以處理。上述鄭州本地IDC服務商技術人士則稱,暫時無法預估哪些客戶受到了何種程度的衝擊,也不知如何賠付。目前只能先考慮恢復服務。

《財經》記者查閱政府採購網、部分企業合同發現,關於服務器託管部分,往往一般會有一項“不可抗力條款”。不可抗力通常指地震、颱風、火災、水災、戰爭、罷工以及其他雙方共同認同的不能預見、不能避免並不能克服的客觀情況。

部分“不可抗力”引發的事故被視爲甲乙雙方均不用承擔責任。但在部分合同中,不可抗力引發的事故有嚴格的分級指標,而且服務商需要承擔不同級別的責任。

7月22日,《財經》記者再次致電景安網絡和上述鄭州本地IDC服務商。對方回應稱電力供應暫時尚未恢復,目前柴電設備處於滿負載狀態。好在鄭州大雨已經暫停,預計22日內可恢復服務。

好的防禦機制越來越重要

雲計算中心的事故通常是天災人禍綜合因素的結果。

鄭州並非全國核心數據中心主要聚集地。此次暴雨雖然受到了一定衝擊,好在衝擊並未造成重大事故,尚在可接受範圍內。

歷史上,亞馬遜、三星,歐洲最大的雲服務和網絡託管服務運營商OVH都遭遇過重大事故,甚至部分事故引發了不可挽回的嚴重後果。

2012年7月,美國東海岸大型雷電風暴導致中部各州斷電。亞馬遜一數據中心因此暫停服務。這導致Netflix、Instagram、Pinterest以及Tinder等多個美國國民級App癱瘓。

2014年4月,三星在韓國首爾郊區果川的機房發生重大火災。三星官網因此暫時癱瘓,部分手機用戶的服務也受到了影響。

2021年3月,歐洲雲計算巨頭OVH位於法國斯特拉斯堡的機房發生嚴重火災。大火導致了五層高、佔地 500 平方米的 SBG2 數據中心被燒燬。這直接引發1.5萬名客戶的資料可能受到影響,部分客戶數據完全丟失且無法恢復,其中還包括法國政府的部分數據。

這類重大安全事故在國內目前相對少見,但並不排除未來會出現。隨着國內上雲速度進一步加快,如何避免重大安全事故,保證基礎設施穩定運行將是一個重要核心議題。

此前多家雲廠商管理與技術人士曾對《財經》記者表示,數據中心安全保護不可能靠臨時抱佛腳解決,全靠形成一整套完整的選址、防護、備災以及容災機制。

其中一位騰訊基礎架構部人士說,“這套機制就像在一個可能會決堤的河流上提前修起大壩。我們應該靠機制減少抗洪搶險的現象。”

建立選址、備災、防護體系是爲了讓數據中心有一套“安全網”。比如,頭部雲廠商選址時會統籌考慮自然因素。數據中心通常會遠離地震、洪水等災害多發地。不能避免這個問題的話,也有解決措施。比如,在火災高發地,洪災高發地都有不同建設方案。

“不同數據中心的備災措施需要根據當地的自然環境各方面去統籌考慮。”阿里IDC事業部總經理高山淵說,設計備災措施時,方案如何執行、誰去執行只是基本考慮因素。備用設備的狀態切換時間、啓動成功率等細緻因素都需要一一想到。這都是儘量提高備用設施的啓動概率。 

容災則是形成了容錯機制。“多點多活”是其中的重要辦法。簡單說,就是讓數據長出“三頭六臂”,砍掉一個之後,依然可以正常運轉。或是讓一個面臨重大災害的人被瞬間傳送到其他安全場所。

阿里雲數據中心能源與碳管理專家毛宏舉向《財經》記者解釋,保障數據中心和雲服務的可靠性,不僅需要保障硬件,軟件層面也要有備份,“相當於雲服務的容錯機制”。即使在最糟糕的情況下,一處數據中心出現故障,也可以把這部分負載切到其他地方。

一位百度雲人士則透露,百度業務是多地域容災部署(華北/華東/華南三地域),數據在每個地域都有副本,同時還有離線遠程備份,能容忍單個地域出現的極端災害。

也有騰訊基礎架構部人士此前對《財經》記者稱,騰訊春晚保障團隊其實就是在反覆練兵。前些年,各個頭部互聯網公司的“容災備災”在春晚紅包活動中得到了沉澱。

實戰纔是檢驗各個雲廠商“容災備災”最佳方式。不過,沒人會希望這一天真正到來。

相關文章