滴滴出現了很多系統“紊亂”狀態,說明系統不是完全不能運行,只是運行得不對。業務調整或新業務接入但未做好充分的上線測試,或者上線後發生某些意外,就有可能造成這種情況。

11月28日,“滴滴崩了”事件影響持續。滴滴官方回應稱“由於系統故障,滴滴App服務出現異常,經技術同學緊急修復,目前正陸續恢復中。”但對於系統故障的具體原因——究竟是內部業務調整還是外部攻擊,滴滴官方並未給出明確解釋。

對於滴滴閃崩背後的原因推測,360安全專家對第一財經記者分析稱,可能有幾個方面原因:一是系統更新升級過程中出現了編程錯誤、邏輯錯誤或未處理的異常情況。一般情況下,互聯網廠商發佈更新都會在晚上,與滴滴發生故障的時間也能對應,當然業務升級維護是放量更新,但現在滴滴全平臺、全業務都故障了,說明肯定是他“家裏”的問題。

二是服務器故障:比如滴滴的核心機房,可能恆溫恆溼環境出了問題,導致服務器過熱、CPU燒了,或者核心機房所在地發生了自然災害如地震、洪水、海嘯等,這種情況下,硬件需要重新更換,裏面的服務軟件也需要重新配置,恢復週期相對較長,但這個可能性比較小。

三是第三方服務故障:滴滴的後臺架構可能使用了第三方服務或者組件。如果第三方出了問題,也可能會影響滴滴的正常運行。但出於安全性考慮,滴滴可能不會將核心業務託管給第三方,這個可能性也較小。

四是攻擊層面,如DDOS攻擊:黑客採用分佈式拒絕服務的方式,搶佔了大量的服務器資源,導致用戶無法訪問,但這點的可能性不高,因爲DDos(分佈式拒絕服務攻擊)不會導致數據出錯,而且滴滴從體量上來說,有足夠的成本和能力去對抗。或者其他網絡攻擊:某些黑灰產團伙可能會通過拖庫盜取數據,然後在暗網上售賣,在這個過程中不排除會有誤操作,破壞了數據庫。

以及有可能發生了網絡攻擊黑客對滴滴的底層數據、業務代碼進行了加密。據披露現象,用戶的賬單和打車數據都算錯了,存在一定可能是滴滴爲了避免更大損失主動暫停了業務。近期勒索攻擊事件屢屢發生,月初,某金融機構就是因爲遭遇勒索病毒攻擊造成了業務停擺。

但網絡安全公司專家孫甫對記者表示,如果是來自外部的黑客攻擊,公司一般會在第一時間進行聲明。他的猜測更集中於滴滴發生了內部重大業務調整,或有新業務接入原系統,但沒有做好預案,導致關聯業務或關聯繫統出現重大故障,這是大公司系統故障最常見的原因。

其他可能性包括員工違規操作或誤操作,導致整個系統停產;員工誤操作或違規操作導致內部系統或系統端口意外暴露,如員工爲了方便遠程辦公,把3389、445等端口暴露在外,端口一旦暴露,就有可能打破一切隔離措施;或內鬼惡意行爲,如前兩年曾發生過微信供應商微盟的核心工程師因對公司不滿,人爲刪除大量的用戶數據,導致系統一度停止服務,很多數據最終也無法恢復。

但需注意的是,此次滴滴事故爆發後,滴滴體系產品全線崩潰,並未發生容災設備及時響應進行輔助的情況。容災(Disaster Tolerance)是指在自然災害、設備故障、人爲操作破壞等的災難發生時,在保證生產系統的數據儘量少丟失的情況下,保持生存系統的業務不間斷地運行。

一位網絡安全領域人士對記者表示,理論上技術平臺會配有容災設施,一旦數據中心、系統遭遇攻擊或不可控外部問題,容災系統應該自動啓用,並繼續提供不間斷的服務。但從滴滴此次事故的表現來看,似乎雲服務方面並沒有提供充分的容災支持。

滴滴系統採取多雲服務架構,合作方包括騰訊雲、阿里雲,以及滴滴自有云計算服務等。騰訊雲官方頁面案例內容顯示:2015年攜程、藝龍事件之後,網絡數據安全再次成爲熱議話題,在滴滴打車的發展過程中,也曾遭遇過多次黑客攻擊。滴滴打車聯合創始人兼CTO張博談到,目前滴滴打車大部分服務都在騰訊雲上,在安全方面,目前,除了滴滴內部有嚴格的安全控制外,外部主要是通過騰訊雲來幫助實現的。比如黑客攻擊,尤其是DDos攻擊,騰訊雲有一個“宙斯盾”安全體系,可以扛下100G以上流量的DDOS攻擊,這對於一般企業來說,都是很難具備的。在這一點上,騰訊雲可以說爲滴滴提供了很好的安全保障。

另外,滴滴雲計算有限公司於2018年4月18日成立。法定代表人萬偉星,位於北京市,是一家以從事互聯網和相關服務爲主的企業。企業註冊資本5000萬人民幣。

孫甫對記者表示,容災未能啓動側面驗證他所猜測的主要事故原因——自身業務調整引發故障。因爲災備是在系統遭到破壞或攻擊時,原有系統被迫停掉,災備系統才得以啓用。但如果是新業務接入,或是內部人員的違規操作,結果就是整個系統都亂了,不知道從哪裏進行恢復。打個比喻的話,就是大樓有備用電源,停電時是可以救急,但如果是維修工由於誤操作或違規操作將一個樓層的電纜給剪斷了,或者是正在對某個樓層的線路進行重新鋪設——也就是所謂的企業業務調整,這樣的情況下即使將備用電源啓動了,整個樓層照樣停電。

更何況,孫甫強調稱,災備系統的切換並不像外界所想象的可以絲滑無縫。在很多情況下,災備系統只能保證系統有救,但不是一定能瞬間得救。

另外,孫甫對記者表示,從已有報道所披露的信息來看,滴滴出現了很多系統“紊亂”狀態,如價格混亂,一呼多應等,而不僅僅是簡單的崩潰或停服。這說明系統不是完全不能運行,只是運行得不對,之後又因爲系統的校驗機制導致大量出錯被發現,從而又崩潰。如果是業務調整或新業務接入,其中沒有做好充分的上線測試,或者上線後發生某些意外,就有可能造成上述情況。

除了主要猜測的自有業務調整原因,孫甫表示,滴滴事故不太可能涉及企業沒做物理隔離或黑客只打應用層的原因。一方面,如果一家公司沒做物理隔離,不用等別人攻擊,網絡蠕蟲、掃描器等簡易攻擊就可以隨時摧毀一家公司,對於一家這麼大體量的公司來說,這麼大的隱患不太可能一直隱藏。至於黑客攻擊層面,孫甫表示,“黑客攻擊哪裏管你是哪一層,哪裏有漏洞就打哪裏。”

文中孫甫爲化名

相關文章