滴滴全國大面積崩潰後專家分析事故真實原因或涉內部業務調整

滴滴出現了很多系統“紊亂”狀態，說明系統不是完全不能運行，只是運行得不對。業務調整或新業務接入但未做好充分的上線測試，或者上線後發生某些意外，就有可能造成這種情況。

11月28日，“滴滴崩了”事件影響持續。滴滴官方回應稱“由於系統故障，滴滴App服務出現異常，經技術同學緊急修復，目前正陸續恢復中。”但對於系統故障的具體原因——究竟是內部業務調整還是外部攻擊，滴滴官方並未給出明確解釋。

對於滴滴閃崩背後的原因推測，360安全專家對第一財經記者分析稱，可能有幾個方面原因：一是系統更新升級過程中出現了編程錯誤、邏輯錯誤或未處理的異常情況。一般情況下，互聯網廠商發佈更新都會在晚上，與滴滴發生故障的時間也能對應，當然業務升級維護是放量更新，但現在滴滴全平臺、全業務都故障了，說明肯定是他“家裏”的問題。

二是服務器故障：比如滴滴的核心機房，可能恆溫恆溼環境出了問題，導致服務器過熱、CPU燒了，或者核心機房所在地發生了自然災害如地震、洪水、海嘯等，這種情況下，硬件需要重新更換，裏面的服務軟件也需要重新配置，恢復週期相對較長，但這個可能性比較小。

三是第三方服務故障：滴滴的後臺架構可能使用了第三方服務或者組件。如果第三方出了問題，也可能會影響滴滴的正常運行。但出於安全性考慮，滴滴可能不會將核心業務託管給第三方，這個可能性也較小。

四是攻擊層面，如DDOS攻擊：黑客採用分佈式拒絕服務的方式，搶佔了大量的服務器資源，導致用戶無法訪問，但這點的可能性不高，因爲DDos（分佈式拒絕服務攻擊）不會導致數據出錯，而且滴滴從體量上來說，有足夠的成本和能力去對抗。或者其他網絡攻擊：某些黑灰產團伙可能會通過拖庫盜取數據，然後在暗網上售賣，在這個過程中不排除會有誤操作，破壞了數據庫。

以及有可能發生了網絡攻擊黑客對滴滴的底層數據、業務代碼進行了加密。據披露現象，用戶的賬單和打車數據都算錯了，存在一定可能是滴滴爲了避免更大損失主動暫停了業務。近期勒索攻擊事件屢屢發生，月初，某金融機構就是因爲遭遇勒索病毒攻擊造成了業務停擺。

但網絡安全公司專家孫甫對記者表示，如果是來自外部的黑客攻擊，公司一般會在第一時間進行聲明。他的猜測更集中於滴滴發生了內部重大業務調整，或有新業務接入原系統，但沒有做好預案，導致關聯業務或關聯繫統出現重大故障，這是大公司系統故障最常見的原因。

其他可能性包括員工違規操作或誤操作，導致整個系統停產；員工誤操作或違規操作導致內部系統或系統端口意外暴露，如員工爲了方便遠程辦公，把3389、445等端口暴露在外，端口一旦暴露，就有可能打破一切隔離措施；或內鬼惡意行爲，如前兩年曾發生過微信供應商微盟的核心工程師因對公司不滿，人爲刪除大量的用戶數據，導致系統一度停止服務，很多數據最終也無法恢復。

但需注意的是，此次滴滴事故爆發後，滴滴體系產品全線崩潰，並未發生容災設備及時響應進行輔助的情況。容災（Disaster Tolerance）是指在自然災害、設備故障、人爲操作破壞等的災難發生時，在保證生產系統的數據儘量少丟失的情況下，保持生存系統的業務不間斷地運行。

一位網絡安全領域人士對記者表示，理論上技術平臺會配有容災設施，一旦數據中心、系統遭遇攻擊或不可控外部問題，容災系統應該自動啓用，並繼續提供不間斷的服務。但從滴滴此次事故的表現來看，似乎雲服務方面並沒有提供充分的容災支持。

滴滴系統採取多雲服務架構，合作方包括騰訊雲、阿里雲，以及滴滴自有云計算服務等。騰訊雲官方頁面案例內容顯示：2015年攜程、藝龍事件之後，網絡數據安全再次成爲熱議話題，在滴滴打車的發展過程中，也曾遭遇過多次黑客攻擊。滴滴打車聯合創始人兼CTO張博談到，目前滴滴打車大部分服務都在騰訊雲上，在安全方面，目前，除了滴滴內部有嚴格的安全控制外，外部主要是通過騰訊雲來幫助實現的。比如黑客攻擊，尤其是DDos攻擊，騰訊雲有一個“宙斯盾”安全體系，可以扛下100G以上流量的DDOS攻擊，這對於一般企業來說，都是很難具備的。在這一點上，騰訊雲可以說爲滴滴提供了很好的安全保障。

另外，滴滴雲計算有限公司於2018年4月18日成立。法定代表人萬偉星，位於北京市，是一家以從事互聯網和相關服務爲主的企業。企業註冊資本5000萬人民幣。

孫甫對記者表示，容災未能啓動側面驗證他所猜測的主要事故原因——自身業務調整引發故障。因爲災備是在系統遭到破壞或攻擊時，原有系統被迫停掉，災備系統才得以啓用。但如果是新業務接入，或是內部人員的違規操作，結果就是整個系統都亂了，不知道從哪裏進行恢復。打個比喻的話，就是大樓有備用電源，停電時是可以救急，但如果是維修工由於誤操作或違規操作將一個樓層的電纜給剪斷了，或者是正在對某個樓層的線路進行重新鋪設——也就是所謂的企業業務調整，這樣的情況下即使將備用電源啓動了，整個樓層照樣停電。

更何況，孫甫強調稱，災備系統的切換並不像外界所想象的可以絲滑無縫。在很多情況下，災備系統只能保證系統有救，但不是一定能瞬間得救。

另外，孫甫對記者表示，從已有報道所披露的信息來看，滴滴出現了很多系統“紊亂”狀態，如價格混亂，一呼多應等，而不僅僅是簡單的崩潰或停服。這說明系統不是完全不能運行，只是運行得不對，之後又因爲系統的校驗機制導致大量出錯被發現，從而又崩潰。如果是業務調整或新業務接入，其中沒有做好充分的上線測試，或者上線後發生某些意外，就有可能造成上述情況。

除了主要猜測的自有業務調整原因，孫甫表示，滴滴事故不太可能涉及企業沒做物理隔離或黑客只打應用層的原因。一方面，如果一家公司沒做物理隔離，不用等別人攻擊，網絡蠕蟲、掃描器等簡易攻擊就可以隨時摧毀一家公司，對於一家這麼大體量的公司來說，這麼大的隱患不太可能一直隱藏。至於黑客攻擊層面，孫甫表示，“黑客攻擊哪裏管你是哪一層，哪裏有漏洞就打哪裏。”

文中孫甫爲化名