原標題:亞馬遜AWS公佈12月7日US-EAST-1服務區域故障原因:網絡設備不堪重負 來源:cnbeta

亞馬遜網絡服務(AWS)已經提供了一個解釋,說明是什麼原因導致了此前部分服務癱瘓,並且波及大量基於AWS運營的第三方網站和在線平臺。在AWS網站上的一篇文章中,該公司解釋說,一個自動程序導致了這次中斷,這次中斷是12月7日上午10:30從位於北弗吉尼亞的US-EAST-1區域開始。

“擁堵的高峯使該公司的運營團隊無法使用其實時監控系統,一個自動化的活動來擴展託管在AWS主網絡中的一個AWS服務的容量,引發了內部網絡內大量客戶的意外行爲,”亞馬遜的報告說。“這導致了大量的連接活動激增,使內部網絡和AWS主網絡之間的網絡設備不堪重負,導致這些網絡之間的通信出現延遲。”

這個問題甚至嚴重到影響了亞馬遜技術人員查看系統到底出了什麼問題的能力。它使該公司的運營團隊無法使用他們通常依賴的實時監控系統和內部控制,這也解釋了爲什麼這次中斷需要這麼長時間才能修復。亞馬遜指出,AWS服務直到當日的美東時間4點34分纔開始改善,問題在美東時間5點22分完全解決。

由於亞馬遜的支持聯絡中心也在AWS網絡上運行,客戶在故障期間有長達七個小時無法創建支持案例。亞馬遜的服務健康儀表板(該平臺用來提供狀態更新)也受到影響,這也導致亞馬遜無法確認故障情況因而延遲承認存在問題。該公司表示,它正在研究如何改進其對故障的反應,並計劃發佈服務健康儀表板的改進版,如果發生故障,可以更加及時幫助客戶及時收到更新。

除了像Venmo、Tinder、Disney Plus、甚至Roomba這樣的流行服務被中斷外,12月7日的故障還波及亞馬遜自家物流,讓送貨工作暫停。亞馬遜在去年的大約這個時候也經歷了一次重大故障,導致一些網站和應用程序癱瘓了幾個小時。

相關文章