一項新研究發現,人爲失誤是引發停機時間的首要原因。你想象一下那是什麼場景。

之前有一個很老的笑話:“是人都會犯錯,但是要真正把事情搞砸,你還缺臺計算機。” 現在情況正好相反了,現如今,數據中心設備的可靠性已經得到了極大的提升,反而是使用設備的人員素質沒能跟上,從而給計算機正常運行帶來了很大的威脅。

正常運行時間協會Uptime Institute對數千名 IT 專業人員一整年發生的故障事件進行了調查,得出結論表示絕大多數的數據中心故障是由於人爲錯誤造成的,人爲錯誤導致的故障率爲 70%-75%。

而且有些故障很嚴重。調查發現,超過 30% 的 IT 服務與數據中心運營商經歷了他們稱之爲是“嚴重服務退化”的停機事故。2019 年有 10% 的受訪者稱他們最近的事故造成的損失超過 100 萬美元。

在正常運行時間協會在 2019 年 4 月的調查中,60% 的受訪者認爲,對於最近發生的重大停機事件,他們本可以通過更好的管理/流程或配置進行防止。而對於損失超過 100 萬美元的故障事件,這一數字躍升至 74%。

正常運行時間協會認爲,導致故障事件發生的最終的錯誤不一定是員工,而是令人失望的管理。

“這個行業仍然嚴重依賴於人工去完成一些最基礎和最重要的工作,易受人爲錯誤的影響,這一點無法避免,也許可做的防錯/防災措施很有限。”正常運行時間協會期刊的主編 Kevin Heslin 在一篇博客文章中寫道。

“然而,對這些故障問題的快速調查發現,故障持續存在的主要原因不是人爲失誤,而是由於管理失誤導致,如針對員工培訓投資不足,相關政策執行不力,管理程序老舊,低估一名合格員工的重要性,這一系列的管理問題導致了故障停機。” Heslin 繼續寫道。

正常運行時間協會指出,公司的 IT 基礎設施越複雜,特別是分佈式特性基礎設施,可能會越容易增加簡單的錯誤層出不窮而導致業務中斷的風險。同時指出公司需要意識到基礎設施越複雜所涉及的風險就越大。

並警告說,在人員配備方面,不要以超過公司吸引和應用資源來管理基礎設施的速度擴大關鍵 IT 能力,並在影響關鍵任務操作之前意識到任何人員和技能短缺。

via: https://www.networkworld.com/article/3444762/the-biggest-risk-to-uptime-your-staff.html

作者:Andy Patrizio選題:lujun9972譯者:sthwhl校對:wxy

本文由 LCTT原創編譯,Linux中國榮譽推出

相關文章