計算機正常運行最大的威脅是什麼？是員工

一項新研究發現，人爲失誤是引發停機時間的首要原因。你想象一下那是什麼場景。

之前有一個很老的笑話：“是人都會犯錯，但是要真正把事情搞砸，你還缺臺計算機。” 現在情況正好相反了，現如今，數據中心設備的可靠性已經得到了極大的提升，反而是使用設備的人員素質沒能跟上，從而給計算機正常運行帶來了很大的威脅。

正常運行時間協會Uptime Institute對數千名 IT 專業人員一整年發生的故障事件進行了調查，得出結論表示絕大多數的數據中心故障是由於人爲錯誤造成的，人爲錯誤導致的故障率爲 70%-75%。

而且有些故障很嚴重。調查發現，超過 30% 的 IT 服務與數據中心運營商經歷了他們稱之爲是“嚴重服務退化”的停機事故。2019 年有 10% 的受訪者稱他們最近的事故造成的損失超過 100 萬美元。

在正常運行時間協會在 2019 年 4 月的調查中，60% 的受訪者認爲，對於最近發生的重大停機事件，他們本可以通過更好的管理/流程或配置進行防止。而對於損失超過 100 萬美元的故障事件，這一數字躍升至 74%。

正常運行時間協會認爲，導致故障事件發生的最終的錯誤不一定是員工，而是令人失望的管理。

“這個行業仍然嚴重依賴於人工去完成一些最基礎和最重要的工作，易受人爲錯誤的影響，這一點無法避免，也許可做的防錯/防災措施很有限。”正常運行時間協會期刊的主編 Kevin Heslin 在一篇博客文章中寫道。

“然而，對這些故障問題的快速調查發現，故障持續存在的主要原因不是人爲失誤，而是由於管理失誤導致，如針對員工培訓投資不足，相關政策執行不力，管理程序老舊，低估一名合格員工的重要性，這一系列的管理問題導致了故障停機。” Heslin 繼續寫道。

正常運行時間協會指出，公司的 IT 基礎設施越複雜，特別是分佈式特性基礎設施，可能會越容易增加簡單的錯誤層出不窮而導致業務中斷的風險。同時指出公司需要意識到基礎設施越複雜所涉及的風險就越大。

並警告說，在人員配備方面，不要以超過公司吸引和應用資源來管理基礎設施的速度擴大關鍵 IT 能力，並在影響關鍵任務操作之前意識到任何人員和技能短缺。

via: https://www.networkworld.com/article/3444762/the-biggest-risk-to-uptime-your-staff.html

作者：Andy Patrizio選題：lujun9972譯者：sthwhl校對：wxy

本文由 LCTT原創編譯，Linux中國榮譽推出

華爲Pura 70系列來了