雪花新聞

一份處理宕機的應急響應入門指南

原標題:一份處理宕機的應急響應入門指南

作者 | Lawrence Jones

譯者 | 王強

策劃 | 萬佳

本文最初發佈於 byrayray.dev 網站,經原作者授權由 InfoQ 中文站翻譯並分享。

在職業生涯中,我跟事故彷彿“結下不解之緣”。也許,這是命運使然,或者我喜歡看到事物是怎麼出問題的。也許,罪魁禍首是我?不管出於何種原因,這種經歷給我很大幫助,讓我總結出一套應對事故的方法論。

從那時起,Matthieu 就時常鼓勵我向更多人分享這些理念。於是我接受了他的建議,寫下這篇文章。

如果你搜索過應急響應(Incident Response)這個概念,會發現有很多結果是關於應急角色(incident role)的。Atlassian 上有一些優秀的文檔很好地解釋了這些概念。

簡單來說:

如果你對想要使用的角色感到相當滿意,並且你的團隊在所有角色上都有良好的實踐經驗,那麼你就邁出了高效響應的第一步。可是,現在有了各種角色,你的團隊該如何解決問題呢?

第一,快速找到流血部位

首先,找出流血部位(what is bleeding)。如果你可以儘早確定應急響應的範圍,就意味着你接下來的措施就更可能解決問題。

嘗試:

一旦團隊理解了事故的性質,就可以開始止血(stop the bleeding)。換句話說,你的目標應該是儘快阻止當前的麻煩,並將清理工作推遲到壓力更小的時間段再做。

第二,確定行動的優先級

爲此,我們需要確定行動的優先次序,以儘可能取得最佳的成果。請注意“儘可能”這一短語:應該立即採取能夠迅速實施的例行補救措施,就算你懷疑它只能解決部分問題也無所謂。

這些措施包括:

這樣你就應該大致瞭解自己的團隊應該做什麼事情了。現在的問題是,他們應該如何協作來執行這些任務呢?

第三,使用高效率工具、創建應急文檔

鑑於溝通交流在應急響應工作中的重要性,你需要一款高效率工具來傳遞即時消息並記錄操作日誌。

可以使用 Slack(或其他有着相同功能的軟件):

即時消息非常適合用來傳遞帶有時間戳且不應更改的信息。對於你希望隨着應急工作的進展而調整的內容,請在你喜歡的協作編輯器中創建一個應急文檔(Google 文檔、Dropbox Paper、Notion 等):

聊天記錄和應急文檔結合在一起能成爲強大的工具組合,可以幫助協調響應團隊,同時爲視察工作的投資者提供透明度。還有一點好處是,等到塵埃落定,可以很容易地將這些內容重塑成一份善後報告。

第四,注意人爲因素

最後,也是最重要的是人爲因素。人們在承受壓力時會做出錯誤決定,而沉浸在應急工作中會讓你完全忘記照顧自己。在這方面,你應該以身作則,並強硬地要求你的團隊成員照顧好自己的身體狀況。

這裏要考慮的一些事情:

這份列表缺失的內容還有很多,但你可以把它當作一個入門包,也可以作爲經驗豐富的人員在制定應急響應流程中關鍵環節時的一個參考。

只要記住:深吸一口氣、關照好同事、批判系統而非人員、不要着急。祝大家好運!

這篇文章中缺少對善後分析、事故發生前的準備工作,以及在安全性、數據完整性、可用性之間如何權衡的內容。如果你有興趣聽取我對這些觀點的意見,請在 Twitter 上聯繫我,我很高興與你分享。

原文鏈接:

https://blog.lawrencejones.dev/incident-response/index.html

微軟、思科等企業源代碼被黑客在線售賣,打包價100萬美元

海外IT老兵談996:人才不是加班加出來的,期待有企業能站出來破局

InfoQ 寫作平臺歡迎所有熱愛技術、熱愛創作、熱愛分享的內容創作者入駐!

還有更多 超值活動等你來!

填寫申請,成爲作者

開啓你的創作之路吧~

點個在看少個 bug👇

相關文章