讓研發人員緊張的這條“故障神經線”（上）

在衆多HTTP CODE 裏，作爲一名程序員我們都喜歡200，但從不喜歡以5xx打頭的HTTP返回碼，比如502，注意不是520。發生大量502報警，你會不會緊張，比如下面這張圖。平時爲0，很短時間內達到3w+。

再比如，域名流量監控下，一旦洪峯流量過來，你會不會緊張。比如下圖所示，平時只有1、2百兆的流量，突然達到了2、3G的流量。

在同步應用下有一條“故障神經線”，一旦觸發就會讓你神經緊張。這條神經線是這麼建立的：用戶請求通過NGINX接入進來，首先抵達A系統，通過RPC的方式A系統去調用B系統。如下圖所示。

造成502最爲常見的原因是故障依賴傳導，因爲是同步調用，故障就會順着一層層的依賴關係反映到表層，正如上面這張調用鏈圖所示，從系統B傳導到系統A再通過VIP傳導到最終用戶。

形成這種“故障神經線”的原因，大致如下：

1、 B系統變慢，可能原因是業務邏輯處理性能下降，也有可能是B系統依賴的資源出現性能問題。

2、 A系統和B系統之間的網絡出現問題，比如抖動、發生大量TCP重傳。

3、因爲上述1和2的原因，A系統對B系統採取了容錯處理，比如限流、禁用，來防止故障擴大化。最要命的一點是，被限制了的請求發生重試，因爲最外層的調用方一旦請求受限，他們可能會瘋狂的重試，造成流量洪峯，如上面第二張圖所示。

4、由於系統A做了容錯保護，比如線程池固定在了1000大小，那麼在這樣洪峯的情況下，因爲重試處理不過來的請求，直接通過Nginx以大量502的HTTP狀態碼反映到用戶，如上面第一張圖所示。

這期間還有可能會造成如下問題：

1、分佈式限流遭受熱點

一般我們實現分佈式限流都是通過redis的方式解決。如果發生了某一個固定用戶且有很多臺服務器的瘋狂重試請求，因爲單一的KEY的請求落到了一個redis集羣分片上，就會觸發熱點。一般2C10G大小內存的一個分片，80000次/秒的請求，就會觸發我們事先設置好的熱點閾值了。

當上述這種分佈式限流遇到瓶頸的時候，就需要考慮降級到單機服務器限流，程序代碼從本機的緩存中讀取限流的配置信息來進行限流的處理。

無論採用哪種限流方案都沒有好壞之分，只有符合自己業務場景的限流方案，而且能使用最小的成本來有效的解決技術上的難點，就是最好的方案。

2、TCP重傳次數過高

TCP是一種可靠的傳輸通訊協議，正是爲了保證這樣的傳輸可靠性，有了重傳這樣的機制。它的原理是當發送一個報文後，會開啓一個超時重傳計時器 (Retransmission Timer , RTT)，注意是計時不是計數器。如果在這個計時範圍內沒有收到來自目的接收方的確認，發送端就會啓動這樣的重傳機制。如下圖所示，就是TCP重傳監控的一個例子。