新冠疫情結束在即,各位小夥伴想必也開始工作了吧......

2020年伊始,世界彷彿開了一個大玩笑。好在天佑中華,武漢也解封了,一切都在向好的地方發展。希望小夥伴們的工作和生活沒有受到太大的影響。

據我7年以來的開發經驗,工業級別的代碼,幾乎三分之二都是在處理異常情況。而且我們去面試,面試官考察應試者的最好的方法,就是考察他是否能夠思考周全,想到所有異常情況的處理方案。

相信大家都使用過消息MQ,他可以很好地進行系統解耦,減低變成的複雜度,又可以進行削峯,增加系統在高併發的穩定性。那麼使用MQ有哪些注意事項呢?是不是MQ就是萬無一失呢?一條MQ消息從產生到消費,有沒有可能失敗?在哪些環節可能失敗,如何處理?

1.消息生產失敗

一般來說,從生產者到MQ中間件是通過網絡調用的,是網絡調用就有可能存在失敗。下面這些原因,都有可能造成MQ生產失敗,例如網絡波動,儘管生產者到MQ服務器之間是內網調用,並不意味着網絡調用的成功率就是百分之百,內網調用也會遇到網絡波動,造成調用超時或者失敗。又如調用的MQ機器瞬間Crash掉,這也是有可能造成調用失敗的。 面對生產者調用MQ的失敗,我們是容易比較容易處理的 我們只要簡單地進行重試即可,如果重試2-3次失敗,那麼非常有可能是出現大問題,這個時候再重試意義不大,需要進行告警並處理。

2.MQ處理存儲失敗

消息到達消息中間件之後,通常是會被存儲起來的,只有被寫入到磁盤中,消息纔是真正地被存儲,不會丟失。但是,大部分MQ中間件並不是收到消息就立馬寫入磁盤的,只是由於磁盤的寫入速度相對於內存,現得慢得多得多,所以,像Kafka這樣的消息系統,是會把消息寫到緩衝區中,異步寫入磁盤,如果機器在中途突然斷電,是有可能會丟失消息的。爲了解決這個問題,大部分的MQ都是採用 分佈式部署, 消息會在多臺機器上寫入緩存中成功纔會返回給業務方成功,由於多臺機器同時斷電的可能性較低,我們可以認爲這是比較低成本又可靠的方案。

3.消費者處理失敗

一般的MQ都有MQ重試機制,如果處理失敗,就會嘗試重複消費這個MQ。這個帶來的問題就是,MQ可能已經成功消費了,但是在通知MQ中間件的時候失敗了,這個時候帶來的結果就是消息重複消費。同理,在生產者重試的時候,也會遇到消息重複消費的問題。這個時候,就要求我們儘量把接口設計得有 冪等性 ,這個時候即便是重複消費,也不用擔心什麼問題了。基本上做好這三點,我們就能夠大大地提高我們地系統地可用性了!

這裏需要關注幾個重點:

  1. 冪等不僅僅只是一次(或多次)請求對資源沒有副作用(比如查詢數據庫操作,沒有增刪改,因此沒有對數據庫有任何影響)。

  2. 冪等還包括第一次請求的時候對資源產生了副作用,但是以後的多次請求都不會再對資源產生副作用。

  3. 冪等關注的是以後的多次請求是否對資源產生的副作用,而不關注結果。

冪等性是系統服務對外一種承諾(而不是實現),承諾只要調用接口成功,外部多次調用對系統的影響是一致的。聲明爲冪等的服務會認爲外部調用失敗是常態,並且失敗之後必然會有重試。

什麼情況下需要冪等

業務開發中,經常會遇到重複提交的情況,無論是由於網絡問題無法收到請求結果而重新發起請求,或是前端的操作抖動而造成重複提交情況。 在交易系統,支付系統這種重複提交造成的問題有尤其明顯,比如:

  1. 用戶在APP上連續點擊了多次提交訂單,後臺應該只產生一個訂單;

  2. 向支付系統發起支付請求,由於網絡問題或系統BUG重發,支付系統應該只扣一次錢。 很顯然,聲明冪等的服務認爲,外部調用者會存在多次調用的情況,爲了防止外部多次調用對系統數據狀態的發生多次改變,將服務設計成冪等。

冪等VS防重

上面例子中遇到的問題,只是重複提交的情況,和服務冪等的初衷是不同的。重複提交是在第一次請求已經成功的情況下,人爲的進行多次操作,導致不滿足冪等要求的服務多次改變狀態。 而冪等更多使用的情況是第一次請求不知道結果(比如超時)或者失敗的異常情況下,發起多次請求,目的是多次確認第一次請求成功,卻不會因多次請求而出現多次的狀態變化。

什麼情況下需要保證冪等性

以SQL爲例,有下面三種場景,只有第三種場景需要開發人員使用其他策略保證冪等性:

  1. SELECT col1 FROM tab1 WHER col2=2 ,無論執行多少次都不會改變狀態,是天然的冪等。

  2. UPDATE tab1 SET col1=1 WHERE col2=2 ,無論執行 成功 多少次 狀態 都是一致的,因此也是冪等操作。

  3. UPDATE tab1 SET col1=col1+1 WHERE col2=2 ,每次執行的結果都會發生變化,這種不是冪等的。

爲什麼要設計冪等性的服務

冪等可以使得客戶端邏輯處理變得簡單,但是卻以服務邏輯變得複雜爲代價。 滿足冪等服務的需要在邏輯中至少包含兩點:

  1. 首先去查詢上一次的執行狀態,如果沒有則認爲是第一次請求

  2. 在服務改變狀態的業務邏輯前,保證防重複提交的邏輯

冪等的不足

冪等是爲了簡化客戶端邏輯處理,卻增加了服務提供者的邏輯和成本,是否有必要,需要根據具體場景具體分析, 因此除了業務上的特殊要求外,儘量不提供冪等的接口。

  1. 增加了額外控制冪等的業務邏輯,複雜化了業務功能;

  2. 把並行執行的功能改爲串行執行,降低了執行效率。

保證冪等策略

冪等需要通過 唯一的業務單號 來保證。也就是說相同的業務單號,認爲是同一筆業務。使用這個唯一的業務單號來確保,後面多次的相同的業務單號的處理邏輯和執行效果是一致的。 下面以支付爲例,在不考慮併發的情況下,實現冪等很簡單:

①先查詢一下訂單是否已經支付過,

②如果已經支付過,則返回支付成功;如果沒有支付,進行支付流程,修改訂單狀態爲‘已支付’。

防重複提交策略

上述的保證冪等方案是分成兩步的,第②步依賴第①步的查詢結果,無法保證原子性的。 在高併發下就會出現下面的情況: 第二次請求在第一次請求第②步訂單狀態還沒有修改爲‘已支付狀態’的情況下到來。 既然得出了這個結論,餘下的問題也就變得簡單:把查詢和變更狀態操作加鎖,將並行操作改爲串行操作。

樂觀鎖

如果只是更新 已有 的數據,沒有必要對業務進行加鎖,設計表結構時使用樂觀鎖,一般通過version來做樂觀鎖,這樣既能保證執行效率,又能保證冪等。例如:  UPDATE tab1 SET col1=1,version=version+1 WHERE version=#version# 不過, 樂觀鎖存在失效的情況,就是常說的ABA問題,不過如果version版本一直是自增的就不會出現ABA的情況。

防重表

使用訂單號orderNo做爲去重表的唯一索引,每次請求都根據訂單號向去重表中插入一條數據。第一次請求查詢訂單支付狀態,當然訂單沒有支付,進行支付操作,無論成功與否,執行完後更新訂單狀態爲成功或失敗,刪除去重表中的數據。後續的訂單因爲表中唯一索引而插入失敗,則返回操作失敗,直到第一次的請求完成(成功或失敗)。 可以看出防重表作用是加鎖的功能。

分佈式鎖

這裏使用的防重表可以使用分佈式鎖代替,比如Redis。訂單發起支付請求,支付系統會去Redis緩存中查詢是否存在該訂單號的Key,如果不存在,則向Redis增加Key爲訂單號。查詢訂單支付已經支付,如果沒有則進行支付,支付完成後刪除該訂單號的Key。通過Redis做到了分佈式鎖,只有這次訂單訂單支付請求完成,下次請求才能進來。 相比去重表,將放併發做到了緩存中,較爲高效。思路相同,同一時間只能完成一次支付請求。 

token令牌

這種方式分成兩個階段:申請token階段和支付階段。 第一階段,在進入到提交訂單頁面之前,需要訂單系統根據用戶信息向支付系統發起一次申請token的請求,支付系統將token保存到Redis緩存中,爲第二階段支付使用。 第二階段,訂單系統拿着申請到的token發起支付請求,支付系統會檢查Redis中是否存在該token,如果存在,表示第一次發起支付請求,刪除緩存中token後開始支付邏輯處理;如果緩存中不存在,表示非法請求。 實際上這裏的token是一個信物,支付系統根據token確認,你是你媽的孩子。 不足是需要系統間交互兩次,流程較上述方法複雜。 

支付緩衝區

把訂單的支付請求都快速地接下來,一個快速接單的緩衝管道。後續使用異步任務處理管道中的數據,過濾掉重複的待支付訂單。 優點是同步轉異步,高吞吐。不足是不能及時地返回支付結果,需要後續監聽支付結果的異步返回。

相關文章