原標題:“宕機”問題究竟爲何產生?富途CEO李華2000字長文致歉回應

記者 | 劉晨光

編輯 |

1

109日凌晨,有用戶爆料稱,富途賬戶在凌晨出現了登錄後無法交易,甚至導致資產清零。

9日下午,富途證券發佈相關的說明並致歉。富途表示,事故原因爲運營商機房電力閃斷導致的多機房網絡故障,公司已於第一時間聯繫運營商進行修復,並在2小時內陸續恢復核心服務。

1011日中午,富途創始人李華再發2000字長文道歉和回覆,引起市場關注。李華在致歉中坦言,虛心接受所有的批評和建議,並會立即着手相應的改進。

李華對因本次事故產生的三個方面問題進行回覆。

針對末日期權價值歸零的補償問題,李華表示,有購買了末日期權因故障未能及時平倉導致價值歸零的客戶在問是否會補償,從週末開始針對這類客戶,客服已經在逐一聯繫,會根據具體的情況溝通對應的補償方案。

有關係統容災的問題。李華表示,富途的系統是有做容災設計的,從行情到交易,從服務器到交易網關到網絡傳輸都有做雙路或多路的冗餘設計。不同的子系統設計會有所不同。這次事故後,不少有技術背景的客戶針對系統的容災給了各種建議,尤其是有關多區域多IDC的容災建議。

在李華看來,以行情爲例,單向傳輸爲主、對時延的敏感度也不是那麼高,很早就做了多區域多IDC的容災設計;尤其像美股行情,涉及到越洋傳輸,爲避免中斷,富途選擇了全球頂級的兩家行情供應商爲其分別提供行情源,分別從美國、香港多地多點接入,當這些都不可用時,富途還保留了富途美國IDC直傳的能力。

他指出,不考慮其他的冗餘設計,光是因爲行情源的冗餘,一年增加的成本就過千萬港元。

不過李華也坦言,交易系統比較特殊,對時延有着非常高的要求。所有的多路冗餘熱備系統都存在時延大小和數據一致性的衝突;物理位置越分散,比如跨IDC、跨區域,爲確保數據一致性,時延就會越大。跨IDC、跨區域的數據一致性的時延問題並不好解決。

李華指出,在實時熱備的多路冗餘交易系統的設計上會面臨着兩種選擇。一是較差的交易性能更大的訂單延時但更好容災能力的跨IDC多路冗餘方案,二是更好的交易性能較小的訂單提交延時單一IDC的多路冗餘方案,但IDC本身會成爲故障的單點。

這也間接導致了一定要做出選擇。在李華看來,考慮到IDC的建設標準,IDC的大級別事故是罕見的,尤其是在電力故障方面。經過綜合推演之後,富途選擇了更好性能的方案二作爲我們的系統設計,也因此留下了IDC的單點故障隱患。

“這次事故恰恰就是IDC出了問題,而且是最不應該出現問題的電力系統出了問題。供電網絡一個幾秒鐘的電壓抖動,IDC一堆網絡IT設備跟着關機或重啓,實在是難以想象,說好的不間斷電源和柴油發電機去哪了?不間斷電源和柴油發電機竟然都沒能發揮應有的作用,要知道電力保障是一個IDC之所以是IDC的最基礎能力。另一方面也暴露了我們的系統在這種情況下的脆弱。”李華坦言。

他指出,這次事故的恢復時間以小時計。兩害相權取其輕,相對於小時級的故障時間,假如富途可以接受一個分鐘級的故障時間,那麼在方案二的基礎上是不是可以有一個兼顧交易性能低訂單延時又支持跨IDC的準熱備方案呢?接下來,富途就會對這方面做進一步的研究和推進。

第三個方面,李華回應了有關資產顯示的問題。他表示,“這次事故讓我看到了我們在產品設計上的一些欠周到。”

他坦言,實際情況是因爲故障導致了牛牛app跟後臺數據的斷開;既然只是斷開,那前端app的表現爲何是作清空處理?顯然以最後可以正常顯示的數據快照繼續展示會是更好的實現方案;雖然數據不會作實時更新,但給人的心理感覺會安定很多。

最後,李華指出,這次事故值得總結和反思的地方非常多,教訓和警示也都非常深刻。不會去做無意義的辯解,立足當下作好改進會更重要。

相關文章