原标题:“宕机”问题究竟为何产生?富途CEO李华2000字长文致歉回应

记者 | 刘晨光

编辑 |

1

109日凌晨,有用户爆料称,富途账户在凌晨出现了登录后无法交易,甚至导致资产清零。

9日下午,富途证券发布相关的说明并致歉。富途表示,事故原因为运营商机房电力闪断导致的多机房网络故障,公司已于第一时间联系运营商进行修复,并在2小时内陆续恢复核心服务。

1011日中午,富途创始人李华再发2000字长文道歉和回复,引起市场关注。李华在致歉中坦言,虚心接受所有的批评和建议,并会立即着手相应的改进。

李华对因本次事故产生的三个方面问题进行回复。

针对末日期权价值归零的补偿问题,李华表示,有购买了末日期权因故障未能及时平仓导致价值归零的客户在问是否会补偿,从周末开始针对这类客户,客服已经在逐一联系,会根据具体的情况沟通对应的补偿方案。

有关系统容灾的问题。李华表示,富途的系统是有做容灾设计的,从行情到交易,从服务器到交易网关到网络传输都有做双路或多路的冗余设计。不同的子系统设计会有所不同。这次事故后,不少有技术背景的客户针对系统的容灾给了各种建议,尤其是有关多区域多IDC的容灾建议。

在李华看来,以行情为例,单向传输为主、对时延的敏感度也不是那么高,很早就做了多区域多IDC的容灾设计;尤其像美股行情,涉及到越洋传输,为避免中断,富途选择了全球顶级的两家行情供应商为其分别提供行情源,分别从美国、香港多地多点接入,当这些都不可用时,富途还保留了富途美国IDC直传的能力。

他指出,不考虑其他的冗余设计,光是因为行情源的冗余,一年增加的成本就过千万港元。

不过李华也坦言,交易系统比较特殊,对时延有着非常高的要求。所有的多路冗余热备系统都存在时延大小和数据一致性的冲突;物理位置越分散,比如跨IDC、跨区域,为确保数据一致性,时延就会越大。跨IDC、跨区域的数据一致性的时延问题并不好解决。

李华指出,在实时热备的多路冗余交易系统的设计上会面临着两种选择。一是较差的交易性能更大的订单延时但更好容灾能力的跨IDC多路冗余方案,二是更好的交易性能较小的订单提交延时单一IDC的多路冗余方案,但IDC本身会成为故障的单点。

这也间接导致了一定要做出选择。在李华看来,考虑到IDC的建设标准,IDC的大级别事故是罕见的,尤其是在电力故障方面。经过综合推演之后,富途选择了更好性能的方案二作为我们的系统设计,也因此留下了IDC的单点故障隐患。

“这次事故恰恰就是IDC出了问题,而且是最不应该出现问题的电力系统出了问题。供电网络一个几秒钟的电压抖动,IDC一堆网络IT设备跟着关机或重启,实在是难以想象,说好的不间断电源和柴油发电机去哪了?不间断电源和柴油发电机竟然都没能发挥应有的作用,要知道电力保障是一个IDC之所以是IDC的最基础能力。另一方面也暴露了我们的系统在这种情况下的脆弱。”李华坦言。

他指出,这次事故的恢复时间以小时计。两害相权取其轻,相对于小时级的故障时间,假如富途可以接受一个分钟级的故障时间,那么在方案二的基础上是不是可以有一个兼顾交易性能低订单延时又支持跨IDC的准热备方案呢?接下来,富途就会对这方面做进一步的研究和推进。

第三个方面,李华回应了有关资产显示的问题。他表示,“这次事故让我看到了我们在产品设计上的一些欠周到。”

他坦言,实际情况是因为故障导致了牛牛app跟后台数据的断开;既然只是断开,那前端app的表现为何是作清空处理?显然以最后可以正常显示的数据快照继续展示会是更好的实现方案;虽然数据不会作实时更新,但给人的心理感觉会安定很多。

最后,李华指出,这次事故值得总结和反思的地方非常多,教训和警示也都非常深刻。不会去做无意义的辩解,立足当下作好改进会更重要。

相关文章