针对10月9日凌晨的交易事故,富途发布了更详细的复盘和反思。

“真的很对不起,让你们失望了,我们虚心接受所有的批评和建议,并会立即着手相应的改进。”富途创始人李华(花名“叶子哥”)发布署名文章,针对10月9日凌晨的交易中断事故道歉,并重点进行了三方面回应。

据了解,因运营商机房电力闪断,包括富途在内的多家券商出现机房网络故障。随后富途发布公告称,其第一时间联系运营商进行修复,并在2小时内陆续恢复核心服务。李华此次也在公开信中详细剖析了富途的容灾设计方案,并提出了改进思路。

回应市场三大关心

10月9日凌晨,有用户爆料称,富途APP不能登陆、APP登录后无法交易,甚至出现了资产清零的情况。

富途随后发布声明称,该公司在10月9日凌晨1:26发现问题后,第一时间联系运营商进行修复,并在2小时内陆续恢复核心服务。事故原因是由于运营商机房电力闪断导致的多机房网络故障。

10月11日,富途创始人李华在富途牛牛社区发布公开信,针对此次交易事故郑重道歉,并回应了投资者关心的三大问题。

一是末日期权价值归零的补偿问题。李华称,针对购买了末日期权因故障未能及时平仓,导致价值归零的客户,富途客服从周末开始已在逐一联系,会根据具体的情况沟通对应的补偿方案。

二是系统容灾的问题。李华明确,富途的系统是有作容灾设计的,从行情到交易,从服务器到交易网关到网络传输都有作双路或多路的冗余设计,其中仅因为行情源的冗余,一年增加的成本就过千万港元。未来会进一步提升多运营商多机房的网络容灾能力,进一步提升核心服务的稳定性,避免事故再次发生。

三是资产显示问题。事故发生时,有客户发现自己的持仓和资产数据消失。实际情况是,故障导致了APP跟后台数据的断开,只是前端APP表现为了清空,给客户造成了惊吓。未来会对APP相关表现进行改进。

“虽然几次影响大、耗时长的事故都与不可控的外部依赖有着直接的关系,但给到客户的感受都是一样的,那就是富途的服务不可用了。因此,我们责无旁贷,也不会把应该我们解决的问题推到外部,只会看在我们可控的范围内如何可以做得更好。”李华说。

复盘事故剖析系统

根据富途10月10日晚间回应,此次事故的主要原因,是富途在香港将军澳的托管机房电力闪断导致的多机房网络故障。

事实上,由于将军澳机房靠近香港交易所机房,一直是众多香港金融机构的机房托管首选地。有业内人士表示,此次除了富途之外,还有多家券商也受到了机房电力闪断的影响,只是富途的关注度更高。这次事故也显示,券商在同城或跨城备灾,防范恶劣天气方面,仍需更多努力。

据李华介绍,富途从行情到交易,从服务器到交易网关到网络传输都有作双路或多路的冗余设计,不同的子系统的设计会有所不同。

例如行情方面,以单向传输为主、对时延的敏感度也不是那么高,因此富途作了多区域多IDC的容灾设计,选择了全球顶级的两家行情供应商分别提供美股行情源,分别从美国、香港多地多点接入,并保留富途美国IDC直传的能力。

但交易系统比较特殊,对时延有着非常高的要求。而所有的多路冗余热备系统都存在时延大小和数据一致性的冲突。因此在实时热备的多路冗余交易系统的设计上,券商会面临着两种选择。

一是较差的交易性能更大的订单延时但更好容灾能力的跨IDC多路冗余方案,二是更好的交易性能较小的订单提交延时单一IDC的多路冗余方案,但IDC本身会成为故障的单点。可见,不管是哪种方案都有着其固有弱点,券商只能综合判断进行选择取舍。

李华说,考虑到IDC的大级别事故是罕见的,富途选择了第二种方案作为系统设计,也因此留下了IDC的单点故障隐患。这次事故恰恰就是IDC出了问题,而且是最不应该出现问题的电力系统出了问题。

“这次事故的恢复时间以小时计,给我们的教训和启发都非常大。”李华表示,接下来会研究在现有的冗余方案基础上,准备一个兼顾交易性能低订单延时又支持跨IDC的准热备方案,以备今后再发生类似电力闪断事故时,将故障时间缩短至分钟级。

 

相关文章