消费 理财

显示 收起

支付宝秀秒级自愈力 这项技术简直逆天了!

大家都知道,支付宝如今有几个亿的用户,使用人数非常之多,若是支付宝一旦发生故障的话,那势必会造成很严重的影响,不过支付宝有一项技术十分了得,就算切掉机房网线也能正常运转,近日,支付宝秀秒级自愈力令广大用户震惊,想不到支付宝还隐藏着这样的大招。

支付宝

互联网时代,服务器机房可谓心脏,大型机房出故障是小概率事件。但即便如此,还是可能出现自然灾害、断电、光缆被挖断等黑天鹅事件。如果没有完善的容灾系统,不能及时恢复,就会出现用户信息丢失、资金损失的情况,后果不堪设想。

如果支付宝一半机房被切断,你的花呗还用还吗?在9月20日的杭州云栖大会ATEC主论坛上,蚂蚁金服副CTO胡喜给出了这个问题的答案。

在云栖大会现场,两名支付宝工程师在胡喜的指挥下,同时剪断了支付宝两个模拟机房的网线。系统显示,仅在26秒后,运行在上面的支付宝虚拟账户便恢复了正常运转。

据胡喜介绍,这段现场演示是由支付宝工程师策划的一次特别技术演练。他们基于支付宝的真实架构系统,在两个城市单独搭建了模拟机房。在模拟两处机房同时终止服务时,架构在模拟环境中的支付宝虚拟账户,仅经历了26秒的短暂故障,便重回正常状态——下个月的花呗,还是要还。

支付宝技术

胡喜介绍称,即便是在真实环境下,如果支付宝部署在一个城市的两个机房同时出问题,跑在这两个机房上的支付宝账户也能在数分钟内恢复正常。而在这背后,则是蚂蚁金服“三地五中心”容灾系统的功劳。

“三地五中心”是什么?

众所周知,一切互联网服务存在的基础,都离不开现实世界中的实体服务器。从聊天到网购,从订外卖到叫网约车,用户的每一次操作,都需要经过服务器的中转。

因此,机房是否安全稳定,决定了网络服务是能否正常运转。在历史上,因为各种奇葩机房事故导致的系统宕机,屡见不鲜。

2013年7月,微信曾经出现长达7小时的宕机事件。微信官方事后确认,宕机原因系上海某施工队挖断通信光缆所致。自此之后,“蓝翔挖掘机击败中国互联网”,成为了很多网民调侃宕机事故的热门梗。

同年8月,大洋彼岸的另一场宕机事故,则引发了更加可怕的后果。2013年8月16日,Google在全球范围内发生了五分钟的宕机——搜索服务、YouTube、Gmail全部崩溃。事后,有第三方数据显示,在这五分钟时间内,全球互联网流量雪崩了40%。

对于支付宝一类的国民级金融服务,宕机带来的后果更是毁灭性的。如何保障整个系统在面临“黑天鹅事件”时不会宕机,成为了蚂蚁金服内许多技术人员的首要工作。

记者获悉,自2017年起,蚂蚁金服便开始为支付宝架构“三地五中心”的容灾解决方案——即在三个城市,安置五个机房。一旦其中的一个甚至两个机房发生故障,支付宝的底层数据库系统,会自动将流量全部切换到正常的机房,保证系统稳定运行,且不丢失任何数据。

在金融行业,传统的数据库架构,大多基于“两地三中心”模式——即在两个城市,安置三个机房,其中同城两个机房提供服务;第三个机房平时处于“休眠”状态,只在前两个机房出现问题时才会“临时上岗”。

这就意味着,如果一座城市的两家机房同时崩溃,系统在切换到第三个机房时需要一段等待时间。除此之外,机房切换前后的数据,也可能发生数据丢失。

显然,“三地五中心”的模式,要比“两地三中心”更加可靠。从概率角度看,一座城市两家机房瞬间崩溃的可能性,与城市遭受重大自然灾害的概率相当。而两个城市多家机房同时崩溃,则差不多是两个不同地方的人同时被陨石砸中的概率。

点击展开全文
↓ 往下拉,下面的文章更精彩 ↓