在用户研究中的应用,系统可用性( 二 )


数据的一致性一般是通过数据库同步方式解决 。案例:天翼云/华为云MySQL数据库服务的主备实例,如下图所示:2、双活模式主节点和备节点同时运行,通过全局负载均衡器负载分摊访问流量,当主节点机宕机时,备节点机立即接管它的一切工作,保证系统不间断运行;主备节点一般是共享主节点的数据库实例,备节点数据库实例同步主节点实例,可提供只读服务 。
案例:招商局的同城双活灾备系统就是该模式,可参考链接:百年招商局大转型,“双云”混合继往开来http://www.sohu.com/a/225597241_122592 3、集群模式多个节点构成集群,一起工作,有如下特点:多主架构,去中心化;集群不同节点之间数据实时同步,没有延迟;在出现数据库故障时,因支持多点写入,切换容易;在服务期间,可支持节点增加或删除的“热插拔”;集群的维护,对应用程序是透明的 。
案例:天翼云/华为云分布式缓存集群实例,其架构图如下所示:所有的redis节点彼此互联;客户端与redis节点直连,不需要中间proxy层;客户端不需要连接集群所有节点,连接集群中任何一个可用节点即可 。03 IT基础设施的高可用1、网络高可用由于网络存储的快速发展,网络冗余技术被不断提升,提高IT系统的高可用性的关键应用就是网络高可用性,网络高可用性是通过匹配冗余的网络设备实现网络设备的冗余,达到高可用的目的 。
比如冗余的交换机,冗余的路由器等2、服务器高可用服务器高可用主要使用的是服务器集群软件或高可用软件来实现 。3、存储高可用使用软件或硬件技术实现存储的高度可用性 。其主要技术指标是存储切换功能,数据复制功能,数据快照功能等 。当一台存储出现故障时,另一台备用的存储可以快速切换,达一存储不停机的目的 。04 高可用性的度量系统可用性一般用n个9来度量,9越多代表全年服务可用时间越长服务更可靠,停机时间越短,反之亦然 。
下表提供了n个9对应的年、月、周、天的宕机时间:宕机时间是怎么计算的呢?宕机时间顾名思义就是不可用时间,比如,可用性为99.999%(5个9),不可用性为1-99.999%=0.001%,我们算一下按照“年”来度量的宕机时间如下:365天*24小时*60分钟*(1-99.999%)≈5.26分/年 。可信云官网列出的天翼云主机的业务可用性指标为99.95%,我们计算一下宕机时间:365天*24小时*(1-99.95%)≈4.38小时/年 。
在线系统和执行关键任务的系统,比如金融系统,通常要求其可用性要达到5个9标准(99.999%) 。05 数据一致性问题高可用系统,细节之处全是魔鬼,冗余结点最大的难题就是数据复制的数据一致性保证 。冗余数据所带来的一致性问题是魔鬼中的魔鬼:如果主备节点数据复制是异步的,那么在failover的时候就会出现数据差异的情况 。
如果主备节点数据复制是同步的,那么就会导致冗余结点越多性能越慢 。所以,很多高可用系统都是在做各种取舍,如果我们对数据库的性能要求较高,能容忍一定的数据差异,建议采用异步复制模式;如果要求数据的强一致性,能够容忍一定的性能损耗,建议采用同步复制模式,比如银行账号的余额真实体现了账户的结余,不能允许主备节点账号余额不一致,此时就必需做到强一致性 。
06 高可用性总结要做到服务高可用,就必需要有备用(复本),无论是应用结点还是数据结点要做到复制,就会有数据一致性的问题,要根据业务场景来取舍我们不可能做到100%的高可用,也就是说,我们能做到几个9个的SLA我们很难计算出系统有多少的可用性,因为影响一个系统的因素实在是太多了,除了软件设计,还有硬件,还有第三方的服务(如电信联通的宽带SLA),当然包括“建筑施工队的挖掘机” 。

推荐阅读