分布式信息系统的高可用架构设计解析.docx

资源描述

《分布式信息系统的高可用架构设计解析.docx》由会员分享，可在线阅读，更多相关《分布式信息系统的高可用架构设计解析.docx（4页珍藏版）》请在优知文库上搜索。

1、前言根据我国十四五规划，推动高质量发展，必须立足新发展阶段、贯彻新发展理念、构建新发展格局，将“新”.贯彻规划始终，以“新”推动我国经济和社会高政后发展，加快新R基配设施建设是“新”的市要组成，统殍推进与佬统基础设施等建设，共同打造现代化基础设施体系，在云it舞时代不论应用架构还是基础设施架构,都采用分布式架构方式构建.对于业务连续性要求比较产芮的金融行业，系统高可用成为一项重要挑战和课题，本文将结合金融行业十多年实战经验对其课题进行浅析。一、高可用概念与指标高可用（HighAvaiIaWIity）指通过尽最缩短计划之内的日常维护麋作和计划之外的软硬件故障所导致的停机时间，以提供系统和应用得可

2、用性.系统高可用的本质要求是指通过各种手段保证系统服务的业务连续性，尽降低对客户的影响.S1.A是系统可用性的一个关键指标，指在一年为单位的时间周期中，系统可正常使用时间的占比.例如，全年共计8760（365X24）个小时,系统因各种原因有9小时无法对外提供服务，那么，全年可用性即为（8760-9）/876099.9%,即业界所谓的3个9（见文章后说明）为提高系统S1.A,容错的架构设计在分布式系统中尤其再要，因为开放平台相比于主机的本质特点是软硬件均可能发生故障，均不可靠.对各种原因引起的单次故障,采用RTO和RPO两个指标衡量.RPO（RecoveryPointObjective）指对应用

3、数据而言，信息系统的生产数据可恢兔到故障发生前多久的时间点；RTO（RecoveryTiineObjective指灾难发牛.后，系统服务从故障时点到重新提供服务的时间点.二者均以时间作为单位.RPO幼苴故障发生前丢失数据的最多时长，RTo例垂故障发生后恢登服务的最快时长.故隙恢史过程也包括应用数据恢亚，住故障抢修时而综合衡信RTO和RP0,例如，金设业的数据更加理要，当无法立即恢复服务时能先完成数据核笈，即RpO优先于RTO。有部分场景（比如支付渠道类）福要保证RTO优先于RP0,这其实是一种系统服务时间（应用层级）和业务信息数据（数据库层级）的干密判断.二、高可用设计思想各公司的高可用设计不

4、尽相同，但设计理念却存在相似和相同的地方，主要如下：（一）在内部设计方面，通过组件冗余设计有效避免单点故障。在机房方面，将应用部若到多个AZ（采用互相独立的供电、网络、冷却等基创设施），金融行业核心系统多采用两地三中心，甚至三地三中心；在服务器方面，网络设备存在冗余线路、多路端口等，服务器配首双路电源、双网卡、双路CPU、磁盘阵列RAID等；在中间件方面，通过IaaS和PaaS云计算资源，提供多应用服务实例.系统的核心资产是数据，因此数据库高可用尤其歪要.受光速等物理规律限制，距商一千公里的两地数据同步性会受限，RPo难以保证为零，这是任何数据库都面临的挑战.由于两地同时故障概率很低QraCI

5、e的farsync就基于该理念设计，通过将数据库日志同步传到近距商的异地城市来优化RPO.传统数据库（如Oracle）采用商可用SAN存储、ADG数据库且制等方式提升数据可靠性；分布式数据库则大妥采用多份数据副本的方式提升数据可靠性；hadoop等多种大数据软件亦采用该方式，当然也存在部分产品采用存算分离，将数据存储到一体化分布式存储产品中.（二）在外部关联方面，通过服务降低方式及时避免外部因素影响.再完善的设计都难以预料系统所在关联环境遇到的各种风睑和故障.当系统遇到流量陡增、关联系统故障等各种故障时，可采用“有所取舍”的策略迸行服务降级来保证系统可用性,限流和熔断是两种常见的处理方式.限流

6、是指采用固定窗口、滑动窗口、令牌桶等算法对多业务维度限流保证系统可用性。金融行业多采用对省市代码、交易码、上游系统等多种方式限流保证核心系统不被瞬时业务商蛭冲熔.熔断是指通过监控等方式感知到关联系统问题时，关闭对其调用来保证自身不因雪崩效应被影响.金融行业妥采用对部分交易熔断来保障关键核心交易的可用性。这是丢卒保帅的思路保证了系统的整体可用性。限流是避免上游消费方系统对自身的影响.熔斯是避免下游服务方系统对自身的影响.二者处理过程中均需优化因服务降级带来的用户体验，比如，在秒杀场景中，抢M请求可能未到达真正服务器就因被随机选中而拒绝返回，但用户并不感知背后所发生的实际情况,而是感觉自己可能因运

7、气差、用户多等原因而未抢到.三、高可用运行机制日常项目研发中仍然存在部分理念：1）采用高可用的分布式数据库就能保证系统高可用；2）采用高可用的架构设计就能保证故障发生时的系统高可用.前者忽略了数据库只是系统的一部分，忽略了部分和整体的关系，后者没有意识到”实践是检验真理的唯一标准”.为保证系统的高可用，笫者认为：在组织级方面，建立一系列企业级高可用保证运行机制，建立完善的配套监控和应急容灾机制.1）只有建立完善的监管控工具，才能通过交易数量，响应时间、交易成功率等全方位监控指标及时发现系统异常，保证后续的人工操作，甚至通过工具进行自动化操作，或者通过AIOps及时发现尚未发生的故障,真正做到防

8、患于未然.2）只有建立完善的应急机制，才能保证检测到系统运行指标异常后有一二线人员及时介入处置,金融行业在日常生产运维中有战时应急响应，但部分故障恢宜仍需数小时，一股企业的应急响应可想而已.在系统级方面，通过研发企业级混沌工具、沉淀系统级测试案例等对系统高可用性进行主动验证。随着分布式和微服务架构的日渐流行，系统复杂性剧增，传统的测试方法已难以覆盖各种潜在故獐.混沌工程的核心理念是在控制爆炸半径的前提下在生产环境创建各类故障以实际检测系统高可用。金融业可能因各种原因短期内不会在生产演练，但可在灰度环境和测试环境演练.综上所述，系统高可用是保证系统业务连续性的核心需求，需投入大Sl人力和软硬件等

9、资源，需贯穿项目研发和生产运维全过程。在架构设计和运行机制设计上需按照系统歪要性进行分级分类管理，综合衡St资源成本和业务收益，保证故障处置时的取舍与平衡.这是一项系统性的工程设计，绝非使用了高可用的分布式数据库就可以做到的事情.全年可用性说明1)3个9(99.9%):87600.1%=8760X0.001=8.76小时2)4个9(99.99%):8760X0.01%=87600.0001=0.876小时=52.6分钟3)5个9(99.999%):87600.001%=87600.00001=0.0876小时=5.26分钟4)6个9(99.9999%):87600.0001%=87600.000001=0.00876小时=31.536秒

展开阅读全文