新闻中心
有灾无备的背后:灾备管理是最大的黑洞
作者:睿至大数据
据不完全统计,在过去的一年中,全国开建、在建和已建成的灾备中心、灾备项目不下百余处,这些灾备中心承载着产业园区、金融机构、医疗民生、区域大数据/云计算平台等诸多业务发展中心的灾难备份恢复及业务连续性保障工作,是许多政府机构、企业事业单位及组织机构IT和业务可持续发展的重要保障。

    从北京的亦庄,到广州的南翔;从安徽的合肥,到江西的赣州;还有风景如画的广西桂林到中缅国境线边的云南保山,还有大草原上的明珠呼和浩特,仅是在2017年7-8月间,国内宣布动工和建成的灾备中心不下十余处,范围遍及全国各地、天南海北,着力发展大数据与云计算产业,为技术开发区、产业园区提供坚实的IT基础,已经成为各地政府、企业的共识,而建立灾备中心,成为所有工作中不可或缺的一部分。 

1505118286.jpg

    据不完全统计,在过去的一年中,全国开建、在建和已建成的灾备中心、灾备项目不下百余处,这些灾备中心承载着产业园区、金融机构、医疗民生、区域大数据/云计算平台等诸多业务发展中心的灾难备份恢复及业务连续性保障工作,是许多政府机构、企业事业单位及组织机构IT和业务可持续发展的重要保障。


    与此同时,国内正在形成新的灾备中心外包服务业务新模式,例如某建立在广西桂林的灾备中心,其服务目标不仅仅是为了本地园区和企业事单位,更重要的是,它将成为一个对外服务的新平台,除了服务于桂林市公共基础数据中心,更要面向广西和东盟提供数据灾备服务业务——这意味着,灾备中心的身份已经悄然发生了转变:从对内提供服务的基础设施,变成了对外提供服务的商业化灾备服务中心。 


    但在各地如春笋般建立灾备中心的背后,一个隐忧仍然久久不能散去:自2010年开始,几乎每年都会有国内的知名企业涉及到业务连续性事故当中,这其中既有知名的制造业企业、物流公司或是电商平台,也有中小型的银行、信用社、保险公司、证券公司等金融机构,更有甚者,大型知名商业银行也频繁牵扯其中:2012-2013年,短短的半年多时间里,多家金融机构出现业务系统故障,这些事故不仅波及银行柜台、ATM等传统业务,就连网络银行、手机银行、网银支付、POS机支付等业务也因故瘫痪,而且几乎每次事故,都是“北京、上海、广州、深圳等大型城市首当其冲,全国范围出现瘫痪”——无一例外的,这些出现事故的金融机构都曾标榜自己“建立了可靠的、高效的容灾备份体系甚至是多活数据中心”。


    将上面的这些新闻放在一起形成的尴尬局面让人哭笑不得:一边是不断落成的灾备中心;一边是事故频发、麻烦不断的各类政府机构、企事业单位,到底灾备中心是不是白建了?到底那么多灾备的项目建成了之后、甚至演练了之后,在关键时刻为什么不起作用?到底是哪里出了错?


有灾无备的背后:容灾管理是最大的黑洞
    众所周知,在服务器领域有一个名为RAS特性的提法,即可靠性(Reliability)、可用性(Availability)和可服务性(Serviceability),高水平的RAS特性意味着该服务器可以承载企业更为关键的核心应用,而RAS特性并不是某一个组件或某一个层面所组成的,它包括了管理层、操作系统层、CPU、内存、I/O甚至是散热供电等多层次、多维度的RAS特性,是一个整合的有机体。 

在灾备领域,概念也是相通的。事实上,在灾备这一话题下包括两个部分:第一是灾备系统的建设,指的是建设物理(硬件)的设备和基础设施,比如说灾备系统、两地三中心等等;第二是容灾管理,它包括了容灾管理平台、企业的容灾管理规范(比如应急响应机制等),是“软件平台+管理策略”的组合——灾备系统是“搭台”,容灾管理是“唱戏” 


    这就是灾备往往被称为灾备体系或容灾体系的原因,一个可靠、可用和可信赖的灾备系统,不仅仅是建设了灾备中心、灾备机房或是灾备设备(服务器、存储、网络以及软件平台),还应该有完整的灾备应急机制和高效(更准确来说:是要奏效)的容灾管理体系。 


    但在实际情况中,容灾管理却成为了灾备系统建设最大的黑洞,这其中的原因是多方面的: 


    首先,企业的IT架构往往是复杂的、多元化的,拥有不同时期采购的新旧架构,业务应用环境也在第三平台时代变得越发复杂,同时,云计算的加入也让IT架构变得更加多元化;

其次,容灾管理工具要么是不足,要么是没有100%的发挥其功用,这导致运维人员不仅无法真正的、实时的了解各业务系统的灾备关键指标,更无法完成周期性的灾备系统维护、灾备切换演练(以及制定服务报告和切换手册); 


    第三,在灾备维护、管理、测试、演练甚至是切换流程中,存在大量需要人为干预的工作,包括切换判断、手动启停、汇报审批等等方面,导致整个业务系统不仅切换过程不可控、流程繁琐,甚至是进行1、2次灾备预演之后,都会因为意外的人员问题而导致灾备切换失败; 


    第四,过分依赖于由容灾管理团队根据技能和经验设立的灾备预案规划,这不仅导致企业面对多种灾备场景,缺乏针对性的全局灾备预案规划,更缺乏系统本身的验证机制,真正出现灾备切换场景时难以保证应用切换的准确和实时性。 


    最为关键的是,当灾备系统的容灾管理复杂、低效、依赖人工干预,灾备系统最需要发挥起作用——也就是俗称的“切”——的时候,无论是业务团队还是IT团队,都在这个“涉及系统多、人员多、耗时长、风险大、影响广”的问题面前蹑手蹑脚:谁也不知道在切换的流程中,哪里会出问题,哪里会有纰漏,哪里又会有意想不到的问题。 


    最终的结果,就是谁都“心里没底”,谁都“手上没准”。于是,谁也不敢做出决定(或者说谁也不敢担负未知的风险),“原本可能是有效的灾备系统也就此变成了一个无效的摆设”。


睿至容灾管理:可视、可控、更可“切”

    为了不让辛辛苦苦且花费了大价钱灾备系统形同虚设,企业需要统一的、自动化的、专业化的容灾管理平台,它的建设应当遵循灾备体系建设的规律,帮助IT团队实现灾备工作的流程化、精细化和自动化,提高容灾管理的水平和工作效率。 


    针对容灾管理中所遇到的问题和企业灾备系统的实际需求,睿至提出了容灾管理平台的“三化”: 

容灾状态可视化:支持IT团队的容灾指标监控、切换过程监控,容灾资源纳入统一管理体系,同时,有清晰、完整的容灾大屏(指挥及)展示平台; 
容灾切换可控化:包含可管理的容灾预案,可自定义容灾切换流程,为不同需求、不同层面的融在需求定于容灾场景,当然,也要严格的管理切换权限;
容灾演练自动化:提供容灾演练模板,可自定义容灾演练策略并支持多应用场景的一键容灾,并且提供详尽的切换演练报告。


    为了满足这三点需求,睿至容灾管理解决方案提供了一系列的功能设计和技术创新,比如说: 

    在睿至容灾管理平台上,IT团队不仅对应用状态的一致性、灾备系统可用性及运行状态一目了然,更对业务系统BIA、RPO/RTP、复制链路(的状态和性能)等关键指标有着详尽的信息监控,而且所有有关信息都可以在灾备系统大屏幕上清晰的、实时的、图形化的展现出来;此外,还可以自动进行包括行业合规性、容灾故障切换、容灾计划内切换、容灾演练在内的一系列分析并生成报告; 


    为了做到“可控”,睿至容灾管理解决方案同样可圈可点:通过智能化流程配置、格式化定制脚本等可自定义的切换流程设计,睿至将线下审批和线上切换流程统一化(且每个流程均可支持自动执行或人工执行/验证),并且实现了高容错率的自动化、标准化运维。不仅如此,通过预支支持主流OS、虚拟化和数据库应用的灾备切换流程通用预案模板(也可以自定义),睿至容灾管理解决方案支持“开箱即用”,极大的增强了切换时的易用性。 


    此外,灾备预案配置管理功能可以自定义容灾切换的场景和流程(提供灵活自动化引擎,可配置任何切换场景):任务对应脚本,并绑定执行角色和节点资源,让后多个任务组成一个流程,多个流程组成一个场景,一个预案中可能包含多个场景(场景之间也可以互为关联甚至是“父子”)。当然,睿至容灾管理解决方案提供了灵活却又严格的人员分配与权限控制(管理)能力,从而确保了只有专的、对应其工作范畴的容灾管理维护人员才可以对灾备系统做出任何的修改和调整,是灾备系统和灾备切换最重要的一道安全保障。


    对于灾备系统来说,能不能“切”的关键,既不是灾备系统花了多少银两,也不是使用了哪个国际知名品牌的产品,而是万一遇到关键时刻时的“最终决断”,是那一声干净利落的“切!”——只是在现实世界中,有勇气喊出这一声的人并不多,这其中的根本原因并不复杂:就像是国际大赛上的运动员、高考考场上的高三考生,关键是要看平时练的多不多。 


    但容灾演练不是说练就练的,由于事关重大且牵扯的人员众多、流程复杂,一次容灾演练往往要兴师动众的准备十几天甚至一个月的时间,即使是再重视容灾演练的IT团队也无法一年中很多次的进行演练,“一年一次都算是好的,更不用说标准的一年两次甚至一年多次。” 


    因此,睿至容灾管理解决方案将着眼点放在了容灾演练的自动化上:它不仅支持灵活的在线脚本定制,可以自定义容灾演练场景,还有着清晰、完整的容灾演练切换流程展示,具备“演练准备-开始演练-进行切换-反向复制-应用验证-发布公告”的容灾演练全生命周期管理能力,“想怎么练就怎么练”是对容灾演练zui最大的收益,也是确保临门一脚喊得出来的关键因素。 

作为关注在容灾管理运营解决方案,睿至容灾管理解决方案通过实现导航可视化、切换自动化、流程可编辑、文档可更新等手段,为用户容灾管理节约人力物力,减少失误,降低人为影响,保障业务持续运行,与传统手段相比,睿至的解决方案能够将原本需要3~10个人且耗费数小时的灾备切换,转变为只需要1~3人仅仅45分钟-2小时的高效率灾备自动化切换,而且同时保证切换的成功率和数据、业务的可用性。 


    当然,建成了灾备系统、有了完备的容灾管理平台,也并不意味着灾备系统建设的100%成功,2015年某区域性商业银行业务系统中断长达37个小时40分钟的教训仍然历历在目:这是一家曾经率先完成8000公里灾备演练的区域性商业银行,它曾经建立了国内领先的灾备系统和应急响应机制,但随着建成系统后的3、4年中,该行安全生产意思薄弱、应急管理体系缺失,加之应急处置过程混乱,结果酿成了近年来商业银行最严重的一次运营事故。
 
    “20%靠系统、30%靠管理,剩下的50%,靠的是从不懈怠的容灾管理意识,靠的是每天悬在心里的警钟长鸣。”在一位曾经经历过灾备系统切换且“侥幸成功”的CIO眼里,“灾备系统的物理系统、容灾管理和危机意识”才是确保成功的全部要素,而睿至,则至少帮助企业用户们完成了三分之一的重要(容灾管理)工作。


  • 1
  • 2