容灾备份那些事~关于RTO,你理解对了吗? 点击:526 | 回复:0



jsgjxx

    
  • 精华:0帖
  • 求助:0帖
  • 帖子:48帖 | 1回
  • 年度积分:0
  • 历史总积分:12
  • 注册:2013年1月23日
发表于:2017-07-04 10:37:41
楼主

容灾备份系统可以分成两部分来理解! 第一是数据备份;相对来说,这一步属于灾难备份的基础内容。即要保证数据不能丢,现在,国内大部分企业都对自己的数据进行备份,要求有容灾需要的,要做异地备份,可以将存储设备转移到不在同一地震带上的数据中心。 第二是业务恢复。也即业务不能停,因为如果业务系统无法使用,即使数据没有丢,也依然是处于不可用的状态,因此对企业而言,不仅要保证数据丢,也要保证业务不停。 这里提到了两个非常重要的指标:RPO和RTO。 RPO是指恢复点目标(Recovery Point Object),指一个过去的时间点,当灾难或紧急事件发生时,数据可以恢复到的时间点,是业务系统所能容忍的数据丢失量。例如每天00:00进行数据备份,那么如果今天发生了宕机事件,数据可以恢复到的时间点(RPO)就是今天的00:00,如果凌晨3点发生灾难或宕机事件,损失的数据就是三个小时,如果23:59发生灾难,那么损失的数据就是约24小时,所以该用户的RPO就是24小时,即用户最大的数据损失量是24小时。所以RPO指的是用户允许损失的最大数据量。RPO指标主要反映了业务连续性管理体系下备用数据的有效性,即RPO取值越小,表示系统对数据完整性的保证能力越强。 RTO,是指恢复时间目标(Recovery Time Objective,RTO)指在故障或灾难发生之后,一台电脑、系统、网络或应用停止工作的最高可承受时间。该参数定义了最大可容忍时限,必须在此时限内恢复数据。一旦发生灾难,如果您要求系统必须在一个小时内恢复运行,那么RTO为一个小时。恢复时间目标是一项职能,用于评估灾难扰乱正常运营的程度和灾难在单位时间里所造成的收入损失。这些因素又取决于受影响的设备和应用程序。恢复时间目标(RTO)是以分钟、小时或天数来衡量的,它是灾难恢复规划(DRP)中的一个重要考虑因素。 RTO取值越小,则表示业务连续性管理系统的业务恢复能力越强,同时,RTO也描述了重大中断事件发生之后,业务运营的停顿时间。RTO=0就意味着在任何情况下都不允许目标业务有任何运营停顿。 RPO是针对数据丢失而言,而RTO是主要针对服务丢失而言,两者之间的关联性不大。在对企业进行风险分析和业务影响分析后,依据各项业务需求才能确定RTO和RPO指标,即使是相同的业务,对于不同企业的RTO和RPO指标可能相差甚远。一般来说,RTO和RPO指标值越小,系统的可用性越高,当然用户付出的投资也越大。 RTO=0,RPO=0是每个单位都希望做到的,我们当然希望数据不丢、业务不停。 那么为什么我说一些厂商讲他们的产品RTO=0是不懂或者故意误导用户呢?关于灾难恢复能力我国出台有一个国家标准,里面有关于各个级别中RTO和RPO的要求,我们可以看一下: 我们可以看到,我们国家对灾难恢复的国家标准中,对于最高级别的第6级,要求其RTO也要数分钟,第5级RTO要求“数分钟至2天”,我们国家目前能达到第6级的寥寥无几,即使一些银行,恐怕也只能达到第5级,其在安全容灾方面的投资不下千万级别,而一个价值十万甚至几万元的产品,就可以宣称自己的产品可以达到RTO=0,这不是忽悠客户么? 那么为什么这么人会宣称自己产品的RTO=0呢,一则可能是因为真的在忽悠误导客户,当然也不排除真的不懂,将响应时间理解成为RTO。 如果大家看过一篇文章《安全安全模型概述》,里面我提到了一个词Rt(Response time),指的是响应时间,当灾难发生时,我们按照预先设定好的策略进行响应所需要的时间。比如,双机是一种常见的高可用(HA)的安全措施,为了预防单机故障,一旦主机发生硬件故障导致宕机,备机会在第一时间接管,以保证业务不停。那么,从主机出现故障到备机接管的时间即为响应时间。 或许大家会说,那这个时候备机接管过来了,业务不就继续了吗?那这不就是RTO吗? 在《安全安全模型概述》中有关于网络安全的模型介绍,常见的APPDRR安全模型将安全分为六个环节:分析、策略、保护、监测、响应、恢复。如果事故按照我们设定的策略进行响应并有效处理,这并不叫灾难,只有预设的响应策略失效,这才是真正的灾难发生,这时才需要进行恢复。 以双机为例,双机是一种有效的灾难预防措施,而不是灾难恢复措施。备机接管并不叫灾难,备机接管失败才叫灾难,我们当然希望备机顺利接管,但如果备机接管失败,那么我们的系统又需要多久才可以恢复呢?同时,主机故障宕机之后虽然备机进行了接管,但主机还是需要进行恢复的,这个恢复的时间才是RTO。 RTO是恢复时间的缩写,而不是响应时间的缩写,虽然第一个字母都是R。 比如,有一个政府客户的信息中心负责人告诉我,他们要求一旦网站服务器宕机,要求在48小时内修复完成就可以,如果超过48小时,将视为事故需要上报市政府,那么对他们的网站服务器而言,RTO就是48小时。 在设计一个容灾系统时,不能过分追求RPO和RTO,因为RPO和RTO越小,投资将越大。而总体投入成本越高,投资回报率将越低。从经济角度考虑,最佳的容灾解决方案不一定是效益最好的容灾解决方案,因为容灾系统的总体投入TCO和投资回报ROI,对于许多用户来说也是十分重要的设计指标。 由于企业对于数据保护的要求程度不同,所以容灾备份体系建设需要考虑的方面比较多,但是,首先要考虑你需要的灾难恢复是什么级别的,这种灾难恢复类型的技术指标RPO/RTO是多少。 而且,对于一个单位而言,RPO和RTO的要求是根据不同的业务来规定的,也就是说不同的业务其RTO的要求是不一样的。我们要根据不同的业务要求来制定相应的恢复级别。比如对于一家医院而言,HIS系统要求的灾难恢复级别可能稍等一点,LIS、PACS等可以略低。要根据自己单位和业务的实际情况,合理的设定RTO和RPO。 转载自:https://mp.weixin.qq.com/s/j6xfy8E3UJjxy-2JSfWMKw 江苏国骏信息科技有限公司在信息网络安全、运维平台建设、动漫设计、软件研发、数据中心领域具备十多年的行业沉淀。公司遵循信息安全整体性的IATF模型,从“人员素养”、“制度流程”、“技术产品”三个视角提供全面、可信的方案,业务涵盖咨询、评估、规划、管控、建设、培训等。



楼主最近还看过


热门招聘
相关主题

官方公众号

智造工程师