3.2七层灾难恢复解决方案
在谈到灾难恢复方案时,经常提到灾难恢复解决方案的7个层次(tier)。那么什么是7层解决方案?该如何为关键的业务应用选择最优的容灾方案?
3.2.1恢复的7个层次
灾难保护计划的目的是,确保关键业务持续运行以及减少非计划宕机时间。 所有与容灾方案相关的计划都试图在方案本身、宕机时间和实施方案所需成本三者之间找到一个平衡点。

图8. 三者的平衡关系
灾难恢复方案中的恢复时间与下列因素有关:
数据有效性的恢复
IT基础设施的恢复
可操作流程的修复
关键业务的修复

图9. 灾难恢复的层次划分
3.2.2细述7个层次
灾难恢复方案的7个层次提供了一个简单方法论 -- 如何定义当前的服务水平、风险以及期望的服务水平和环境。
0层:无异地备份数据 (No off-site Data)
对于使用0层灾难恢复解决方案的业务,可称其为没有灾难恢复计划,主要表现为:
数据仅在本地进行备份恢复,没有任何数据信息和资料被送往异地,没有处理意外 事故的计划。
恢复时间:在此种情况下,恢复时间不可预测。 事实上也不可能恢复。
例如,目前我们通常在机房内所做的数据备份,备份介质保留在机房内,用于本地的数据恢复。 当灾难发生时,数据备份和设备有可能一同被毁,无法进行恢复。
1层:有数据备份,无备用系统(Data Backup with No Hot Site)
使用1层灾难恢复解决方案的业务,通常将需要的数据备份到磁带上,然后将这些介质运送到其它较为安全的地方。但在那里缺乏能恢复数据的系统,若数据备份的频率很高,则在恢复时丢失的数据就会少些。 此类业务应能忍受几天乃至几星期的数据丢失。
例如, PTAM(Pickup Truck Access Method)是一种许多数据中心所采用的标准备份方式。在完成所需的数据备份后,用适当的运输工具将它们送到远离本地的地方,同时备有数据恢复的程序。 灾难发生后,一整套系统安装需要在一台未开启的计算机上重新完成,系统和数据可以被恢复并重新与网络相连。这种灾难恢复方案相对来说成本较低(仅仅需要运输工具的消耗以及存储设备的消耗)。但恢复的时间长,且数据不够新。
2层:有数据备份,有备用系统 (Data Backup with Hot Site)
使用2层容灾解决方案的业务会定期将数据备份到磁带上,并将其运到安全的地点。在备份中心有备用的系统,当灾难发生时,可以使用这些数据备份磁带来恢复系统。 虽然还需要数小时或几天的时间来恢复数据以使业务可用,但不可预测的恢复时间减少了。
2层相当于在1层上增加了备份中心的灾难恢复。备份中心拥有足够的硬件和网络设备来维持关键应用的安装需求,这样的应用是十分的关键的,它必须在灾难发生的同时,在异地有正运行着的硬件提供支持。 这种灾难恢复的方式依赖于PTAM方法去将日常数据放入仓库,当灾难发生的时候,再将数据恢复到备份中心的系统上。 虽然备份中心的系统增加了成本,但明显降低了灾难恢复时间,系统可在几天内得以恢复。

3层:电子链接(Electronic Vaulting)
使用3层容灾解决方案的业务,是在2层解决方案的基础上,又使用了对关键数据的电子链接技术。电子链接将磁带备份后更改的数据进行记录, 并传到备用中心,使用此种方法会比使用传统的磁带备份更快地得到更新的数据。所以,当灾难发生后,只有少量的数据需要重新恢复,恢复时间会缩短。
由于备用中心要保持持续运行,与生产中心间的通讯线路要保证畅通,增加了运营成本。 但消除了对运输工具的依赖,提高了灾难恢复速度。
例如,某企业在每天下班后,将当日的流水全部记录下来,通过网络传到备份中心;备份中心在备用系统上,重新将所有业务重做,保证与生产中心的一致性。
这一领域的产品可以分四层:
1) 存储设备层:IBM-ESS-PPRC、IBM-DS4000-RM、EMC-SRDF、HP-EVA-StorageWorks Continuous Access、FALCONSTOR-IPSTOR、NETAPP等。
2) 操作系统及系统软件层:IBM-GEORM、VERITAS-Storage Replicator/Volume Replicator、LEGATAL- RepliStor。
3) 数据库层:IBM-DB2-HADR、IBM-INFORMIX-HDR、ORACLE-ORACLE- DATA GUARD等。
4) 应用程序层:应用程序开发时考虑到数据的复制。

4层:使用快照技术拷贝数据 (Point-in-time Copies)
使用4层灾难恢复方案的业务,对数据的实时性和快速恢复性要求更高些。1-3层的方案中较常使用磁带备份和传输,在4层方案中开始使用基于磁盘的解决方案。此时仍然会出现几个小时的数据丢失,但同基于磁带的解决方案相比,通过加快备份频率,使用最近时间点的快照拷贝恢复数据会更快。 系统可在一天内恢复。
4层灾难恢复可有两个中心同时处于活动状态并管理彼此的备份数据,允许备份行动在任何一个方向发生。接收方硬件必须保证与另一方平台在地理上分离,在这种情况下,工作负载可能在两个中心之间分享,中心1成为中心2的备份,反之亦然。在两个中心之间,彼此的在线关键数据的拷贝不停地相互传送着。在灾难发生时,需要的关键数据通过网络可迅速恢复,通过网络的切换,关键应用的恢复也可降低到小时级。支持这种工作方式的产品包括IBM-HAGEO、VARITAS-Global Cluster Manager。

5层:交易的完整性 (Transaction Integrity)
使用5层灾难恢复方案的业务,要求保证生产中心和数据备份中心的数据的一致性。 在此层方案中只允许少量甚至是无数据丢失,但是该功能的实现完全依赖于所运行的应用。
5层除了使用4层的技术外,还要维护数据的状态 - 要保证在本地和远端数据库中都要更新数据。 只有当两地的数据都更新完成后,才认为此次交易成功。 生产中心和备用中心是由高速的宽带连接的,关键数据和应用同时运行在两个地点。当灾难发生时,只有正在进行的交易数据会丢失。 由于恢复数据的减少,恢复时间也大大缩短。数据库的数据复制功能一般可以工作在这样的方式下:IBM-DB2-HADR、ORACLE-ORACLE- Replication等。

6层:少量或无数据丢失 (Zero or little data loss)
6层灾难恢复方案可以保证最高一级数据的实时性。 适用于那些几乎不允许数据丢失并要求能快速将数据恢复到应用中的业务。 此种解决方案提供数据的一致性,不依赖于应用而是靠大量的硬件技术和操作系统软件来实现的。
这一级别的要求很高,一般需要整个系统应用程序层到硬件层均采取相应措施。
1)应用程序层采用基于交易(TRANSACTION)的方法开发。
2)数据库可以采取数据复制。IBM-DB2-HADR、IBM-INFORMIX-HDR、ORACLE-ORACLE- DATA GUARD等。
3)操作系统使用集群软件、站点迁移软件、数据复制软件:IBM-HACMP、VARITAS-Global Cluster Manager等。
4)硬件层使用同步的数据复制:IBM-ESS-PPRC、IBM-DS4000-RM、EMC- SRDF
或使用带有CONSISTANCY-GROUP功能的异步数据复制IBM-ESS-PPRC、IBM-DS4000-RM。
7层:解决方案与具体业务相结合,实现自主管理 (Highly Automated , Bussiness Integrated Solution)
7层灾难恢复方案在第6层的基础上,集成了自主管理的功能。在保证数据一致性的同时,又增加了应用的自动恢复能力,使得系统和应用恢复的速度更快、更可靠(按照灾难恢复流程,手工操作也可实现整个恢复过程)。
7层可以实现0数据丢失率,同时保证数据立即自动地被传输到恢复中心。7层被认为是灾难恢复的最高级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力。7层是灾难恢复中最昂贵的方式,但也是速度最快的恢复方式。当一个工作中心发生灾难时,7层能够提供一定程度的跨站点动态负载平衡和自动系统故障切换功能。现在已经证明,为实现有效的灾难恢复,无需人工介入的自动站点故障切换功能需要一个应该纳入考虑范围的重要事项。
