第一章 容灾中心建设方法

容灾建设项目和业务连续性项目与用户的业务要求、应用现状密切相关,并涉及众多技术和产品以及繁多的供应商,因而属于建设复杂、风险较高的项目之一。为降低项目风险,保证容灾中心建设的成功,选择有经验的合作伙伴、并且有成熟实用的方法论指导对信息中心容灾建设非常重要。

EMC为企业提供“容灾中心建设”或业务连续性建设提出了BCSI(业务连续性解决方案集成)方法论,遵循的方法如下:

120.png

如上图,EMC为企业进行业务连续性或容灾系统建设分为三个阶段。三个阶段是(不包含项目启动等前期工作):

  • 规划(Plan)——科学的规划是项目成功的前提。规划阶段需要对企业的IT系统现状进行评估分析,根据企业的业务发展的要求明确进行需求定义,从而在确定的需求基础上选择合适的技术,进行技术架构设计,选择合适的技术方案并采购相应的产品。

  • 建设(Build) ——本阶段主要是进行技术平台建设(包括整合、数据迁移等)、测试,建设完整的“灾难恢复计划(DRP)”或“业务连续性计划(BCP)”。在科学、合理的规划前提下,建设阶段将相对比较有序。

  • 管理(Manage)——对容灾建设项目或业务连续性项目而言,建设了容灾技术平台及相关的人员、流程要求仅仅是开始,而不是结束,必须定期更新、维护确保能够满足不断变化的业务发展要求。

    贯穿“规划、建设、管理”三个阶段的是“项目管理和服务集成能力”。容灾或业务连续性建设涉及的技术和产品非常广泛,针对不同的业务应用也可能采用不同的技术方案,这些方案来自不同的厂商;由于业务的相互关联,不同的技术方案之间也存在密切的联系,甚至相互依赖。同时,在容灾建设过程中,将有多方供应商提供服务支持,能够协调多方关系,对项目实施进度及质量进行统一控制,对多方服务进行集成调度是“项目管理和服务集成”的重要工作,也是保证项目按时完成并保证质量的重要因素。

    EMC的BCSI方法论为每个阶段定义了所需要完成的工作和步骤(总共十大步骤),对每一步骤都有进一步详细的定义,后面章节将针对本设计项目相关的地方提供了详细步骤图。针对不同的客户,EMC将按照以上科学的方法论,在需要时可按照客户的实际情况进行“量体裁衣”,设计合适步骤,为用户进行有计划、有步骤容灾系统、业务连续性方案建设。

 

第二章 通用容灾技术框架

2.1 企业信息系统保护层次

现代企业的数据中心IT平台(包括主机平台、网络平台、存储平台等)的保护和恢复有不同等级的技术手段,未来企业的业务连续性建设将需要不断提高企业的信息、数据的保护和恢复的等级。

121.png

不同层次的数据中心保护

如上图所示,对企业集中化数据中心的IT系统和业务数据进行保护可以有多种不同层次的保护方案,主要分为本地保护和远程保护两个方面。

  企业数据中心面向运营的保护及恢复包括三个层次:

1. 平台保护—主要是平台的高可用,如采用主机群集系统和高可用存储平台(包括SAN网络环境的高可用和存储系统的高可用),保证IT平台没有单点故障,实现业务和应用的高可用性。

2. 数据备份—对业务数据进行经常性的本地备份,在IT系统出现物理故障或逻辑故障时,数据备份都能提供可靠的数据保护。

3. 数据恢复—在出现数据错误或丢失时能够进行快速、可预见的数据恢复,减少IT系统的中断时间,降低对业务运营的影响。

 建设了完善的本地保护和恢复后,企业需要规划建设面向灾难保护及恢复的“远程”数据及业务保护,它包括三个层次:

1. 远程的信息保护—是将企业的所有重要数据安全的存储在远程站点,提供保护,避免灾难性的事件破坏数据。

2. 远程自动处理—除了提供对生产数据的远程保护外,能够自动进行系统切换、回切及数据恢复等工作,从而在灾难事件发生时能够快速恢复业务运行。

3. 多数据中心保护—通过建设多个数据中心,采用多数据中心的数据保护、恢复技术,防范更大范围的灾难事件。

2.2 容灾技术模型

容灾技术平台建设是企业业务连续性建设的重要基础。EMC公司将企业的IT平台划分为“接入平台、应用平台、数据平台”三部分,建议企业的容灾技术平台建设应该主要着眼于对业务处理平台,数据平台和接入平台这三个重要的系统领域的保护。

122.png

容灾技术模型示意图

 

2.2.1 业务平台的保护——业务处理能力的冗余

容灾技术方案建设中,对于企业的业务平台的保护,主要表现为对业务处理能力的冗余和复用,其中牵涉:

  • 支持应用系统运行的服务器和操作系统等系统软件

  • 支持应用系统运行的存储器及存储器和服务器的连接(存储网络等)

  • 连接服务器的IP网络系统

  • 支持应用系统实现的中间件或数据库等

    客户将需要在容灾中心应该配置与需要保护的生产中心相同厂家、相同版本、相同配置的应用服务器、中间件和数据库。要确保主数据中心和容灾中心的软件运行环境相同。

  • 实现业务逻辑的应用软件系统

    EMC咨询服务部门将可以为客户对上述各方面进行调查评估,分析客户的当前生产中心业务平台当前的现状和特定技术要求,并提出建设容灾方案的具体要求。

2.2.2 数据平台的保护——业务状态数据的复制

在容灾系统中,对数据平台的保护主要表现为对业务状态数据的保护、备份和恢复以及复制,需要保护的业务状态数据包括:

  • 业务交易状态(数据本身的数据属性为文件、数据库等)

  • 系统状态-包括应用软件的初始数据、参数设置、以及系统软件的配置数据、参数设置等。

  • 中间数据(或临时数据)

    在容灾系统建设中,数据平台的保护是实现企业灾难恢复的核心。保证数据的安全永远是第一位的,只有支撑企业业务运营的数据能够及时、完整地复制到容灾中心,才可以在灾难发生时,在容灾中心恢复受灾难影响的业务应用。

    对不同企业,EMC将根据需求分析的结果,对企业的不同重要级别的应用或业务单元采取不同的数据复制方法,对不同类型的应用,根据其访问特点等也将采取不同的数据复制方法。 

2.2.3 接入平台冗余和切换

接入平台在容灾备份系统里,需要实现对外部接口的冗余及切换,其中牵涉:

    • 应用数据接口的切换-包括文件传输、消息机制等

    • 应用连接接口的切换- HTTP连接、数据库连接、远过程调用、对象的调用等…

    • 网络连接的冗余和切换–包括城域网网络连接、拨号连接等等…

      企业的“接入平台冗余和切换”的关键在于实现在容灾中心应该配置相同访问能力的网络设备,并在网络配置上确保能快速、方便地将网络访问从主生产中心切换到备份生产中心 

2.3 容灾模式

将根据项目启动前期的“现状评估、业务需求分析”等结果,可以从容灾层次、容灾范围、运营方式、容灾规模等多角度进行综合分析,得出适用于用户容灾要求的容灾模式和运营方式。

2.3.1 容灾层次

根据业务恢复时间的长短可以将容灾建设划分为不同的层次:

  • 只做数据的灾难保护,仅能保证数据的完整性,此类业务在容灾中心只需要配置存储平台,实现数据的远程复制和存储即可。这种方式可以降低投资,但业务恢复时间很长(一般在3天以上)。数据的灾难保护是仅将生产中心的数据完整地复制到容灾中心的容灾方式。数据的灾难保护是异地容灾的最低级形式,也是最基本的方式,是实现更高级容灾方式的基础。

    在灾难发生时,仅有数据的灾难保护无法保证业务的连续性,仅可以保证数据是可用的,若技术策略选择得当,可以保证业务数据的完整性。采用这种模式有以下特性:

  • 业务恢复速度较慢,通常情况下RTO>72小时

  • 业务恢复难度大,需要新增设备

  • 实现技术难度比较低

  • 运行维护成本较低

  • 投资比较节省

  • 除数据的灾难保护外,实现应用的高可用,确保业务可以快速恢复。容灾系统的应用不改变原有的业务处理逻辑,是对生产中心系统的基本复制。这种方式有以下特性

  • 业务恢复速度较快,通常情况下RTO小于24小时,也可以达到几小时级别

  • 业务恢复过程相对简单

  • 实现技术难度比较高

  • 运行维护成本较高,如:增加软件版本管理、软件部署、维护人员等

  • 投资比较高

2.3.2 容灾范围

根据业务影响分析结果,容灾备份存储平台项目的业务将划分为关键业务和非关键业务两大类。未来可以根据需要选择要做容灾保护的业务种类,可以先建设关键业务容灾,未来实现全业务容灾。

  • 关键业务容灾:业务需求定义中通过业务影响分析定义关键业务的容灾

  • 全业务容灾。

2.3.3 同级容灾或降级容灾

根据容灾中心配置的处理能力不同,可以分为同级容灾和降级容灾。若未来的在容灾中心为需要进行容灾保护的业务系统都配置与生产中心相同处理能力和高可用能力的业务处理平台(主要是指主机性能,高可用群集等),则为同级容灾设计。如果未来的在容灾中心为需要进行容灾保护的业务系统配置比生产中心的处理能力低或高可用能力降低(比如没有做群集等),则为降级容灾设计。采用同级或降级容灾方式取决于业务需求和投资预算,降级容灾可以减少投资(在主机方面的投资)。


第三章 不同容灾技术介绍

3.1 不同容灾技术方案概述

不同企业的不同业务需求和应用特点将可能需要有不同的容灾技术要求,可以采用多种容灾技术来建容灾系统,EMC专业咨询服务部将根据客户的实际需求提供不同的技术方案。对所有客户的容灾技术平台建设而言,容灾方案的技术核心是数据的保护,实现远程数据复制,并能够在灾难发生时在远端利用复制数据提供企业业务运营支撑服务,因此数据复制技术是构建容灾技术平台的核心。不同数据复制技术的分类如下:

123.png

如上图所示,对容灾项目而言,比较可行的是采用连续数据复制技术。

根据不同容灾方案所采用数据远程复制技术位于企业IT架构不同层面又可以分为以下三类容灾方案:

  • 基于存储层面的容灾方案—利用存储系统的远程数据复制功能建设容灾系统,它包括:

    • 同类存储平台之间的数据复制;

    • 异构存储平台之间利用虚拟存储技术实现数据复制。

  • 基于主机层面的容灾方案—利用主机厂家提供的相关功能软件或第三方的主机软件实现远程的数据复制,建设容灾系统。

  • 基于应用层的容灾方案—如利用应用软件如Oracle数据库的本身的远程数据复制技术建设容灾系统

    本节将针对以上“基于存储层面数据复制的容灾方案” 、“基于主机层面的容灾方案” 和“基于应用层容灾方案(以Oracle Data Guard为例)”等三类不同方式容灾方案进行分析。

    对不同的用户,EMC将根据客户的容灾技术方案的实际需要以及技术条件进行评估,为用户最合适的容灾技术方案。

     

3.2 基于存储的数据复制技术建设容灾系统

采用基于存储的容灾方案的技术核心是利用存储阵列自身的盘阵对盘阵的数据块复制技术实现对生产数据的远程拷贝,从而实现生产数据的灾难保护。在主数据中心发生灾难时,可以利用灾备中心的数据在灾备中心建立运营支撑环境,为业务继续运营提供IT支持。同时,也可以利用灾备中心的数据恢复主数据中心的业务系统,从而能够让企业的业务运营快速回复到灾难发生前的正常运营状态。

基于存储的容灾方案示意图如下:

124.png

基于存储数据复制技术的容灾方案示意图

 

采用基于存储的数据复制技术建设容灾系统是目前金融、电信企业、政府采用较多的容灾方案,有非常多的应用案例,是容灾建设可选择的技术方案之一。

基于存储的复制可以是如上示意图的“一对一”复制方式,也可以是“一对多或多对一”的复制方式,即一个存储的数据复制到多个远程存储或多个存储的数据复制到同一远程存储;而且复制可以是双向的。

基于存储的容灾方案有两种方式:同步方式和异步方式,说明如下:

同步方式,可以做到主/备中心磁盘阵列同步地进行数据更新,应用系统的I/O写入主磁盘阵列后(写入Cache中),主磁盘阵列将利用自身的机制(如EMC的SRDF/S)同时将写I/O写入后备磁盘阵列,后备磁盘阵列确认后,主中心磁盘阵列才返回应用的写操作完成信息。

异步方式,是在应用系统的I/O写入主磁盘阵列后(写入Cache中),主磁盘阵列立即返回给主机应用系统“写完成”信息,主机应用可以继续进行读、写I/O操作。同时,主中心磁盘阵列将利用自身的机制(如EMC的SRDF/A)将写I/O写入后备磁盘阵列,实现数据保护。

采用同步方式,使得后备磁盘阵列中的数据总是与生产系统数据同步,因此当生产数据中心发生灾难事件时,不会造成数据丢失。为避免对生产系统性能的影响,同步方式通常在近距离范围内(FC连接通常是200KM范围内,实际用户部署多在35KM左右)。

而采用异步方式应用程序不必等待远程更新的完成,因此远程数据备份的性能的影响通常较小,并且备份磁盘的距离和生产磁盘间的距离理论上没有限制(可以通过IP连接来实现数据的异步复制)。

采用基于存储数据复制技术建设容灾方案的必要前提是:

  • 通常必须采用同一厂家的存储平台,通常也必须是同一系列的存储产品,给用户的存储平台选择带来一定的限制。

  • 采用同步方式可能对生产系统性能产生影响,而且对通信链路要求较高,有距离限制,通常在近距离范围内实现(同城容灾或园区容灾方案)

  • 采用异步方式与其他种类的异步容灾方案一样,存在数据丢失的风险,通常在远距离通信链路带宽有限的情况下实施。

    尽管有以上限制,基于存储的容灾技术方案仍然是当前最优先选择的容灾技术平台,尤其是基于EMC公司的存储系统建设容灾方案有非常广泛的应用,这主要是由于基于存储的容灾技术方案有如下优点:

  • 采用基于存储的数据复制独立于主机平台和应用,对各种应用都适用,而且完全不消耗主机的处理资源;

  • 基于存储得数据复制技术,由于在最底层,实施起来受应用、主机环境等相关技术的影响最小,非常适合于这样主机和业务系统很多、很复杂的环境,采用此种方式可以有效降低实施和管理难度;

  • 采用同步方式可以完全不丢失数据,在同城容灾或园区内容灾方案中,只要通信链路带宽许可,完全可以采用同步方案,而不会对主数据中心的生产系统性能产生显著影响。采用EMC基于存储的同步复制方式的容灾案例有很多,有非常多的成功经验,如江苏移动、中国光大银行、辽宁移动、黑龙江移动都采用了EMC同步复制技术,并能满足大规模I/O吞吐情况下的同步数据复制要求。而目前同城容灾环境中已经具备上述条件,可以很方便部署同步方式复制;

  • 采用异步方式虽然存在一定的数据丢失的风险,但没有距离限制,可以实现远距离保护。异地数据中心,则采用与北京两个中心的异步复制方式进行数据保护。

  • 灾备中心的数据可以得到有效利用。

    对于基于应用、基于主机、基于存储的三种容灾方案而言,灾备中心的数据通常不可用,仅为生产系统中的数据提供灾难保护和灾难恢复。但对采用基于存储技术的容灾方案中,有很灵活的技术手段可以充分利用灾备中心的数据,从而提高企业的业务运营效率,带来更多的投资回报。如下图所示:

125.png

基于存储的容灾方案有效利用灾备数据

如上图所示,生产中心的“源数据—R1”通过存储本身的数据复制机制被复制到了灾备中心,即“目标数据R2”。 “目标数据R2”在正常生产情况下是不可访问的,灾备中心的后备主机只能在灾难发生时,主中心服务停止后,才可以访问“目标数据”,接管主中心的服务(基于主机和应用的容灾方案的灾备中心数据与此类似)。但采用基于存储的容灾方案时,我们可以为“目标数据”建立一个BCV卷或快照、克隆,从而可以给到另外的服务器使用。

利用这种机制,用户可以在容灾中心做很多工作:

  • 用户开发测试人员可以利用R2-BCV或R2快照得到真实的数据进行新应用开发、测试工作,从而保证新应用的质量,加快新产品上市时间。这种方式在采用基于主机方案和基于应用方案都很难实现,或在获得一份真实数据进行开发测试时需要很长的时间,消耗大量的资源。

  • 用户的其它应用也可以利用R2-BCV或R2快照满足其它业务的需要。如数据仓库应用通常需要从生产系统抽取数据,一旦进行大规模数据抽取,生产系统几乎处于停顿状态,这时可以利用R2-BCV卷进行数据抽取,从而避免数据抽取给生产系统带来的巨大性能冲击。企业的决策分析系统的数据来源也都可以基于R2-BCV来实现。

    由于以上优点,基于存储灾难保护方案是目前采用最多的灾难保护方案。

     

3.3 采用虚拟化存储技术建设容灾系统

存储虚拟化的技术方法,是将系统中各种异构的存储设备映射为一个单一的存储资源,对用户完全透明,达到屏蔽存储设备的异构和主机的异构的目的。通过虚拟化技术,用户可以利用已有的硬件资源,把SAN内部的各种异构的存储资源统一成对用户来说是单一视图的存储资源(Storage Pool),而且采用Striping、LUN Masking、Zoning等技术,用户可以根据自己的需求对这个大的存储池进行方便的分割、分配,保护了用户的已有投资,减少了总体拥有成本(TCO)。另外也可以根据业务的需要,实现存储池对服务器的动态而透明的增长与缩减。

通过存储虚拟化技术可实现数据的远程复制,以确保容灾中心与主站点的数据保持同步以实现数据容灾。

存储虚拟化技术可以在不同层面实现,如在智能交换机层面、存储层面或增加第三方设备来实现。采用虚拟存储技术进行数据复制同样也可以有同步复制方案和异步复制方案,需要根据具体的需求选择合适的产品。

采用虚拟存储化技术建设容灾方案有以下优点:

  • 主生产中心和容灾中心的存储阵列可以是不同厂家的产品,存储平台选择不受现有存储平台厂商的厂商限制(但目前市场上产品还没有做到这一点);

  • 对不同厂家的存储阵列提供统一的管理界面;

    在虚拟存储环境下,无论后端物理存储是什么设备,服务器及其应用系统看到的都是其熟悉的存储设备的逻辑镜像。即便物理存储发生变化,这种逻辑镜像也永远不变,系统管理员不必再关心后端存储,只需专注于管理存储空间,所有的存储管理操作,如系统升级、建立和分配虚拟磁盘、改变RAID级别、扩充存储空间等比从前的任何产品都容易,存储管理变得轻松简单。

    采用虚拟存储化技术建设容灾方案需要考虑以下问题:

  • 虚拟存储技术比较新,虽然为异构环境设计,但在异构环境种保证兼容性和数据的完整性依然存在很大风险;

  • 采用虚拟存储技术,尤其是增加第三方硬件的方式将需要评估对整个系统的高可用性和性能的影响;

  • 需要验证选择的产品和技术的成熟性以及和现有设备、未来设备的兼容性能力,尤其是难以满足复杂环境、大规模容灾要求的实际适用情况;

  • 虚拟存储技术目前尚不够成熟,还处于发展阶段,而且对于异构存储环境部署基于虚拟存储技术的容灾方案,目前还无任何案例和应用;


3.4 采用基于主机的数据复制技术建设容灾系统

采用基于主机的容灾方案的示意图如下:

126.png

基于主机的容灾方案示意图

 

采用基于主机系统的容灾方式的核心是利用主、备中心主机系统通过IP网络建立数据传输通道,通过主机数据管理软件实现数据的远程复制,当主数据中心的数据遭到破坏时,可以随时从备份中心恢复应用或从备份中心恢复数据,从而给企业提供了应用系统容灾的能力。

实现远程数据复制的数据管理软件有很多产品,主机厂商和一些第三方软件公司(如Veritas)提供基于主机的数据复制方案,如Sun公司的Availability Suite软件和Veritas Volume Replicator(VVR)等软件可实现基于主机的远程数据复制,从而构建基于主机的容灾系统。

采用基于主机的数据复制技术建设容灾方案有以下优点:

  • 基于主机的方案最主要的优点是只对服务器平台和主机软件有要求,完全不依赖于底层存储平台,生产数据中心和后备数据中心可以采用不同的存储平台;

  • 既有针对数据库的容灾保护方案,也有针对文件系统的容灾保护方案;

  • 有很多不同的基于主机的方案,可以满足用户的不同数据保护要求,提供多种不同数据保护模式;

  • 基于IP网络,没有距离限制;

     

    同时,采用主机的数据复制技术建设容灾方案有以下局限:

  • 基于主机的方案需要同种主机平台;

  • 基于主机的数据复制方案由于生产主机既要处理生产请求,又要处理远程数据复制,必须消耗生产主机的计算资源,对于主机的内存、CPU进行升级是非常昂贵的,因而对生产主机性能产生较大的影响,甚至是产生严重影响;

  • 灾备中心的数据一般不可用,如果用户需要在远程数据中心使用生产数据给开发测试、DW/BI应用使用将非常困难;

  • 利用主机数据复制软件的方案比较复杂,尤其是和数据库应用结合的时候需要很复杂的机制或多种软件的结合,从而对生产系统的稳定性、可靠性、性能带来显著影响;

  • 如果有多个系统、多种应用需要灾难保护,采用基于主机的方案将无法有统一的技术方案来实现。

  • 管理复杂,需要大量的人工干预过程,容易发生错误。

     

    目前,企业采用基于主机的数据复制技术建设容灾方案相对比较少,通常适合单一应用或系统在I/O规模不大的情况下局部使用。在应用I/O负载比较大,需要灾难保护的应用及应用类型比较多、主机环境复杂的时候,基于主机系统的方案并不适用。

     

3.5 基于应用的数据复制建设容灾系统

基于应用之间的数据复制技术也有很多种,以下按常用的Oracle 9i/10G用自带的Oracle Data Guard技术来进行分析(Microsoft SQL*Server的Mirror技术采用类似方式)。

Oracle Data Guard技术是Oracle数据库系统特有的灾难备份和恢复技术,利用了Oracle数据库系统的日志备份和恢复机制。Data Guard的基本原理是在与主系统完全一致的硬件和操作系统平台上建立后备数据库系统,同时对主数据库的数据库日志(Log)和控制文件等关键文件进行备份。

在主系统正常工作的同时将主系统产生归档日志文件(Archived Log)不断的传送到后备数据库系统,并且利用这些日志文件在后备数据库系统上连续进行恢复(Recover)操作,以保持后备系统与运行系统的一致。当主系统发生故障时,使用备份的数据库日志文件在后备数据库上恢复主数据库内的数据。

127.png

                                             图5.18. 采用Oracle Data Guard的容灾方案

 

Oracle9i/10G Data Guard提供了三种模式:

  • 最大保护模式

  • 最大可用模式

  • 最大性能模式

    Oracle Data Guard最大保护模式提供了对于主数据库最高级别的数据可用度,是一种保证零数据丢失的容灾解决方案。当运行最大保护模式时,Redo纪录以同步的方式从主数据库发送到后备数据库,而且,在主数据库方的事务,一定要等到至少有一个后备数据库确认接收到事务数据,该事务才被提交。在这种模式下,一般配置至少两个后备数据库,以提供双重容错保护。如果后备数据库不可用,则主数据库方会自动挂起处理进程。

    最大可用性模式提供了对于主数据库次高级别的数据可用度,保证零数据丢失,并对单个组件的失败提供保护。与最大保护模式一样,redo数据被同步地从主数据库发送到后备数据库。在主数据库方的事务,一定要等到后备数据库确认接收事务数据,该事务才被提交。然而,如果后备数据库因为诸如网络连接之类的问题而不可用时,主数据库方的处理会继续执行。这样,会出现后备数据库暂时与主数据库不一致的情况,但是一旦后备数据库恢复可用,数据库会自动同步,不会有数据丢失。

    最大性能模式是缺省的保护模式。与最大可用性模式相比,它对于主数据库提供稍弱一点的保护,但是性能更高。在这种模式下,当主数据库对事务进行处理时,日志数据被以异步的方式传送到后备数据库。在主数据库方,提交操作在完成写的动作前、无需等待后备数据库的接收确认。在任何时候,如果后备方不可用,主数据库方的处理继续执行,这样对性能不会有什么影响。

     

    采用Oracle 9i/10G Data Guard技术进行灾难备份需要满足以下前提条件:

  • 后备系统与主系统的硬件平台、操作系统、操作系统版本等保持一致;

  • 后备系统与主系统上Oracle用户的权限一致;

  • 后备系统与主系统的Oracle数据库版本一致;

  • 后备系统与主系统的Oracle数据库配置文件一致。

    采用Oracle Data Guard建设容灾方案有以下优点:

  • 完全通过Oracle数据库机制来实现,完全不依赖于其它软件和底层存储平台;

  • 可以满足用户的不同性能、数据保护要求,提供多种不同数据保护模式;

  • 可以实现一对多的数据复制,提供多重保护;

  • 后备数据库可以在很短的时间内提升到生产状态(因为数据库已经在运行);

  • 基于IP网络,没有距离限制;

     

    同时,采用Oracle Data Guard建设容灾方案有以下限制:

  • Oracle Data Guard的三种模式都将对生产数据库系统的性能产生影响,因而需要更多的处理资源;

  • 后备数据库不可用,如果用户需要在远程数据中心使用生产数据给开发测试、DW/BI应用使用将非常困难;

  • 只能对Oracle数据库数据提供保护,不能对其它应用数据—如文件应用等提供灾难保护;

  • 管理复杂,需要大量的人工干预过程,并且要精通数据库恢复技术,容易发生错误;

  • 难以实现大数据量源数据库和目标数据库初次同步,没有相应解决方案;

业界其它基于应用的的容灾方案的优点和局限性与Oracle Data Guard模式基本相同,如Golden Gate和Quest Shareplex软件,下面也介绍一下:

128.png

其实现原理和Oracle DataGuard类似,针对数据库的日志进行数据的增量复制,通过Queue技术来保证传输的可靠性。其方案优势是:

  • 同Oracle DataGuard相同的缺点(见上面部分)

  • 更加灵活,此方案不依赖于主机系统平台,在主生产主机和备用节点主机不同的情况更具有优势;

    缺点是:

  • 同Oracle DataGuard相同的缺点(见上面部分)

  • 只能是异步模式(基于日志和Queue技术),不适合于同城容灾和高要求的容灾要求,如的零数据丢失要求;

  • Oracle对此技术方案不宣布技术支持和问题处理,因此提高了此容灾方案的风险;

     

3.6 容灾方案涉及内容

根据的现状评估、需求分析和技术选型的结果,容灾技术方案设计将需要包含以下内容:

  • 容灾总体架构设计

  • 存储级容灾数据复制方案设计

  • 应用级别(或其它方式)的数据复制方案设计

  • SAN网络规划设计

  • IP网络规划设计

  • 主机及应用部署方案

  • 系统调优(根据需要选择)

  • 数据迁移方案

  • 存储部署规划

  • 备份系统设计(根据需要)

  • 机房设计或机房环境要求。

  • 等等

     

3.7 小结

基于应用的容灾方案、基于主机的容灾方案和基于存储(包括虚拟存储技术)的容灾方案都有各自的适用范围,适用于不同的灾难保护需要。用户需要根据具体的实际需求来选择合适的容灾保护方案。

不同的用户不同的业务系统、不同应用对容灾的要求不同,要求不同的容灾服务等级。EMC在未来将按照科学流程和方法,并利用EMC公司在信息存储管理领域的专业技能和经验为用户进行IT环境的评估和业务影响分析,发掘客户业务需求对容灾技术的要求,从而建议最合适的容灾方案。

对企业而言,选择容灾方案既要考虑选择合适技术方案,也需要考查实现该方案的产品在技术上是否成熟、可靠,性能和灵活性是否满足要求,同时也需要考查提供该解决方案的供应商是否有丰富的经验和认证的技能来保证方案的确实可行并能够成功实施。

EMC公司在容灾领域有领先的技术并已经得到了广大用户的实际应用检验,方案的可行性、产品的成熟度、稳定性、可靠性、灵活性都的到了大量实际应用的考验。EMC的技术服务队伍已经在众多容灾项目成功实施过程中表现出强大的技术力量,能够确保用户容灾方案的成功实施。

 

第四章 容灾通信链路设计

容灾通信链路设计是容灾系统建设非常重要的部分,也是容灾方案设计的难点、要点之一,所以单列本章节进行阐述。

4.1 通信链路设计概述

下面是针对链路设计的相关技术介绍,供参考:

基于主机或基于应用的容灾技术来建设容灾系统,则将采用标准的IP网络连接,通信链路可以是ATM、E1/E3、IP等;如果采用基于存储或虚拟存储的技术来建设容灾方案,则可以采用Fibre Channel、ESCON、DWDM、SONET等通信链路,也可以通过FCIP设备利用ATM、E1/E3、IP等通信链路。

不同的通信链路有不同的要求,如距离限制、带宽能力等;而不同的容灾技术、不同的容灾应用对通信链路的要求不同;采用同步方式或采用异步方式进行数据复制对通信链路的要求也大不相同。

对于一个容灾方案,无论采用哪种复制技术,都需要解决以下问题.

在我当前选择的容灾中心距离的情况下:

  • 我需要哪种链路? 需要多少条?成本如何?

  • 这么远的距离对应用影响是什么? 如采用同步方式,响应时间是否太长?I/O数量能否满足?

  • 如采用异步方式,我的RPO是多少?需要配多大的Cache量?

    设计的链路是否一定满足预期的目标?

    根据用户的不同要求进行科学的通信链路设计是保障用户在合理的通信成本下成功实现容灾系统建设的重要步骤之一。

     

4.2 容灾通信链路的比较

当前业界容灾方案的通讯链路基本采用有“裸光纤直连交换机方式、通过DWDM设备连接裸光纤方式、IP网络方式”等,每种方式各有利弊,以下对不同通信链路方式进行比较。

  1. 通过裸光纤直连交换机,采用FC协议

采用FC协议的通信链路只适用于基于存储复制或虚拟存储复制的容灾方案。在这类方案中,生产中心与备份中心的光纤交换机通过裸光纤直连,如下图所示:

130.png

裸光纤直连交换机的通信链路模式

 

两个中心存储系统的容灾端口通过光纤交换机和裸光纤进行连接,可以保证同步或异步数据复制的性能。为保证高可用,通常采用冗余连接链路设计。容灾链路裸光纤可以和生产主机共享SAN交换机,也可以独立SAN交换机(也需要冗余)或SAN Router。通常为避免容灾链路通信和主机访问存储的相互干扰,采用独立的SAN来连接容灾通信链路的方式采用较多。

不同容灾方案需要的通信链路数量是不同的,具体需要链路的条数(即带宽要求)需要具体分析、计算获得。

  1. 通过CWDM/DWDM设备直连裸光纤

    采用密集波分复用技术,可以加载多协议,例如FC协议、IP协议,如下图所示:

131.png

采用CWDM/DWDM设备的通信链路模式

 

如上图所示, 通过CWDM/DWDM技术,主数据中心和容灾数据中心的IP网络连接、FC连接都可以复用到共享裸光纤,比较好的解决了裸光纤的利用率和多协议复用的问题。为避免单点故障,同样可以采用冗余连接、没有单点故障的解决方案。同时,采用CWDM/DWDM方式有更多的拓扑方案,需要在具体设计时进行分析后确定。

  1. 利用IP网络,采用ATM或E1、E3线路

    采用基于主机和基于应用的容灾方案可以直接利用IP网络,在此不再多加说明。采用“基于存储或基于虚拟存储”的容灾技术将需要进行FC协议到IP协议的转换,从而将FC加载在IP网络中传输。此方案采用国际流行的IP网络协议和链路,通过FC/IP转换设备(例如Nishan),将FC通道协议打包在IP数据包内,通过IP链路传输,理论上没有距离的限制,适用于远程异步数据复制,是性价比很好的选择。连接示意图如下:

133.png

采用FC到IP设备的通信链路模式

  1. 各种种通信链路所提供的带宽(只供参考)

线路类型

理论带宽
(Mbps)

实际带宽
(去掉overhead后)(Mbps)

复制1TB所需时间

T1

1.544

1.08

85天

T3

45

31.31

71小时

100bT

100

70.00

31.7小时

OC3

155

108.50

20.4小时

OC12

622

435.40

5.1小时

千兆以太网

1000

800

2.9小时

OC48

2488

1741.60

1.2小时

OC192

9953

6967.10

19分钟

  • T1 - 1.544 megabits per second

  • T3 - 43.232 megabits per second (28 T1s)

  • OC3 - 155 megabits per second (84 T1s)

  • OC12 - 622 megabits per second (4 OC3s)

  • OC48 - 2.5 gigabits per seconds (4 OC12s)

  • OC192 - 9.6 gigabits per second (4 OC48s)

     

4.3 容灾通信链路带宽估算

存储系统的性能配置要求和通信链路带宽要求需要根据用户的数据中心的实际情况进行分析计算决定。准确地估算用户的容灾通信链路的带宽要求需要对各中心需要容灾保护的应用的I/O负载进行数据收集,采集各应用I/O特征、负载大小,尤其是写I/O的数据,利用所收集的写I/O数据并结合所采用的容灾数据复制技术以及数据复制模式(同步、异步)、应用恢复的RTO/RPO要求来计算容灾通信链路的带宽要求。

EMC公司提供标准的方法和工具为客户进行容灾数据复制通信链路的设计,通常按以下步骤来估算容灾方案的通信链路带宽需求:

  1. 当前生产中心I/O性能数据收集

    主要收集需要进行容灾保护的应用、主机存储的I/O性能数据。数据的收集从两方面获得:

    • 从主机上获得I/O性能数据(如在UNIX平台上可利用IOSTAT,SAR可得到I/O性能数据;在Windows服务器上可利用Perfmon工具获得Windows服务器的I/O性能数据);

    • 从存储平台上获得I/O性能数据,通过存储平台的性能采集工具可以获得访问存储的每个LUN上的I/O分布情况,包括I/O特征(EMC提供完整的工具收集存储平台的I/O性能信息)。

       

  2. 利用EMC设计软件过滤I/O性能数据,得到I/O写的数据

    容灾通信链路的设计与I/O写的性能要求相关,只有写I/O才复制到远程容灾中心,因此写I/O的特征及负荷决定了链路的要求。此过程将过滤无关数据(如非关键应用的I/O—不需要容灾),得到每秒写I/O次数,不同应用类型的平均I/O块大小,是否有调优的需要等。下图是通过EMC工具获得的写I/O性能数据参考样本。

135.png

I/O写性能数据参考样本(EMC工具收集)

  1. 根据采集的I/O写性能数据估算客户应用的总体峰值带宽和平均带宽

  2. 根据容灾链路类型,连接方案估算容灾通信的“延时”

    要考虑不同通信协议的额外开销以及物理链路带来的“延时”。

  3. 估计未来性能增长要求和需要预留的峰值空间

    通信链路的设计(包括所有能力规划)都需要考虑未来业务的增长,并预留增长空间。

  4. 确定同步复制模式还是异步复制模式,如选择异步复制模式,则需要确定RPO要求(最多允许丢失多少数据)--根据RPO要求和业务的I/O量可以设计链路需求;也可以根据现有链路情况,结合业务的I/O量分析可以实现的RPO能力以及在源数据端需要为异步复制额外增加的Cache开销。

  5. 利用EMC的专门工具进行设计

    根据不同复制模式,将收集的I/O性能等参数输入到EMC工具中,同时考虑链路容余的要求,将可以为客户计算出所需要的带宽要求。

    EMC公司未来将采用以上方法为用户进行容灾链路设计,该方法已经在很多EMC为重要提供的容灾方案中得到应用并获得成功。利用EMC科学的链路设计方法及独到的设计工具,EMC将能够为用户提出合理的链路规划方案,为成功实施容灾方案奠定基础。

     

4.4 EMC容灾数据复制方案设计工具简介

EMC公司根据已经为广大高端用户提供容灾建设的经验,开发设计了专门的工具—ET Tools,用来做容灾数据复制方案的设计。该工具利用用户当前的业务I/O情况和用户的服务水平要求可以分析设计复制方案中的关键要求:通信链路带宽和复制平台(如主机或存储)的处理能力。也可以用来评估用户在受限的通信条件下所能达到的RPO要求。该工具在未来用作用户容灾技术平台服务水平的评估工具,可以定期进行I/O性能统计、分析性评估容灾数据复制平台是否满足不断变化了的业务发展要求。