灾难恢复架构设计与实践指南
1. 灾难容忍架构设计基础
灾难容忍架构旨在保护整个数据中心、建筑物或物理站点免受破坏,其设计方向正从集中式数据中心向分布式数据处理设施转变,核心目标是防止整个数据中心的数据丢失。以下是设计灾难容忍架构的一些基本规则:
-地理多样性保护数据和节点:集群成员和数据副本需保持足够距离,以避免区域灾难破坏所有集群节点和数据。根据集群成员间的距离,可分为校园、大都市和大陆集群。
-离线数据复制:备份磁带和介质应存放在另一个数据中心。备份磁带需每天(或至少每周)运往远程站点。远程数据中心需有足够处于冷备用模式的服务器和磁盘,以便在主数据中心故障时,能尽快在服务器上配置应用程序并从备份磁带恢复数据。该方法的优点是磁带数据始终一致,过程简单、成本低且易于记录和执行;缺点是数据不如主站点丢失的数据及时,恢复时间可能从一天到一周不等,对于关键业务应用不太适用。
-在线数据复制:将数据从一组磁盘复制到位于单独站点并连接到单独主机的另一组完整且独立的磁盘。复制与镜像不同,镜像将磁盘集视为单个逻辑卷,所有数据副本可从同一主机访问;而复制将磁盘集视为相互独立的。复制的缺点是每个需要复制数据的站点都需要额外的磁盘和主机成本,但复制的数据能提供两个一致且同样可用的数据集,可快速从任何一个站点的灾难或故障中恢复。
-冗余服务器和数据的备用电源:灾难容忍集群中的服务器若位于不同数据中心,应从不同电源或电网获取电力。在数据中心内,不同节点的UPS应连接到不同电路,若可能,不同电路的电源应来自电网中的不同变电站,以防止破坏、