灾难恢复 (DR) 是组织在灾难事件发生后恢复对 IT 基础设施的访问和功能的能力,无论灾难事件是自然发生的还是由人为操作(或错误)引起的。灾难恢复被认为是业务连续性的一个部分,明确侧重于确保支持关键业务功能的 IT 系统在中断事件发生后尽快运行。
如今,灾难恢复规划对于任何企业都至关重要,尤其是部分或完全在云端运营的企业。中断服务并导致数据丢失的任何灾难都可能会在毫无警告的情况下发生 - 您的网络可能会中断、一个严重错误可能被发布,或者您的企业可能需要经受自然灾害的影响。采用可靠且经过充分测试的灾难恢复策略的组织,可以最大程度地降低中断的影响,实现更快的恢复速度,并在出现问题时快速恢复核心运营。
详细了解 Google Cloud 备份和灾难恢复功能和产品,以及如何使用这些功能和产品为您的企业构建合适的灾难恢复解决方案。
IT 灾难恢复是一套政策、工具与流程的组合,用于在天灾或人祸发生后恢复或继续关键 IT 基础设施、软件和系统的运作。
灾难恢复计划的首要重点是云端。云端被认为是实现业务连续性和灾难恢复的最佳解决方案。使用云端,就无需运行单独的灾难恢复数据中心(或恢复站点)。
什么是灾难恢复站点?
这是第二个物理数据中心,构建和维护的成本都很高,但在使用云解决方案时无需恢复站点。
虽然这些事件可能是飓风等自然灾害,但也可能是由严重的系统故障、故意攻击,甚至人为错误导致的。
灾难类型可能包括:
技术在业务的方方面面发挥着越来越重要的作用,应用和服务能够提升公司敏捷性、可用性和互联程度。这种趋势促使组织广泛采用云计算,以推动发展、创新和卓越的客户体验。
然而,迁移到公有云、私有云、混合云或多云环境的举措以及远程员工的兴起,增加了基础设施的复杂性和潜在风险。云系统的灾难恢复对于整体业务连续性策略至关重要。如果企业严重依赖基于云的资源、应用、文档和数据存储来保持业务平稳运行,那么系统故障或计划外停机会造成严重后果。
此外,数据隐私权法律和标准规定,大多数组织现在都需要制定灾难恢复策略。不遵循灾难恢复计划可能会导致违反合规性和高昂的监管罚款。
无论行业或规模如何,每个企业都需要能够从任何中断日常运营的事件中快速恢复。如果没有灾难恢复计划,公司可能会面临数据丢失、工作效率下降、费用超出预算和声誉受损等后果,从而可能导致客户和收入流失。
有效的灾难恢复计划解决了三个不同的恢复元素:
通常,灾难恢复涉及将关键数据和工作负载安全地复制和备份到次要位置或多个位置,即灾难恢复站点。灾难恢复站点可用于从最近备份或以前的时间点恢复数据。如果主要位置及其系统因不可预见的事件发生故障,除非主要位置恢复,否则组织也可以改用灾难恢复站点。
以下是灾难恢复中使用的一些最常用技术和方法:
业务连续性更强
当您的业务离线时,每一秒都至关重要,这会影响生产力、客户体验和公司的声誉。灾难恢复可以确保关键业务运营能够在最少中断或没有中断的情况下恢复,从而帮助保护关键业务运营。
增强型安全
灾难恢复计划使用数据备份和其他程序,以加强安全状况并限制攻击和其他安全风险的影响。例如,云端灾难恢复解决方案提供内置安全功能,如高级加密、身份和访问权限管理以及组织政策。
更快恢复
灾难恢复解决方案可让您更轻松地恢复数据和工作负载,让您在灾难发生后迅速恢复业务运营。灾难恢复计划利用数据复制,并且通常依赖于自动恢复来最大限度地减少停机时间和数据丢失。
降低恢复成本
灾难事件可能造成严重的经济影响,从业务损失和生产力损失到数据隐私处罚,再到赎金,不一而足。借助灾难恢复,您可以避免或至少减少部分此类费用。Cloud 灾难恢复流程还可以降低运行和维护次要位置的运营费用。
高可用性
许多基于云的服务都提供可支持灾难恢复策略的高可用性 (HA) 功能。高可用性功能有助于确保实现商定的性能水平,并提供内置冗余和自动故障切换功能,从而保护数据免受设备故障和其他可能影响数据可用性的小规模事件的影响。
提升合规性
灾难恢复计划考虑了潜在风险,并定义了一套适用于灾难发生时的数据和工作负载的特定流程和保护措施,以满足合规性要求。这通常包括强大的数据备份做法和灾难恢复网站,以及定期测试灾难恢复计划以确保组织做好准备。
全面的灾难恢复策略应包括详细的应急响应要求、备份操作和恢复过程。灾难恢复策略和计划通常有助于形成更广泛的业务连续性策略,其中包括应急计划,以减轻 IT 基础设施和系统以外的影响,使所有业务领域能够尽快恢复正常运营。
在创建灾难恢复策略时,您应仔细考虑以下关键指标:
这些指标在针对中等至最坏情况的潜在灾难进行风险评估和业务影响分析 (BIA) 时尤为有用。风险评估和 BIA 可评估业务的所有职能领域以及任何风险的后果,这有助于确定 DR 目标以及在事件发生前后实现这些目标所需的行动。
创建恢复策略时,考虑 RTO 和 RPO 值并选择一个灾难恢复模式,以便能够实现这些值和总体目标很有用。通常,值越小(或应用中断后需要恢复的速度越快),运行应用的费用就越高。
当满足本地对容量、安全性、网络基础设施、带宽、支持和设施的要求时,云灾难恢复可以大大降低 RTO 和 RPO 的成本。Google Cloud 上高度托管式服务可帮助您避免大部分(如果不是全部)复杂因素,并大幅降低许多业务费用。
如需有关使用 Google Cloud 处理灾难恢复的更多指导,请阅读我们的灾难恢复规划指南,或与您的客户经理联系以获取有关创建灾难恢复计划的帮助。
灾难恢复策略可以从多个重要方面帮助保护企业的运营。以下是一些常见使用场景。
确保业务弹性
无论发生什么情况,出色的灾难恢复计划都可以确保企业能够快速恢复全面运营,而不会损失数据或交易。
维持竞争力
一旦企业的服务中断,客户很少会保持忠诚。 他们会转向竞争对手获取所需的商品或服务。灾难恢复计划可以避免这种情况的发生。
避免监管风险
在数据存储位置以及数据保护力度方面,许多行业都有相应的法规要求。如果不满足这些要求,将招致巨额罚款。
避免数据丢失
企业的系统停机时间越长,丢失数据的风险就越大。强大的灾难恢复计划可最大程度地降低这种风险。
让客户满意
无论什么时候,履行客户服务等级协议 (SLA) 都是重中之重。执行得当的灾难恢复计划可以帮助企业克服挑战,顺利履行 SLA。
维护声誉
企业如果在服务中断后无法顺利恢复运营,其品牌形象可能会遭受损害。有鉴于此,制定可靠的灾难恢复计划至关重要。