业务连续性规划和灾难恢复

本页面适用于 ApigeeApigee Hybrid

查看 Apigee Edge 文档。

Apigee 是一个多租户、自助式、基于云的平台,在全球多个区域的多个数据中心以完全冗余(实时/实时)配置运行。Apigee 使用 Google Cloud 作为其基于云的平台。作为我们在 Google Cloud 上构建的服务的一部分,我们在每个区域内使用多个数据中心,并为跨这些多个数据中心的客户提供实时流量服务。我们没有“实时”数据中心和“备用”(或“辅助”或“故障切换”)数据中心。我们拥有两个(或更多)数据中心,持续同时为全球每个地区的客户流量提供服务。

BCP/DR 方案

Apigee 业务连续性规划和灾难恢复 (BCP/DR) 是一个平台范围的计划,不包含针对单个客户的详细任务。相反,该平台被配置为无论中断和中断如何处理客户数据请求。即使整个数据中心离线,数据也会继续流动。如果整个区域都离线,则单个区域的客户可能会遇到 API 处理服务中断。对于需要更多“区域内”冗余服务的客户,Apigee 可在全球冗余级别的冗余数据中心使用,其中可以为多个区域或国家/地区的流量提供服务,这样如果整个区域都离线,数据仍会流动。

由于数据处理和访问可能存在地理限制,单一区域的客户服务不会自动转移到另一个区域。Apigee 服务由客户所在区域中的客户托管。由于可能有关于数据地理位置的特定法规或客户对其用户的承诺,因此服务不会自动转移到备用区域,否则可能会损害 Google 对其客户的承诺或 Google 客户对其客户的承诺。

Google 不会与任何个人客户共享完整的 BCP/DR 方案,因为它包含内部敏感信息和对我们客户的引用。我们的隐私政策防止与可能暴露其他客户名称的个人客户共享平台 BCP/DR 方案。我们为每位客户提供相同级别的隐私。

BCP/DR 管理

Google 信息安全团队负责监督业务弹性计划,而轮值的事件指挥官负责管理和解决所有事件。事件指挥官有随时待命的操作和工程人员以及可能需要采取的所有行动的策略方案。

BCP/DR 测试

与我们的年度 BCP/DR 测试相比,Google 执行支持平台 BCP/DR 测试的操作流程更频繁。每个月,我们都会在实时/实时环境中执行负载波动,同时对运行服务的系统进行更新。此过程涉及关闭整个数据中心的系统,而负载由对等数据中心处理。在此过程中,执行任何更新后,第一个数据中心将恢复运行,并再次实时/实时运行服务以验证没有引入任何问题。然后对等数据中心关闭以进行相同的更新,然后再次联机。Google 使用工具和技术来排出流量并将一小部分流量发送到最近更新的服务,以在返回全负载处理之前检查任何问题或错误。

这种一致的运维流程使服务的运维任务更加频繁,从而超越了行业标准每年两年的弹性恢复能力测试。

除了上述运维流程外,Google 还每年至少进行一次 BCP/DR 练习,工程和运营团队成员会在其中测试真实的灾难场景。除了服务本身之外,这还为我们的人员提供了针对整个企业的更大 BCP/DR 方案的额外培训和经验。

Google 完成的 BCP/DR 测试不使用“故障切换练习”或“辅助位置”,因为所有这些都内置在运行系统中。

Google 确实会维护策略方案以供所有运维和工程团队使用。这些策略方案每年每年都会审核和更新,并用于我们的所有 BCP/DR 测试和训练练习中。

客户可以获得年度 BCP/DR 测试报告。我们还与第三方审计师分享我们的运维任务结果和年度 DR 演练测试报告,这些构成了审计师审查我们是否符合 PCI、HIPAA、ISO、合同和其他要求的基础。

客户 BCP/DR 测试

我们鼓励客户将自己的 DR 计划纳入 Apigee 服务。客户可以并且应该考虑 Apigee 如何根据客户需要重定向流量,以便即使在客户数据中心中断或其他灾难事件期间也能维持最终用户服务。但是,这种级别的测试不在 Apigee DR 计划的范围内。我们鼓励客户在他们自己的应用上执行 BCP/DR 测试,并在测试中包含 Apigee。

RTO/RPO

Apigee 不为客户或在与 BCP/DR 活动相关的合同中提供恢复点和恢复时间目标 (RPO/RTO)。SLA 是 RTO/RPO 数据点的云等效项。由于 Apigee 是一种基于云的冗余服务,管理和运行时服务均采用冗余实时服务进行架构,因此 RTO 和 RPO 都可以被视为“实时”。单一区域客户在同一区域内的不同数据中心获得最少的冗余服务。需要更高级别冗余的客户可以选择多区域服务。

疫情方案

Google 将疫情方案作为整体 BCP/DR 方案和流程的一部分。对于支持等业务运维,Google 在多个办事处和远程地点设有 24x7 的全球支持团队。如果全球某个地区的流行病影响了我们的一个支持地点,其他办公室的人员将收到警报并负责通常由受影响办公室处理的轮班。对于销售等其他业务服务,劳动力分布在全球范围内。如果需要,Google 的所有团队都可以远程工作。所用的工具基于云技术,它们本身适合用于应对疫情。

更新

Google 每年至少会审核并更新一次我们的 BCP/DR 方案。我们使用从突发事件、产品变更、行业标准、风险分析活动和 BCP/DB 测试中收集的信息来更新方案。

业务影响分析和风险评估

Google 每年都会进行一次业务影响分析和一次风险评估。BIA 和 RA 的结果在问题跟踪系统中按优先顺序排列并记录在案。