虽然服务中断不可避免,但为了评估发生的情况、及时告知利益相关方并采取措施以最大限度地减少对业务的影响,透明且及时的沟通至关重要。
运行可靠的云应用是Google Cloud 和应用开发者共同承担的责任。当服务中断时,Google Cloud 旨在快速传达突发事件并提供影响评估。您必须评估如何接收通知、针对新出现的问题采取行动,以及管理对应用的影响。
Personalized Service Health 可以帮助您完成此流程。您可以通过多种方式与其集成,以了解新出现的问题、评估对应用的影响,以及接收 Google Cloud的更新。本文档简要介绍了如何从Google Cloud接收服务中断信号,包括有关与这些信号集成的建议。
确定集成位置
Google Cloud 提供以下产品来帮助您了解 Google Cloud 产品的健康状况:
- Google Cloud 服务运行状况 - 提供平台级概览,涵盖所有位置的所有Google Cloud 产品。它涵盖范围和严重程度更大的事故,适用于以下产品:
- Personalized Service Health - 提供对您项目或贵组织中所用产品的个性化视图 Google Cloud。它涵盖的突发事件范围比 Google Cloud Service Health 上发布的突发事件更广。Personalized Service Health 适用于以下平台:
- 控制台信息中心,可通过 Google Cloud 控制台访问。
- 提醒
- Service Health API
我们建议您与 Personalized Service Health 集成,以便获得最全面的集成选项。
集成点 | 使用场景 | 优势 | 依赖项 |
管理中心信息中心(Personalized Service Health) | 查看正在进行的干扰 | 可根据您的项目进行个性化设置,默认可用 | Identity and Access Management (IAM) Google Cloud 控制台 |
提醒(Personalized Service Health) | 主动通知 | 为您的项目量身定制,方便又主动 | IAM Cloud Logging Cloud Monitoring |
API(个性化服务健康状况) | 与其他系统或工具集成 | 针对您的项目或组织量身定制 | IAM |
选择与 Personalized Service Health 交互的方法
您必须在预期的运营、监控和突发事件响应模型的背景下考虑 Personalized Service Health。通过评估团队在突发事件期间和突发事件发生前如何使用信号,您可以决定如何使用 Personalized Service Health。
下表显示了您可以如何与个性化服务运行状况进行交互,具体取决于其设置方式。
贵组织中的示例场景 | 与 Personalized Service Health 集成 | 您可能要集成的工具示例 |
负责为多个应用提供值班服务的开发者 | 个别项目提醒
控制台信息中心 |
Google Cloud Observability、PagerDuty |
集中管理整个组织的突发事件响应 | 使用 OrganizationEvents API (v1、v1beta) 将 API 与现有系统集成 | PagerDuty、自定义信息中心 |
用于管理云资源和操作的内部平台 | Service Health API 单个项目提醒 Service Health API 与内部开发者平台的集成 |
后台,Terraform |
许多以编程方式配置和管理的项目(例如:1,000 多个) | Service Health API 基于 API 的自动化通知 |
Backstage、Terraform、PagerDuty |
在突发事件期间使用 Personalized Service Health
集成 Personalized Service Health 并开始接收提醒通知后,Personalized Service Health 会提供有关 Google Cloud服务中断情况的信息,帮助您管理服务中断的影响。
检测和确定突发事件的范围
您在此阶段可以提出的问题包括:
- 这真的是个问题吗?
- 您能否验证影响?
- 症状有哪些?
- 哪些用户、产品或业务部分受到了影响?支持哪些地理位置?
Personalized Service Health 可帮助您了解问题是出在您的项目还是 Google 上,以便您采取适当的突发事件响应措施。借助此页面,您可以查找和查看事件信息,以便监控影响您的项目的事件、受影响的产品和地理位置。
您可以采取以下措施:
- 查看提醒(如果您已设置)。
- 是什么原因导致系统发出此提醒?
- 这些提醒与您所有其他可能因商品而异的提醒有何不同?
- 访问项目或组织的服务运行状况信息中心。您可以一目了然地查看事件、受影响的产品和地理位置,并回答以下问题:
- 您的哪些项目受到了影响?
- 您的项目依赖的哪些产品受到了影响?
- 该事件是否会影响这些位置中的特定资源?
- 查看事件,了解其范围、影响以及与您的项目的相关性。
- 找出与您遇到的问题相关的事件。
- 查找验证步骤、缓解措施(如果有)和事件预计解决时间。
Personalized Service Health 可帮助您查看影响您项目或组织的突发事件的当前状态和影响,以便您高效地管理和应对这些突发事件。例如,您可以准确识别优先级最高的突发事件,从而有效确定优先级。
缓解、解决或上报突发事件
您在此阶段可以提出的问题包括:
- 您如何解决此问题?
- 您能直接解决吗?
- 您是应该立即启动故障切换,还是等待更长时间?
- 您应该通知谁来解决此问题?
Personalized Service Health 可帮助您了解相应服务中断对您的项目和资源的影响、了解可用的权宜解决方法,以及接收有关预计解决时间的最新动态。
监控突发事件解决进度
服务运行状况信息中心中的事件概览会标识缓解措施所需的关键信息(例如症状和权宜解决方法),并显示状态变化的时间。通过这些详细信息,您可以:
- 随着形势的发展,监控潜在影响的最新摘要。
- 及时了解最新动态以及下次沟通或更新的时间。
- 查看问题的发布时间。
- 查看何时找到解决方法。
- 查看状态何时更改为已解决。
在监控进度时,您可以执行以下操作:
- 查看是否有临时解决方法。
- 实施适合您的项目或组织的突发事件响应措施。
- 请继续监控该事件,直到其得到缓解或解决。
何时与支持团队联系
Google 知道 Service Health 信息中心中显示的事件。如需了解 Google 对某个事件采取了哪些措施,请选择该事件以查看详细信息。
如果某个问题似乎未在信息中心的任何事件中体现,请与支持团队联系。
将 Personalized Service Health 与其他突发事件信息来源搭配使用
无论贵公司采用何种设置,在评估突发事件的影响时,请将 Personalized Service Health 用作额外的信号。确保您可以查看来自多个来源的事故信息,以便根据数据和证据确定后续步骤。
使用多个突发事件信息来源的原因包括:
- 某 Google Cloud 产品在某个位置可能发生了突发事件,但您的项目可能不会受到影响,因为它们位于其他位置。
- 如果您的分发系统在不同的可用区中有两个完整的副本,并且一个可用区中的关键 Google Cloud 产品发生故障,个性化服务运行状况将通知您该故障。不过,您的用户可能实际上并未受到影响,您可能无需立即采取行动。
- 如果您的项目依赖于某个位置的多个 Google Cloud 产品,Personalized Service Health 将无法得知:
- 如果您的项目要求所有产品都处于正常运行状态。
- 如果某个产品发生故障,您的项目是否会继续运行。
- 如果一个或多个产品未通过审核,整个应用都会受到影响。
- Personalized Service Health 本身也可能会出现降级或失败。如需进行验证,您可以查看其状态。
您需要根据自己的设置,对 Personalized Service Health 提供的信号进行适当的解读。