监控 Service Health 突发事件

如需随时了解 Google Cloud 产品的运行状况,请查看以下内容:

  1. Personalized Service Health - 提供对您项目或组织中所用产品和区域的个性化视图 Google Cloud。查看 Personalized Service Health,了解可能影响您的项目和资源的当前和过往Google Cloud 突发事件。

    您可以通过以下方式访问 Personalized Service Health:

    特定产品出现服务中断时,请先查看个性化服务状态,因为个性化服务状态始终会向Google Cloud 客户提供最多的信息。详细了解个性化服务健康度以及如何将其集成到您的突发事件管理工作流中。

  2. Google Cloud 服务健康检查 - 提供以下信息:

    • 平台级视图,可查看 Google Cloud 所有产品 Google Cloud 在各个地区的健康状况。
    • Google Cloud 影响广泛的突发事件。

    Google Cloud 所有人都可以通过以下方式查看服务运行状况:

您还可以在 Google Cloud 控制台“支持”页面中查看是否存在正在进行的中断。Google Cloud 控制台“支持”页面上显示的已知问题还包括影响范围较小且受影响用户较少的突发事件。在“已知问题”页面中,您可以根据发布的突发事件创建支持请求,以便定期获取最新动态并与支持人员沟通。支持请求适用于不符合突发事件要求或需要一对一人工接触的问题。如果您享有高级支持服务、增强型支持服务或标准支持服务,则可以通过在 Google Cloud 控制台中创建支持请求来报告突发事件。否则,您可以使用此表单

本文档重点介绍 Google Cloud 服务运行状况。

什么是 Google Cloud 服务健康状况

Google Cloud 服务运行状况页面会提供符合特定条件的持续性广泛服务中断的相关信息,以及按地区和全球语言区域整理的产品状态 Google Cloud。此类信息可能包括产品中断、停机或有关临时性问题的信息性消息。

Google Cloud 在极少数情况下,Personalized Service Health 本身不可用或受到中断影响,或者受影响的产品尚未加入 Personalized Service Health,此时可使用 Service Health。

突发事件何时会显示在 Google Cloud Service Health

对于大多数 Google Cloud 突发事件,受影响的客户会直接通过 Google Cloud 控制台中的 Personalized Service Health 接收突发事件通知。如果这些突发事件符合提醒条件,还会触发您配置的 Service Health 提醒

符合以下任一条件的突发事件都会显示在 Google Cloud 服务运行状况中:

重大事故

如果某个事故符合以下所有条件,Google Cloud 会将其定义为重大事故:

  • 影响范围广 - 突发事件具有全球影响,或正在影响一个或多个区域内大量客户项目。
  • 严重程度 - 一项或多项产品不可用或严重降级。

在极少数情况下,如果发生重大突发事件,我们会紧急采取行动来解决所有问题。

在发生重大突发事件期间,我们会通过 Google Cloud Service Health 页面告知问题状态。重大突发事件会在状态信息中心标记为 服务中断。问题解决后,我们会发布公开的突发事件报告,其中包含导致突发事件的详细因素,以及我们计划采取的措施来防止此类突发事件再次发生。

对于范围较小的事故,我们可能会向客户提供非公开报告。

突发事件的生命周期

检测到产品降级后, Google Cloud 支持团队和产品工程团队将协同解决突发事件并向您提供最新动态。

下图显示了产品工程团队和支持团队的职责:

生命周期图

您可以在以下部分中详细了解这些责任。

检测

Google Cloud 使用内部监控和黑盒监控来检测突发事件。如需了解详情,请参阅《站点可靠性工程》一书的第 6 章

初始响应

检测到突发事件时, Google Cloud Customer Care 团队会负责与客户沟通。突发事件的初始通知通常很短,一般只提及有问题的产品。这是因为我们优先考虑快速通知,而不是细节。具体细节可以在后续更新中提供。

为了向您提供尽可能多的信息,并且不让您忙于应付对您没有影响的问题,应根据问题的范围和严重程度使用不同的沟通渠道:

沟通图

调查

产品工程团队负责调查突发事件的根本原因。突发事件管理通常由网站可靠性工程师完成,但可能由软件工程师或其他人来完成,这取决于具体情况和产品。如需了解详情,请参阅《网站可靠性工程》一书的第 12 章

缓解措施和解决方法

仅当 Google 确信所做更改将永远结束影响时,才会认为问题“已解决”。例如,这种解决操作可能会回滚触发过突发事件的更改。

当突发事件正在进行时,Customer Care 和产品团队会尝试“缓解”此问题。缓解是指可以减少问题的影响或范围,例如通过临时为过载的产品提供其他资源。

如果没有找到缓解措施,则 Customer Care 团队会尽可能找到解决方法并解决。解决方法是您在解决突发事件发生后的潜在需求时可以采取的步骤。解决方法可能对 API 调用使用不同的设置,以避开出现问题的代码路径。

Follow up

当突发事件正在进行时,Customer Care 团队会定期提供更新。更新通常会提供:

  • 有关突发事件的更多信息,例如错误消息、受影响的地区或区域,受影响的功能或影响百分比。

  • 缓解问题的进展,包括任何解决方法。

  • 根据突发事件量身定制的沟通时间表。

  • 状态变化,例如突发事件已解决。

事后分析

所有突发事件都会在内部执行事后分析,以便全面了解事件,并确定 Google 可作出的可靠性改进,然后跟踪和实施这些改进。如需详细了解 Google 的事后分析,请参阅《网站可靠性工程》一书的第 15 章

突发事件报告

如果突发事件具有非常广泛且严重的影响,Google 会提供突发事件报告,其中概述了事件的症状、影响、根本原因、补救措施以及未来的预防。对于事后分析,我们特别注意我们所采取的了解问题和提高可靠性的步骤。Google 在撰写和发布事后分析秉承透明的原则,这体现了我们致力于为客户构建稳定产品的承诺。

突发事件数据模型

某个事故会影响一个或多个产品在一个或多个地区的使用。突发事件具有开始时间和结束时间,以及总体严重程度。突发事件的更新会描述突发事件随时间推移的变化情况,包括其状态和当时受影响的位置。突发事件信息通过 JSON 架构提供。

JSON 架构中的字段标记为稳定不稳定。通常,ID 字段被视为稳定,而显示名称等字段被视为不稳定,可能会在没有警告的情况下发生更改。仅在与外部系统或楼宇自动化系统集成时使用稳定字段。请参阅我可以构建集成以程序化方式使用Google Cloud Service Health 中显示的数据吗?

常见问题解答

在哪里可以找到以前产品故障和中断的相关信息?

Google Cloud 服务运行状况最多可保留 5 年内的Google Cloud 产品中断和服务中断记录。概览标签页会按语言区域显示商品的当前状态。如需查看过去一年内产品中断和服务中断的相关信息,请点击查看历史记录。如需查看某产品过去 5 年内的服务中断历史记录,请点击该产品的查看更多

如何查看 Google Cloud 商品的地区性状态信息?

Google Cloud “服务运行状况”摘要卡会显示所有产品的状态,并按区域和全球语言区域进行分组。 Google Cloud 如需查看多区域的状态,请选择特定区域的标签页。

我可以构建集成来以编程方式使用 Google Google Cloud 服务运行状况中显示的数据吗?

可以,您可以通过以下方式使用“服务运行状况”页面上显示的数据: Google Cloud

  • 通过 RSS Feed
  • 通过 JSON 历史记录文件

    您可以点击此处下载 JSON 文件的架构。

RSS Feed 和 JSON 历史记录文件提供突发事件状态信息,可通过集成使用。

使用 JSON 历史记录文件中标记为稳定的字段,而不是标记为不稳定的字段。示例:如果您尝试以编程方式识别影响特定产品集的突发事件,请使用产品 ID (affected_products>id),而不是其显示名称。

商品 ID 与商品名称

过去, Google Cloud Service Health 未提供用于查找给定产品 ID 的机制。自 2023 年初起,Google Cloud “服务健康度”推出了产品目录,为所有产品提供了此映射。商品 ID 提供了一个稳定的字段,可用作键值,同时允许更改商品的显示名称。在程序化地识别影响一组产品的突发事件时,请优先引用产品 ID。

如果我在引入地区性状态报告和将名称更改为 Google Cloud 服务运行状况之前,基于 Google Cloud 服务运行状况预构建了集成,该怎么办?

在 RSS Feed 和 JSON 文件中,区域性状态信息是对在引入区域性状态报告和更改Google Cloud Service Health 名称之前已发布的信息的补充。因此,您现有的集成应该会继续正常运行。不过,如果您想通过集成使用地区性状态信息,则需要对其进行修改。

下面详细介绍了如何在 RSS Feed 和 JSON 文件中呈现地区信息:

  • RSS Feed

    地区性状态信息是 Feed 信息的新补充,在引入地区性状态之前,我们提供的是 Feed 信息。系统会将报告为受影响的所有位置附加到 RSS 消息中。

  • JSON 文件

    在区域性状态更新之前, Google Cloud 发布了一系列突发事件,其中每个突发事件都包含受影响产品的列表以及每个产品的状态更新列表(如果有)。这些状态更新包含一个非结构化字符串字段,该字段可能包含或不包含位置信息。

    现在, Google Cloud 会像之前一样发布一系列事件。不过,对于每项突发事件,每项状态更新都包含以下新字段:

    • updates.affected_locations:包含发布更新时受影响地点的结构化列表。每个更新记录和 most_recent_update 记录都包含此字段。
    • currently_affected_locations:包含有关受相应事故直接影响的地理位置的最新信息。与 updates.affected_locations 不同,此列表在问题解决后(即 end 设置为非空值时)会变为空。
    • previously_affected_locations:包含之前在事故中受到影响但目前未受影响的位置列表。随着问题的进展,某些位置可能会有服务中断解决方案。这些位置仍会存在于 previously_affected_locations field 中。在相应事故得到解决后(即 end 设为非空值时),此字段会包含在此事故期间受影响的所有位置的列表。

如果我遇到了问题,但该问题未在 Google Cloud 服务运行状况中列出,该怎么办?

Google Cloud Service Health 会提供影响 Google Cloud 产品和服务的任何重大突发事件的当前和历史状态信息。如果您遇到的问题未在Google Cloud 服务运行状况中列出,则可能只有您的项目或实例遇到了这个问题,或者这个问题影响的客户数量很有限。范围较小的突发事件可能会在客户服务门户上列出。如果您遇到了未在 Google Cloud 服务运行状况中列出的问题,请与客户服务团队联系。

如果您已在使用 Personalized Service Health,请查看该工具中是否列出了此问题,以确定您的项目或实例是否受到影响。

如果您使用的是 Google Cloud 控制台,可以点击右上角的发送反馈工具来报告问题。

谁负责更新 Google Cloud 服务健康?

全球 Customer Care 团队使用许多不同类型的信号监控产品状态,如果发生广泛性问题,将更新 Google Cloud 服务健康度。如果需要,他们将在事件解决后发布详细的突发事件分析报告。