突发事件和 Google Cloud 服务运行状况信息中心

Google Cloud Service Health (CSH) 信息中心提供按区域和全球语言区域整理的 Google Cloud 产品的状态信息。

重大事件

Google Cloud 将满足以下所有条件的突发事件定义为重大突发事件:

  • 高范围 - 突发事件具有全球性影响,或者影响一个或多个区域中很大一部分客户项目。
  • 高 - 一个或多个商品无法购买或严重降级。

在极少数情况下,如果发生重大事件,我们会及早采取措施,以解决任何问题。

在重大突发事件期间,问题状态通过 Google Cloud Service Health 信息中心传达。在状态信息中心内,重大突发事件标记为 服务中断。问题解决后,我们会发布公共突发事件报告,其中详细说明了造成相应突发事件的因素,以及我们计划采取哪些措施来防止此类突发事件再次发生。

对于范围较小的突发事件,可能会向客户提供非公开报告。

突发事件的生命周期

检测到产品性能降级时,Google Cloud 支持团队和产品工程团队将协同解决突发事件并为您提供更新。

下图显示了产品工程团队和支持团队的职责:

生命周期图

您可以在以下部分详细了解各项责任。

检测

Google Cloud 使用内部监控和黑盒监控来检测突发事件。如需了解详情,请参阅《站点可靠性工程》一书的第 6 章

如果您享有高级支持服务、增强型支持服务或标准支持服务,则可以通过在 Google Cloud 控制台中创建支持请求来报告突发事件。否则,您可以使用此表单

初步回应

检测到突发事件时,Google Cloud Customer Care 团队会管理客户沟通。突发事件的初始通知通常很短,一般只提及有问题的产品。这是因为我们优先考虑快速通知,而不是细节。具体细节可以在后续更新中提供。

为了向您提供尽可能多的信息,并且不让您忙于应付对您没有影响的问题,应根据问题的范围和严重程度使用不同的沟通渠道:

沟通图

我们建议在遇到服务中断时首先检查 Personalized Service Health。通过 Personalized Service Health,您可以查看与项目相关的中断,具体取决于您的项目和使用的 Google Cloud 产品。详细了解 Personalized Service Health 以及如何将其集成到您的突发事件管理工作流。

Google Cloud Service Health 信息中心会显示重大突发事件,当发生 Personalized Service Health 本身不可用或受到中断影响的极少数情况下,可以使用该信息中心。

如果您尚未启用 Personalized Service Health 或与 Personalized Service Health 集成,我们建议在 Google Cloud 控制台支持页面客户服务门户中检查是否存在主动中断。Google Cloud 控制台支持页面和 Cloud Customer Care 门户中显示的已知问题还包括影响范围有限的次要突发事件。

支持请求适用于不符合突发事件要求或需要一对一人工接触的问题。在已知问题页面,您可以根据发布的突发事件创建案例,以便定期获取更新并与支持人员沟通。

调查

产品工程团队负责调查突发事件的根本原因。突发事件管理通常由网站可靠性工程师完成,但可能由软件工程师或其他人来完成,这取决于具体情况和产品。如需了解详情,请参阅《网站可靠性工程》一书的第 12 章

缓解/解决

仅当 Google 确信所做更改将永远结束影响时,才会认为问题“已解决”。例如,这种解决操作可能会回滚触发过突发事件的更改。

当突发事件正在进行时,Customer Care 和产品团队会尝试“缓解”此问题。缓解是指可以减少问题的影响或范围,例如通过暂时为过载的产品提供额外资源。

如果没有找到缓解措施,则 Customer Care 团队会尽可能找到解决方法并解决。解决方法是您在解决突发事件发生后的潜在需求时可以采取的步骤。解决方法可能对 API 调用使用不同的设置,以避开出现问题的代码路径。

后续跟进

当突发事件正在进行时,Customer Care 团队会定期提供更新。更新通常会提供:

  • 有关突发事件的更多信息,例如错误消息、受影响的地区或区域,受影响的功能或影响百分比。

  • 缓解问题的进展,包括任何解决方法。

  • 根据突发事件量身定制的沟通时间表。

  • 状态变化,例如突发事件已解决。

事后分析

所有突发事件都会在内部执行事后分析,以便全面了解事件,并确定 Google 可作出的可靠性改进,然后跟踪和实施这些改进。如需详细了解 Google 的事后分析,请参阅《网站可靠性工程》一书的第 15 章

突发事件报告

如果突发事件具有非常广泛且严重的影响,Google 会提供突发事件报告,其中概述了事件的症状、影响、根本原因、补救措施以及未来的预防。对于事后分析,我们特别注意我们所采取的了解问题和提高可靠性的步骤。Google 撰写和发布事后分析的目的是实现公开透明化,并表明我们致力于为客户构建稳定产品的承诺。

突发事件数据模型

突发事件会在一个或多个位置影响一个或多个产品。突发事件具有开始时间、结束时间以及整体严重程度。突发事件具有更新信息,描述突发事件随时间的变化情况,包括其状态以及随后受影响的位置。突发事件信息通过 JSON 架构提供。

JSON 架构具有标记为稳定不稳定的字段。一般而言,ID 字段被视为“稳定”字段,而显示名称等字段则被视为“不稳定”字段,如有更改,恕不另行通知。仅在与外部系统集成或构建自动化时,才使用稳定版字段。请参阅我能否构建集成以程序化地使用 Google Cloud Service Health 信息中心显示的数据?

常见问题解答

Google CSH 信息中心提供了哪些类型的状态信息?

Google CSH 信息中心提供有关 Google Cloud 产品的状态信息。状态可能包括产品中断、服务中断或有关临时性问题的信息性消息。

突发事件何时会发布到 Google CSH 信息中心?

CSH 信息中心内会显示符合以下任一条件的突发事件:

在哪里可以找到以前的产品服务中断和服务中断的相关信息?

Google CSH 信息中心会记录 Google Cloud 产品的中断和服务中断长达五年。信息中心的概览标签页会按语言区域显示商品的当前状态。如需查看去年的产品中断和服务中断相关信息,请点击信息中心内的查看历史记录。如需查看某个产品在过去五年内的服务中断历史记录,请点击该产品对应的查看更多

如何查看 Google Cloud 产品的区域化状态信息?

Google CSH 信息中心会按区域和全球语言区域显示所有 Google Cloud 产品的状态。如需查看多区域的状态,请点击针对特定区域的标签页。

我可以构建集成,以便以编程方式使用 Google Cloud Service Health 信息中心显示的数据吗?

可以,您可以通过以下方式使用 Google CSH 信息中心显示的数据:

  • 通过 RSS Feed
  • 通过 JSON 历史记录文件

    您可以在此处下载 JSON 文件的架构。

RSS Feed 和 JSON 历史记录文件提供可通过集成使用的突发事件状态信息。

请使用 JSON 历史记录文件中标记为稳定的字段,而不是标记为不稳定的字段。示例:如果您要尝试以编程方式识别影响一组特定商品的突发事件,请使用产品 ID (affected_products>id),而不是其显示名称。

产品 ID 与产品名称

过去,Google Cloud Service Health 信息中心不提供查找给定产品的 ID 的机制。从 2023 年初开始,Google Cloud Service Health 信息中心提供了一个产品清单,为所有产品提供此映射。商品 ID 提供了一个稳定的字段以供键控,同时允许更改商品的显示名称。在以编程方式识别影响一组产品的突发事件时,最好引用产品 ID。

在推出区域化状态报告以及将名称更改为 Google Cloud 服务运行状况信息中心之前,如果我基于 Google Cloud 状态信息中心进行了预构建的集成,该怎么办?

在 RSS Feed 和 JSON 文件中,区域状态信息是对引入区域化状态报告之前已发布信息以及更改 Google Cloud 状态信息中心名称之前已经发布的信息补充。因此,我们预计您现有的集成将继续正常运行。但是,如果要通过集成使用区域状态信息,则需要对其进行修改。

下面详细介绍了地区信息在 RSS Feed 和 JSON 文件中的显示方式:

  • RSS Feed

    地区状态信息是对在引入地区化状态之前提供的 Feed 信息的新补充。任何报告为受影响的位置都会附加到该 RSS 消息中。

  • JSON 文件

    在区域状态更新之前,Google Cloud 发布了一系列突发事件,其中每个突发事件都包含受影响的产品列表和每个产品的状态更新列表(如果有)。这些状态更新包含一个包含或不包含位置信息的非结构化字符串字段。

    现在,Google Cloud 像以前一样发布一系列突发事件。但是,对于每个突发事件,每项状态更新都包含以下新字段:

    • updates.affected_locations:包含更新发布时受影响的营业地点的结构化列表。每个更新记录和 most_recent_update 记录都包含此字段。
    • currently_affected_locations:包含受突发事件积极影响的地点的最新信息。与 updates.affected_locations 不同,此列表在突发事件解决后(即,end 设置为非空值时)将变为空值。
    • previously_affected_locations:包含之前在突发事件期间受到影响但当前未受到影响的营业地点的列表。随着突发事件的处理,某些位置可能已有服务中断解决方案。这些营业地点仍然存在于 previously_affected_locations field 中。突发事件解决后(即,end 设置为非空值时),此字段包含在此突发事件期间受影响的所有营业地点的列表。

如果我遇到了问题,但信息中心未列出这个问题,该怎么办?

Google Cloud Service Health 信息中心会针对影响 Google Cloud 产品和服务的任何重大事件,提供当前和历史状态信息。如果您遇到的问题未在信息中心列出,则问题可能与您的项目或实例有关,或者可能影响到了有限数量的客户。客户服务门户中可能会列出影响范围较小的突发事件。如果您遇到信息中心未列出的任何问题,请与客户服务团队联系。

如果您已经在使用 Personalized Service Health 信息中心,请检查其中是否列出了该问题,以确定您的项目或实例是否受到影响。

如果您使用的是 Google Cloud 控制台,可以点击右上角的发送反馈工具报告问题。

谁负责更新信息中心?

全球客户服务团队使用许多不同类型的信号来监控商品状态,如果发生广泛性问题,该团队将更新信息中心。如果需要,他们将在事件解决后发布详细的事件分析报告。