突发事件和 Google Cloud Service Health 信息中心

Google Cloud Service Health (CSH) 信息中心提供按区域和全球语言区域整理的 Google Cloud 产品的状态信息。

重大突发事件

如果突发事件符合以下所有条件,Google Cloud 会将其定义为重大突发事件:

  • 高范围 - 突发事件具有全球性影响,或者影响了一个或多个区域中很大一部分的客户项目。
  • “高”严重级别 - 一个或多个商品不可用或严重降级。

在发生重大事故的极少数情况下,我们会立即采取紧急措施,解决各种问题。

在发生重大突发事件期间,Google Cloud Service Health 信息中心会通过 Google Cloud Service Health 信息中心传达问题的状态。重大突发事件在状态信息中心内被标记为 服务中断。问题得到解决后,我们将发布公共突发事件报告,其中详细说明了导致相应突发事件的因素,以及我们计划采取哪些措施防止此类突发事件再次发生。

对于范围较小的突发事件,可能会向客户提供非公开报告。

突发事件的生命周期

检测到产品降级时,Google Cloud 支持团队和产品工程团队将合作解决突发事件并为您提供更新。

下图显示了产品工程和支持团队的职责:

生命周期图

您可以在以下各部分中详细了解每项责任。

检测

Google Cloud 使用内部监控功能和黑盒监控来检测突发事件。如需了解详情,请参阅《站点可靠性工程》一书的第 6 章

如果您享有高级、增强型或标准支持服务,则可以通过在 Google Cloud 控制台中创建支持请求来报告突发事件。否则,您可以使用此表单

初步响应

检测到突发事件时,Google Cloud Customer Care 团队负责管理客户通信。突发事件的初始通知通常很短,一般只提及有问题的产品。这是因为我们优先考虑快速通知,而不是细节。具体细节可以在后续更新中提供。

为了向您提供尽可能多的信息,并且不让您忙于应付对您没有影响的问题,应根据问题的范围和严重程度使用不同的沟通渠道:

沟通图

特定产品发生服务中断时,我们建议首先使用 Personalized Service Health。通过 Personalized Service Health,您可以查看与您的项目相关的中断。详细了解 Personalized Service Health 以及如何将其集成到您的突发事件管理工作流中。

Google Cloud Service Health 信息中心会显示重大突发事件,可在 Personalized Service Health 本身不可用或受中断影响的罕见情况下使用。

如果您尚未为项目启用 Personalized Service Health,或者 Personalized Service Health 尚不支持该产品,我们建议您检查以下项中是否存在活跃中断:

Google Cloud 控制台“支持”页面上显示的已知问题还包括次要和范围有限的突发事件。

支持请求适用于不符合突发事件要求或需要一对一人工接触的问题。通过已知问题页面,您可以根据发布的突发事件创建案例,以便您定期获取更新并与支持人员沟通。

调查

产品工程团队负责调查突发事件的根本原因。突发事件管理通常由网站可靠性工程师完成,但可能由软件工程师或其他人来完成,这取决于具体情况和产品。如需了解详情,请参阅《网站可靠性工程》一书的第 12 章

缓解/解决

仅当 Google 确信所做更改将永远结束影响时,才会认为问题“已解决”。例如,这种解决操作可能会回滚触发过突发事件的更改。

当突发事件正在进行时,Customer Care 和产品团队会尝试“缓解”此问题。缓解是指可以减少问题的影响或范围,例如通过暂时为过载的产品提供其他资源。

如果没有找到缓解措施,则 Customer Care 团队会尽可能找到解决方法并解决。解决方法是您在解决突发事件发生后的潜在需求时可以采取的步骤。解决方法可能对 API 调用使用不同的设置,以避开出现问题的代码路径。

Follow up

当突发事件正在进行时,Customer Care 团队会定期提供更新。更新通常会提供:

  • 有关突发事件的更多信息,例如错误消息、受影响的地区或区域,受影响的功能或影响百分比。

  • 缓解问题的进展,包括任何解决方法。

  • 根据突发事件量身定制的沟通时间表。

  • 状态变化,例如突发事件已解决。

事后分析

所有突发事件都会在内部执行事后分析,以便全面了解事件,并确定 Google 可作出的可靠性改进,然后跟踪和实施这些改进。如需详细了解 Google 的事后分析,请参阅《网站可靠性工程》一书的第 15 章

突发事件报告

如果突发事件具有非常广泛且严重的影响,Google 会提供突发事件报告,其中概述了事件的症状、影响、根本原因、补救措施以及未来的预防。对于事后分析,我们特别注意我们所采取的了解问题和提高可靠性的步骤。Google 在撰写和发布事后分析方面秉持透明的原则,这体现了我们致力于为客户构建稳定产品的承诺。

突发事件数据模型

突发事件在一个或多个位置影响一个或多个产品。 突发事件具有开始时间和结束时间,以及总体严重程度。突发事件包含更新,描述了突发事件如何随时间变化,包括其状态和当时受影响的位置。突发事件信息通过 JSON 架构提供。

JSON 架构中包含标记为稳定不稳定的字段。通常,ID 字段被视为稳定字段,而显示名称等字段则被视为不稳定字段,且可能会在不发出警告的情况下更改。只有在与外部系统集成或建筑物自动化功能时,才使用 Stable 字段。请参阅我可以构建集成以程序化地使用 Google Cloud Service Health 信息中心上显示的数据吗?

常见问题解答

我在 Google CSH 信息中心可以找到哪种类型的状态信息?

Google CSH 信息中心提供有关 Google Cloud 产品的状态信息。状态可能包括产品服务中断、服务中断或有关临时性问题的信息性消息。

突发事件何时会发布到 Google CSH 信息中心?

符合以下任一条件的突发事件会显示在 CSH 信息中心内:

在哪里可以找到过往产品中断和中断的相关信息?

Google CSH 信息中心会记录 Google Cloud 产品最多五年的服务中断和中断情况。信息中心的概览标签页按语言区域显示产品的当前状态。如需查看有关去年产品服务中断和服务中断的信息,请点击信息中心内的查看历史记录。如需查看某个产品在过去五年内的服务中断历史记录,请点击该产品对应的查看更多

如何查看 Google Cloud 产品的区域化状态信息?

Google CSH 信息中心会按区域和全球语言区域显示所有 Google Cloud 产品的状态。如需查看多区域的状态,请点击特定于区域的标签页。

我可以通过构建集成来以编程方式使用 Google Cloud Service Health 信息中心中显示的数据吗?

可以,您可以通过以下方式使用 Google CSH 信息中心显示的数据:

  • 通过 RSS Feed
  • 通过 JSON 历史记录文件

    您可以在此处下载 JSON 文件的架构。

RSS Feed 和 JSON 历史记录文件提供了可通过集成使用的突发事件状态信息。

请使用 JSON 历史记录文件中标记为稳定的字段,而不是标记为不稳定的字段。示例:如果您尝试以编程方式识别影响一组特定产品的突发事件,请使用产品 ID (affected_products>id),而不是其显示名称。

产品 ID 与产品名称

过去,Google Cloud Service Health 信息中心未提供用于查找给定产品 ID 的机制。自 2023 年初以来,Google Cloud Service Health 信息中心推出了产品目录,其中为所有产品提供了此对应关系。商品 ID 提供了一个稳定的字段来关闭,同时允许更改商品的显示名称。在以编程方式识别影响一组产品的突发事件时,最好引用产品 ID。

在向 Google Cloud Service Health 信息中心推出区域化状态报告和名称更改之前,如果我已基于 Google Cloud 状态信息中心预构建了集成,该怎么办?

在 RSS Feed 和 JSON 文件中,区域状态信息是对引入区域化状态报告和 Google Cloud 状态信息中心名称变更之前已发布的信息添加的。因此,我们希望您的现有集成能够继续正常工作。但是,如果您希望通过集成使用区域状态信息,则需要修改它们。

下面详细介绍了地区信息如何在 RSS Feed 和 JSON 文件中呈现:

  • RSS Feed

    地区状态信息是对 Feed 信息的新增补充,这些信息是在引入地区化状态之前提供的。任何被报告为受影响的营业地点都会附加到 RSS 消息中。

  • JSON 文件

    在区域状态更新之前,Google Cloud 发布了突发事件流,其中每个突发事件都包含受影响的产品列表以及每个产品的状态更新列表(如果有)。这些状态更新包含一个非结构化字符串字段,该字段包含或不包含位置信息。

    现在,Google Cloud 会像以前一样发布突发事件流。 但是,对于每个突发事件,每项状态更新都包含以下新字段:

    • updates.affected_locations:包含更新发布时受影响地理位置的结构化列表。每条更新记录和 most_recent_update 记录都包含此字段。
    • currently_affected_locations:包含受突发事件积极影响的位置的最新信息。与 updates.affected_locations 不同,此列表会在突发事件解决后(即 end 设置为非空值时)变为空值。
    • previously_affected_locations:包含之前在突发事件期间受到影响但目前未受影响的位置列表。随着突发事件的进展,某些位置或许可以解决服务中断问题。这些位置仍将保留在 previously_affected_locations field 中。突发事件得到解决后(即 end 设置为非空值时),此字段包含此突发事件期间受影响的所有位置的列表。

如果我遇到了问题,但信息中心未列出这个问题,该怎么办?

Google Cloud Service Health 信息中心提供影响 Google Cloud 产品和服务的任何重大突发事件的当前状态信息。如果您遇到的问题未在信息中心列出,则可能是问题仅与您的项目或实例有关,也可能影响的客户数量有限。客户服务门户上可能会列出范围较小的突发事件。对于您遇到的但未列在信息中心内的任何问题,请与客户服务团队联系。

如果您已在使用 Personalized Service Health 信息中心,请检查其中是否列出了问题,以确定您的项目或实例是否受到影响。

如果您使用的是 Google Cloud 控制台,可以点击右上角的发送反馈工具报告问题。

谁负责更新信息中心?

全球客户服务团队使用许多不同类型的信号监控产品状态,并在发生广泛性问题时更新信息中心。如果需要,他们将在事件解决后发布详细的事件分析报告。