突发事件和 Google Cloud Service Health 信息中心

Google Cloud Service Health (CSH) 信息中心提供 按区域和全球语言区域整理的 Google Cloud 产品。

重大突发事件

如果某个突发事件符合所有流程,则 Google Cloud 会将其定义为重大突发事件 以下条件:

  • 高范围 - 突发事件具有全球性或严重的影响 一个或多个区域的客户项目百分比。
  • “高”严重级别 - 一个或多个商品不可用或严重降级。

在极少数情况下,发生重大事件时,我们会立即采取紧急措施,解决所有问题。

在发生重大事故期间,Google 会通过 Google Cloud Service Health 信息中心。 重大事件标记为“” 状态信息中心内会显示服务中断。问题得到解决后, 发布公共事件报告,详细说明 是促成事故的因素,以及我们计划采取哪些措施来防止 避免事件再次发生

对于范围较小的突发事件,我们可能会提供非公开报告 。

突发事件的生命周期

检测到产品降级时,Google Cloud 支持团队和 产品工程团队齐心协力解决突发事件,并为您提供 。

下图显示了产品工程和 支持团队:

生命周期图

如需详细了解上述各项职责,请参阅下文 部分。

检测

Google Cloud 使用内部监控功能和黑盒监控来检测突发事件。如需了解详情,请参阅《站点可靠性工程》一书的第 6 章

如果您订阅了高级、增强型或标准支持服务,则可以 通过在支持请求中创建支持请求 Google Cloud 控制台。或者,您也可以 请使用此表单

初步响应

检测到突发事件时,Google Cloud Customer Care 团队负责管理客户 通信。突发事件的初始通知通常很短,一般只提及有问题的产品。这是因为我们优先考虑快速通知,而不是细节。具体细节可以在后续更新中提供。

为了向您提供尽可能多的信息,并且不让您忙于应付对您没有影响的问题,应根据问题的范围和严重程度使用不同的沟通渠道:

沟通图

我们建议使用 Personalized Service Health 是遇到服务中断时的第一站 具体商品。至 在 Personalized Service Health 中,您可以查看与您的项目相关的中断。 了解详情 Personalized Service Health 以及如何将其集成到您的突发事件中 管理工作流程

通过 Google Cloud Service Health 信息中心 显示重大事故, Personalized Service Health 本身不可用或受到中断的影响。

如果您尚未为项目启用 Personalized Service Health 功能,或者 Personalized Service Health 尚不支持该产品, 建议检查以下方面是否存在活跃中断:

Google Cloud 控制台的“支持”页面上显示的已知问题还包括 轻微和范围有限的事件

支持案例适用于不符合突发事件或非突发事件要求的问题 需要一对一的人工操作。通过“已知问题”页面 根据发布的突发事件创建支持请求,以便定期获取最新动态并 与支持人员联系。

调查

产品工程团队负责调查突发事件的根本原因。突发事件管理通常由网站可靠性工程师完成,但可能由软件工程师或其他人来完成,这取决于具体情况和产品。如需了解详情,请参阅《网站可靠性工程》一书的第 12 章

缓解/解决

仅当 Google 确信所做更改将永远结束影响时,才会认为问题“已解决”。例如,这种解决操作可能会回滚触发过突发事件的更改。

当突发事件正在进行时,Customer Care 和产品团队会尝试“缓解”此问题。缓解是指,采取的行动造成的影响或范围 可以通过临时提供其他资源来减少问题 产品过载

如果没有找到缓解措施,则 Customer Care 团队会尽可能找到解决方法并解决。解决方法是您在解决突发事件发生后的潜在需求时可以采取的步骤。解决方法可能对 API 调用使用不同的设置,以避开出现问题的代码路径。

Follow up

当突发事件正在进行时,Customer Care 团队会定期提供更新。更新通常会提供:

  • 有关突发事件的更多信息,例如错误消息、受影响的地区或区域,受影响的功能或影响百分比。

  • 缓解问题的进展,包括任何解决方法。

  • 根据突发事件量身定制的沟通时间表。

  • 状态变化,例如突发事件已解决。

事后分析

所有突发事件都会在内部执行事后分析,以便全面了解事件,并确定 Google 可作出的可靠性改进,然后跟踪和实施这些改进。如需详细了解 Google 的事后分析,请参阅《网站可靠性工程》一书的第 15 章

突发事件报告

如果突发事件具有非常广泛且严重的影响,Google 会提供突发事件报告,其中概述了事件的症状、影响、根本原因、补救措施以及未来的预防。对于事后分析,我们特别注意我们所采取的了解问题和提高可靠性的步骤。Google 撰写和发布事后分析的目标是 公开透明,体现我们致力于打造稳定产品的承诺 。

突发事件数据模型

一个突发事件在一个或多个位置影响了一个或多个产品。 突发事件具有开始时间和结束时间,以及总体严重程度。突发事件 提供更新,说明突发事件如何随时间变化, 包括其状态和受影响的地理位置。突发事件信息 可通过 JSON 架构提供。

JSON 架构中包含标记为稳定不稳定的字段。一般来说,ID 字段被视为稳定字段,而显示名称等字段则被视为 被视为不稳定,可能会在不发出警告的情况下进行更改。使用稳定版 字段。 请参阅我可以构建集成以使用 Google Cloud Service Health 信息中心以编程方式?

常见问题解答

我在 Google CSH 信息中心可以找到哪种类型的状态信息?

Google CSH 信息中心提供存在以下情况的商品的状态信息: 都属于 Google Cloud 的一部分。状态可能包括产品服务中断 或有关临时性问题的信息性消息。

突发事件何时会发布到 Google CSH 信息中心?

符合以下任一条件的突发事件会显示在 CSH 信息中心内:

在哪里可以找到过往产品中断和中断的相关信息?

Google CSH 信息中心会记录 Google Cloud 产品的使用期限长达五年。通过 概览标签页 信息中心会按语言区域显示产品的当前状态。查看信息 有关去年的产品服务中断和服务中断的信息,请点击 在信息中心内查看历史记录。 如需查看某个产品在过去五年内的服务中断历史记录,请点击了解详情

如何查看 Google Cloud 产品的区域化状态信息?

Google CSH 信息中心会显示所有 Google Cloud 产品的状态 按区域和全球语言区域整理。如需查看多区域的状态,请执行以下操作: 点击针对特定区域的标签

我可以通过构建集成来以编程方式使用 Google Cloud Service Health 信息中心中显示的数据吗?

是的,您可以在 方法:

  • 通过 RSS Feed
  • 通过 JSON 历史记录文件

    您可以在此处下载 JSON 文件的架构。

RSS Feed 和 JSON 历史记录文件会提供突发事件状态信息, 使用它们

使用 JSON 历史记录文件中标记为稳定的字段,而不是使用 标记为不稳定。例如:如果您尝试以编程方式识别 影响一组特定产品的突发事件,请使用产品 ID (affected_products>id),而不是其显示名称。

产品 ID 与产品名称

过去,Google Cloud Service Health 信息中心不提供 查找指定商品 ID 的机制。自 2023 年初以来, Google Cloud Service Health 信息中心 商品清单,它提供了 所有产品的此映射。产品 ID 提供了一个稳定的字段来关闭 同时允许更改商品的显示名称最好引用 以程序化方式识别影响一组 产品。

在向 Google Cloud Service Health 信息中心推出区域化状态报告和名称更改之前,如果我已基于 Google Cloud 状态信息中心预构建了集成,该怎么办?

在 RSS Feed 和 JSON 文件中,地区状态信息均为 之前已经发布的信息, 推出区域化状态报告,并更改了名称 Google Cloud 状态信息中心。因此,我们希望您的现有 集成以继续运行。不过,如果您希望使用地区状态 您需要对其进行修改。

下面详细说明了 Google 地图和 Google 地图 RSS Feed 和 JSON 文件:

  • RSS Feed

    地区状态信息是 。任何包含 会附加到 RSS 消息中。

  • JSON 文件

    在区域状态更新之前,Google Cloud 发布了 突发事件,其中每个突发事件都包含受影响产品列表和一个列表 (如果有)的最新状态信息这些状态更新包含 包含或不包含营业地点的非结构化字符串字段 信息。

    现在,Google Cloud 会像以前一样发布突发事件流。 不过,对于每个事件,每项状态更新都包含以下新事件: 字段:

    • updates.affected_locations:包含受影响内容的结构化列表 更新发布时的营业地点信息。每条更新记录 most_recent_update 记录包含此字段。
    • currently_affected_locations:包含有关 受突发事件影响的营业地点。取消点赞 updates.affected_locations,突发事件发生后,此列表会变为空白 已解析(即 end 设置为非空值时)。
    • previously_affected_locations:包含 但目前尚未受到影响作为 某些位置可能已有服务中断解决。这些 营业地点仍将保留在previously_affected_locations field中。 突发事件解决后(即 end 设置为非空值时), 此字段列出了在此期间受此问题影响的所有地理位置 事件。

如果我遇到了问题,但信息中心未列出这个问题,该怎么办?

Google Cloud Service Health 信息中心提供影响 Google Cloud 产品和服务的任何重大突发事件的当前状态信息。如果您遇到的问题未在信息中心列出,则可能是问题仅与您的项目或实例有关,也可能影响的客户数量有限。客户服务门户上可能会列出范围较小的突发事件。对于您遇到的但未列在信息中心内的任何问题,请与客户服务团队联系。

如果您已在使用 Personalized Service Health 信息中心,请检查其中是否列出了问题,以确定您的项目或实例是否受到影响。

如果您使用的是 Google Cloud 控制台,可以在以下位置点击发送反馈工具: 报告问题。

谁负责更新信息中心?

全球客户服务团队监控产品状态 使用许多不同类型的信号,并在发生以下情况时更新信息中心: 普遍存在的问题。如果需要,他们将在事件解决后发布详细的事件分析报告。