突发事件和 Google Cloud 服务健康状况信息中心

Google Cloud Service Health (CSH) 信息中心会提供按区域和全球语言区域整理的 Google Cloud 服务的状态信息。

严重事故

大规模事件的影响包括以下两种或两种以上的情况:

  • 多项服务
  • 多个区域
  • 多个小时
  • 多位客户

在极少数情况下,如果发生重大事件,我们会立即采取行动,解决所有问题。

在发生重大事件期间,问题状态会通过 Google Workspace 状态信息中心Google Cloud 服务运行状况信息中心传达。严重信息中心在状态信息中心标记为 服务中断。问题解决后,我们会发布公共突发事件报告,其中详细说明了导致该事件的因素,以及我们计划如何防止此类事件再次发生。

如果事件范围较小,我们可能会向客户提供非公开报告。

突发事件的生命周期

检测到产品降级时,Cloud Customer Care 团队和产品工程团队会协同解决突发事件并与您沟通。

生命周期图

检测

Google Cloud 使用内部监控和黑盒监控来检测突发事件。如需了解详情,请参阅《站点可靠性工程》一书的第 6 章

如果您订阅了高级支持服务、增强型支持服务、标准支持服务、基于角色支持服务或企业支持服务,则可以通过在 Google Cloud Console 中创建支持案例来报告突发事件。如果您享有白金级、黄金级或白银级支持服务,则可以通过在 Google Cloud 支持中心创建支持案例来报告突发事件。否则,您可以使用此表单

初步回应

检测到突发事件时,Customer Care 团队会与您沟通。突发事件的初始通知通常很短,一般只提及有问题的产品。这是因为我们优先考虑快速通知,而不是细节。具体细节可以在后续更新中提供。

为了向您提供尽可能多的信息,并且不让您忙于应付对您没有影响的问题,应根据问题的范围和严重程度使用不同的沟通渠道:

沟通图

当您发现问题对您有影响时,应该首先在 Google CSH 信息中心检查问题。信息中心会显示影响许多客户的突发事件,因此如果您看到其中列出的突发事件,该事件可能与您的问题有关。为了表示严重程度,信息中心将突发事件标记为中断或服务中断。更小但仍然普遍存在的问题会在临时通知中发布。

当相关的 Google Cloud 产品或服务在 Google CSH 信息中心中报告问题时,您可能会在 Cloud Console 中看到服务中断通知。如果 Cloud Console 中出现服务中断通知,您可以点击此通知,详细了解相应问题的状态。

某些 Google Cloud 产品具有 Google 网上论坛群组,您可以订阅这些论坛,以便在 Google CSH 信息中心接收有关新突发事件的公告和通知。

Google Cloud 支持中心Cloud Console 支持页面中显示的已知问题是最全面的问题视图,其中包含影响人数比信息中心显示的人数少的问题。如果您怀疑存在 GCP 问题,但未在信息中心上看到任何问题,应在此处查看。

支持案例适用于不符合突发事件要求或需要一对一人工接触的问题。已知问题页面允许您根据发布的突发事件创建案例,以便定期获取更新并与支持人员沟通。

调查

产品工程团队负责调查突发事件的根本原因。突发事件管理通常由网站可靠性工程师完成,但可能由软件工程师或其他人来完成,这取决于具体情况和产品。如需了解详情,请参阅《网站可靠性工程》一书的第 12 章

缓解/解决

仅当 Google 确信所做更改将永远结束影响时,才会认为问题“已解决”。例如,这种解决操作可能会回滚触发过突发事件的更改。

当突发事件正在进行时,Customer Care 和产品团队会尝试“缓解”此问题。缓解是指可以减少问题的影响或范围,例如通过临时为过载的服务提供其他资源。

如果没有找到缓解措施,则 Customer Care 团队会尽可能找到解决方法并解决。解决方法是您在解决突发事件发生后的潜在需求时可以采取的步骤。解决方法可能对 API 调用使用不同的设置,以避开出现问题的代码路径。

后续跟踪

当突发事件正在进行时,Customer Care 团队会定期提供更新。更新通常会提供:

  • 有关突发事件的更多信息,例如错误消息、受影响的地区或区域,受影响的功能或影响百分比。

  • 缓解问题的进展,包括任何解决方法。

  • 根据突发事件量身定制的沟通时间表。

  • 状态变化,例如突发事件已解决。

事后分析

所有突发事件都会在内部执行事后分析,以便全面了解事件,并确定 Google 可作出的可靠性改进,然后跟踪和实施这些改进。如需详细了解 Google 的事后分析,请参阅《网站可靠性工程》一书的第 15 章

突发事件报告

如果突发事件具有非常广泛且严重的影响,Google 会提供突发事件报告,其中概述了事件的症状、影响、根本原因、补救措施以及未来的预防。对于事后分析,我们特别注意我们所采取的了解问题和提高可靠性的步骤。Google 在撰写和发布事后分析秉承透明的原则,这体现了我们致力于为客户构建稳定服务的承诺。

常见问题解答

我可以在 Google CSH 信息中心找到哪些类型的状态信息?

Google CSH 信息中心提供有关 Google Cloud 所含服务的状态信息。状态可能包括服务中断、停机或有关临时性问题的信息性消息。

在哪里可以找到此前的服务中断和停机的相关信息?

Google CSH 信息中心会将 Google Cloud 服务的中断和中断记录保留长达五年时间。信息中心的概览标签页按语言区域显示服务的当前状态。如需查看去年的服务中断和服务中断的相关信息,请点击信息中心上的查看历史记录。如需查看过去五年内某服务的服务中断历史记录,请点击该服务对应的查看更多

如何查看 Google Cloud 服务的区域化状态信息?

Google CSH 信息中心按区域和全球语言区域显示所有 Google Cloud 服务的状态。如需查看多区域的服务状态,请点击区域专属标签页。

我是否可以构建集成来以编程方式使用 Google CSH 信息中心上显示的数据?

可以,您可以通过以下方式使用 Google CSH 信息中心上显示的数据:

  • 通过 RSS Feed
  • 通过 JSON 历史记录文件

    您可以在此处下载 JSON 文件的架构。

RSS Feed 和 JSON 历史记录文件提供可通过集成使用的突发事件状态信息。

如果在 Google Cloud 服务健康状况信息中心推出区域性状态报告和更改名称之前,我基于 Google Cloud 状态信息中心预先构建了集成,该怎么办?

在 RSS Feed 和 JSON 文件中,区域状态信息是对添加区域化状态报告(在更改 Google Cloud 状态信息中心的名称之前)之前已发布信息的补充。因此,我们希望您现有的集成能够继续正常运行。但是,如果您想要通过集成使用区域状态信息,则需要对其进行修改。

下面详细介绍了如何在 RSS Feed 和 JSON 文件中呈现地区信息:

  • RSS Feed

    地区状态信息是对引入地区化状态之前提供的 Feed 信息的新补充。任何报告为受影响的营业地点都会附加到 RSS 消息中。

  • JSON 文件

    在区域状态更新之前,Google Cloud 发布一系列突发事件,其中每个突发事件都包含受影响的产品列表以及每个产品的状态更新(如果有)。这些状态更新包含包含或不包含位置信息的非结构化字符串字段。

    现在,Google Cloud 会像以前一样发布一系列突发事件。但是,对于每个突发事件,每次状态更新都包含以下新字段:

    • updates.affected_locations:包含发布更新的受影响营业地点的结构化列表。每条更新记录和 most_recent_update 记录都包含此字段。
    • currently_affected_locations:包含受突发事件影响的营业地点的最新信息。与 updates.affected_locations 不同,此列表在事件解决后(即当 end 设置为非空值时)变为空。
    • previously_affected_locations:包含之前在突发事件中受到影响、但目前未受到影响的地点的列表。随着突发事件的推进,部分地点可能出现服务中断的情况。这些位置仍将存在于 previously_affected_locations field 中。事件解决后(即 end 设置为非空值时),此字段包含在此突发事件期间受到影响的所有营业地点的列表。

如果我遇到了问题,但信息中心未列出这个问题,该怎么办?

可能是只有您的项目或实例遇到了这个问题,或者这个问题影响的客户数量很有限。如果您遇到了未在信息中心列出的问题,请与 Customer Care 联系。

如果您使用的是 Cloud Console,可以点击右上角的发送反馈工具报告问题。

谁负责更新信息中心?

全球 Customer Care 团队使用许多不同类型的信号监控服务状态,如果发生广泛性问题,将更新信息中心。如果需要,他们将在事件解决后发布详细的事件分析报告。

突发事件和停机之间有什么区别?

虽然这两个术语通常可以互换使用,但 Google CSH 信息中心和我们在对外沟通时使用突发事件来表示所有降级服务期。服务中断仅表示最严重的情况,此时产品在很大程度上无法正常运行。