突发事件和 Google Cloud 状态信息中心

突发事件的生命周期

检测到产品降级时,Cloud Customer Care 团队和产品工程团队会协同解决突发事件并与您沟通。

生命周期图

检测

Google 使用内部和黑匣子监控来检测突发事件。如需了解详情,请参阅《站点可靠性工程》一书的第 6 章

如果您拥有高级版、增强版、基于角色的或企业支持服务,则可以在 Google Cloud Console 中创建支持案例,报告突发事件。如果您享有白金级、黄金级或白银级支持服务,则可以通过在 Google Cloud 支持中心创建支持案例来报告突发事件。否则,您可以使用此表单

初步回应

检测到突发事件时,Customer Care 团队会与您沟通。突发事件的初始通知通常很短,一般只提及有问题的产品。这是因为我们优先考虑快速通知,而不是细节。具体细节可以在后续更新中提供。

为了向您提供尽可能多的信息,并且不让您忙于应付对您没有影响的问题,应根据问题的范围和严重程度使用不同的沟通渠道:

沟通图

当您发现问题对您有影响时,应该首先在 Cloud 状态信息中心检查问题。信息中心会显示影响许多客户的突发事件,因此如果您看到其中列出的突发事件,该事件可能与您的问题有关。为了表示严重程度,状态信息中心将突发事件标记为中断或停机。更小但仍然普遍存在的问题会在临时通知中发布。

当相关 Google Cloud 产品或服务在 Cloud 状态信息中心中报告问题时,您可能还会在 Cloud Console 中看到服务中断通知。如果 Cloud Console 中出现中断通知,您可以点击此通知以详细了解问题的状态。

您可以订阅某些 Google Cloud 产品的 Google 网上论坛,以便在 Cloud 状态信息中心订阅有关新突发事件的公告和通知。

Google Cloud 支持中心Cloud Console 支持页面上显示的已知问题是最全面的问题视图,其中包含影响人数比信息中心所示人数少的问题。如果您怀疑存在 GCP 问题,但未在信息中心上看到任何问题,应在此处查看。

支持案例适用于不符合突发事件要求或需要一对一人工接触的问题。已知问题页面允许您根据发布的突发事件创建案例,以便定期获取更新并与支持人员沟通。

调查

产品工程团队负责调查突发事件的根本原因。突发事件管理通常由网站可靠性工程师完成,但可能由软件工程师或其他人来完成,这取决于具体情况和产品。如需了解详情,请参阅《网站可靠性工程》一书的第 12 章

缓解/解决

仅当 Google 确信所做更改将永远结束影响时,才会认为问题“已解决”。例如,这种解决操作可能会回滚触发过突发事件的更改。

当突发事件正在进行时,Customer Care 和产品团队会尝试“缓解”此问题。缓解是指可以减少问题的影响或范围,例如通过临时为过载的服务提供其他资源。

如果没有找到缓解措施,则 Customer Care 团队会尽可能找到解决方法并解决。解决方法是您在解决突发事件发生后的潜在需求时可以采取的步骤。解决方法可能对 API 调用使用不同的设置,以避开出现问题的代码路径。

后续跟踪

当突发事件正在进行时,Customer Care 团队会定期提供更新。更新通常会提供:

  • 有关突发事件的更多信息,例如错误消息、受影响的地区或区域,受影响的功能或影响百分比。

  • 缓解问题的进展,包括任何解决方法。

  • 根据突发事件量身定制的沟通时间表。

  • 状态变化,例如突发事件已解决。

事后分析

所有突发事件都会在内部执行事后分析,以便全面了解事件,并确定 Google 可作出的可靠性改进,然后跟踪和实施这些改进。如需详细了解 Google 的事后分析,请参阅《网站可靠性工程》一书的第 15 章

突发事件报告

如果突发事件具有非常广泛且严重的影响,Google 会提供突发事件报告,其中概述了事件的症状、影响、根本原因、补救措施以及未来的预防。对于事后分析,我们特别注意我们所采取的了解问题和提高可靠性的步骤。Google 在撰写和发布事后分析秉承透明的原则,这体现了我们致力于为客户构建稳定服务的承诺。

常见问题解答

信息中心主页提供什么类型的状态信息?

Google Cloud 状态信息中心提供有关 Google Cloud Platform 系列服务的状态信息。状态可能包括服务中断、停机或有关临时性问题的信息性消息。

在哪里可以找到以前的服务中断和停机的相关信息?

摘要和历史记录页面存储过去 365 天内的服务中断和停机事件。点击突发事件编号可查看在该事件处理过程中发表的相关帖子,以及 Customer Care 团队编写的任何事件摘要报告。

如果我遇到了问题,但信息中心未列出这个问题,该怎么办?

可能是只有您的项目或实例遇到了这个问题,或者这个问题影响的客户数量很有限。如果您遇到了未在信息中心列出的问题,请与 Customer Care 联系。

如果您使用的是 Google Cloud Console,可以点击右上角的发送反馈工具来报告问题。

谁负责更新信息中心?

全球 Customer Care 团队使用许多不同类型的信号监控服务状态,如果发生广泛性问题,将更新信息中心。如果需要,他们将在事件解决后发布详细的事件分析报告。

“突发事件”和“停机”之间有什么区别?

虽然这两个术语通常可以互换使用,但 Cloud 状态信息中心和我们在对外沟通时使用“突发事件”来表示任何降级服务期,“停机”仅表示最严重的情况,此时产品在很大程度上不起作用。