Google Cloud Service Health (CSH) 信息中心会提供按区域和全球语言区域组织的 Google Cloud 服务的状态信息。
重大事故
重大事件的影响分为以下两种情况:
- 多项服务
- 多个区域
- 多个小时
- 多客户
在极少数情况下,一旦发生重大事件,我们就会立即解决各种问题。
在发生重大事件期间,系统会通过 Google Workspace 状态信息中心和 Google Cloud 服务运行状况信息中心传达问题的状态。严重信息中心在状态信息中心标记为 服务中断。问题解决后,我们会发布公共突发事件报告,其中包含导致突发事件的因素的详细信息,以及我们计划防止此类事件再次发生的步骤。
如果事件数量范围较小,我们可能会向客户提供非公开报告。
突发事件的生命周期
检测到产品降级时,Cloud Customer Care 团队和产品工程团队会协同解决突发事件并与您沟通。
检测
Google Cloud 使用内部和黑盒监控来检测突发事件。如需了解详情,请参阅《站点可靠性工程》一书的第 6 章。
如果您享有高级支持服务、增强型支持服务或标准支持服务,可以通过在 Google Cloud Console 中创建支持请求来报告突发事件。否则,您可以使用此表单。
初步回应
检测到突发事件时,Customer Care 团队会与您沟通。突发事件的初始通知通常很短,一般只提及有问题的产品。这是因为我们优先考虑快速通知,而不是细节。具体细节可以在后续更新中提供。
为了向您提供尽可能多的信息,并且不让您忙于应付对您没有影响的问题,应根据问题的范围和严重程度使用不同的沟通渠道:
当您发现问题对您有影响时,应首先查看 Google CSH 信息中心。信息中心会显示影响许多客户的突发事件,因此如果您看到其中列出的突发事件,该事件可能与您的问题有关。为了表示严重程度,信息中心会将突发事件标记为中断或服务中断。更小但仍然普遍存在的问题会在临时通知中发布。
当相关的 Google Cloud 产品或服务在 Google CSH 信息中心内报告问题时,您可能还会在 Google Cloud Console 中看到服务中断通知。如果 Google Cloud Console 中出现服务中断通知,您可以点击该通知以详细了解问题的状态。
某些 Google Cloud 产品具有 Google 网上论坛群组,您可以订阅这些群组,以便在 Google CSH 信息中心接收关于新突发事件的公告和通知。
Google Cloud 支持中心和 Google Cloud Console 的“支持”页面上显示的已知问题是最全面的问题视图,其中包含影响人数比信息中心显示的人数少的问题。如果您怀疑存在 GCP 问题,但未在信息中心上看到任何问题,应在此处查看。
支持案例适用于不符合突发事件要求或需要一对一人工接触的问题。已知问题页面允许您根据发布的突发事件创建案例,以便定期获取更新并与支持人员沟通。
调查
产品工程团队负责调查突发事件的根本原因。突发事件管理通常由网站可靠性工程师完成,但可能由软件工程师或其他人来完成,这取决于具体情况和产品。如需了解详情,请参阅《网站可靠性工程》一书的第 12 章。
缓解/解决
仅当 Google 确信所做更改将永远结束影响时,才会认为问题“已解决”。例如,这种解决操作可能会回滚触发过突发事件的更改。
当突发事件正在进行时,Customer Care 和产品团队会尝试“缓解”此问题。缓解是指可以减少问题的影响或范围,例如通过临时为过载的服务提供其他资源。
如果没有找到缓解措施,则 Customer Care 团队会尽可能找到解决方法并解决。解决方法是您在解决突发事件发生后的潜在需求时可以采取的步骤。解决方法可能对 API 调用使用不同的设置,以避开出现问题的代码路径。
后续跟踪
当突发事件正在进行时,Customer Care 团队会定期提供更新。更新通常会提供:
有关突发事件的更多信息,例如错误消息、受影响的地区或区域,受影响的功能或影响百分比。
缓解问题的进展,包括任何解决方法。
根据突发事件量身定制的沟通时间表。
状态变化,例如突发事件已解决。
事后分析
所有突发事件都会在内部执行事后分析,以便全面了解事件,并确定 Google 可作出的可靠性改进,然后跟踪和实施这些改进。如需详细了解 Google 的事后分析,请参阅《网站可靠性工程》一书的第 15 章。
突发事件报告
如果突发事件具有非常广泛且严重的影响,Google 会提供突发事件报告,其中概述了事件的症状、影响、根本原因、补救措施以及未来的预防。对于事后分析,我们特别注意我们所采取的了解问题和提高可靠性的步骤。Google 在撰写和发布事后分析秉承透明的原则,这体现了我们致力于为客户构建稳定服务的承诺。
常见问题解答
我可以在 Google CSH 信息中心找到哪些类型的状态信息?
Google CSH 信息中心会提供 Google Cloud 所含服务的状态信息。状态可能包括服务中断、停机或有关临时性问题的信息性消息。
在哪里可以找到此前的服务中断和停机的相关信息?
Google CSH 信息中心会在五年内保留 Google Cloud 服务的中断和中断记录。信息中心的概览标签页会按语言区域显示服务的当前状态。如需查看过去一年的服务中断和停机的相关信息,请点击信息中心上的查看历史记录。如需查看某项服务在过去五年的服务中断记录,请点击该服务对应的查看更多。
如何查看 Google Cloud 服务的地区化状态信息?
Google CSH 信息中心会显示按区域和全局语言区域组织的所有 Google Cloud 服务的状态。如需查看多区域的服务状态,请点击区域专属标签页。
我可以构建集成来以编程方式使用 Google CSH 信息中心上显示的数据吗?
可以,您可以通过以下方式使用 Google CSH 信息中心上显示的数据:
- 通过 RSS Feed
通过 JSON 历史记录文件
您可以在此处下载 JSON 文件的架构。
RSS Feed 和 JSON 历史记录文件提供突发事件状态信息,可通过集成使用。
如果在将区域化状态报告和名称更改引入 Google Cloud 服务信息中心之前,我根据 Google Cloud 状态信息中心预先构建了集成,该怎么办?
在 RSS Feed 和 JSON 文件中,地区状态信息是对在推出地区化状态报告和 Google Cloud 状态名称更改之前已经发布的信息的一种补充。因此,我们希望您现有的集成能够继续正常运行。但是,如果您想通过集成使用区域状态信息,则需要修改它们。
下面详细说明了如何在 RSS Feed 和 JSON 文件中呈现地区信息:
RSS Feed
地区状态信息是对引入地区化状态之前提供的 Feed 信息的新补充。任何报告为受影响的营业地点都会附加到 RSS 消息中。
JSON 文件
在区域状态更新之前,Google Cloud 会发布一系列突发事件,其中每个突发事件都包含一个受影响的商品列表以及每个受影响商品的状态更新列表(如果有)。这些状态更新包含一个包含或不包含位置信息的非结构化字符串字段。
现在,Google Cloud 会像以前一样发布一系列突发事件。但是,对于每个突发事件,每次状态更新都包含以下新字段:
updates.affected_locations
:包含发布更新的受影响位置的结构化列表。每条更新记录和most_recent_update
记录都包含此字段。currently_affected_locations
:包含受突发事件积极影响的营业地点的最新信息。与updates.affected_locations
不同的是,此列表会在事件解决后(即当end
设置为非空值时)变为空白。previously_affected_locations
:包含先前在突发事件中受到影响、但目前未受影响的地点列表。随着突发事件的发展,某些地点的服务中断情况可能会得到解决。这些位置仍存在于previously_affected_locations field
中。突发事件解决后(即,当end
设置为非空值时),此字段包含受此突发事件影响的所有营业地点的列表。
如果我遇到了问题,但信息中心未列出这个问题,该怎么办?
可能是只有您的项目或实例遇到了这个问题,或者这个问题影响的客户数量很有限。如果您遇到了未在信息中心列出的问题,请与 Customer Care 联系。
如果您使用的是 Google Cloud Console,可以点击右上角的发送反馈工具报告问题。
谁负责更新信息中心?
全球 Customer Care 团队使用许多不同类型的信号监控服务状态,如果发生广泛性问题,将更新信息中心。如果需要,他们将在事件解决后发布详细的事件分析报告。
突发事件和停机之间有什么区别?
虽然这两个术语通常可以互换使用,但 Google CSH 信息中心和我们的外部通信使用“突发事件”来表示任何降级服务期,“服务中断”仅表示最严重的情况,此时产品在很大程度上不起作用。