如需随时了解 Google Cloud 产品的运行状况,请查看以下内容:
个性化服务运行状况 - 提供对您项目或组织中使用的 Google Cloud产品和区域的个性化视图。查看 Personalized Service Health,了解可能影响您的项目和资源的当前和过往Google Cloud 突发事件的相关通告。
您可以通过以下方式访问 Personalized Service Health:
- 控制台信息中心,可通过 Google Cloud 控制台访问。
- 提醒
- Service Health API
Google Cloud 服务运行状况 - 提供以下信息:
- 平台级视图,可查看 Google Cloud 区域中所有 Google Cloud 产品的运行状况。
- 影响广泛的Google Cloud 事故。
Google Cloud 服务健康状况可供所有用户通过以下方式查看:
当特定产品出现服务中断时,请先访问 Personalized Service Health,因为Google Cloud 客户始终可在该页面上找到最实用的信息。详细了解个性化服务健康度以及如何将其集成到您的突发事件管理工作流中。
您还可以在 Google Cloud 控制台“支持”页面中查看是否存在正在进行的中断。 Google Cloud 控制台“支持”页面上显示的已知问题还包括影响范围较小且影响人数较少的问题。在“已知问题”页面中,您可以根据发布的突发事件创建支持请求,以便定期获取最新动态并与支持人员沟通。支持请求适用于不符合突发事件要求或需要一对一人工接触的问题。如果您享有高级支持服务、增强型支持服务或标准支持服务,则可以通过在 Google Cloud 控制台中创建支持请求来报告突发事件。否则,您可以使用此表单。
本文重点介绍 Google Cloud 服务健康状况。
什么是 Google Cloud 服务运行状况
Google Cloud 服务运行状况页面会提供有关符合特定条件的持续性广泛突发事件的信息,以及按地区和全球语言区域整理的 Google Cloud产品的状态。这些信息可能包括产品中断、停机或有关临时性问题的信息性消息。
Google Cloud 服务运行状况旨在用于在极少数情况下 Personalized Service Health 本身不可用或受到中断影响,或者受影响的产品尚未加入 Personalized Service Health 时。
突发事件何时会显示在 Google Cloud 服务运行状况中
对于大多数 Google Cloud 服务中断,受影响的客户会直接通过 Google Cloud 控制台中的个性化服务运行状况页面接收服务中断通知。如果这些突发事件符合提醒条件,还会触发您配置的 Service Health 提醒。
符合以下任一条件的突发事件都会显示在 Google Cloud 服务运行状况中:
- 重大公共事件
- 个性化服务运行状况中尚未提供的 Google Cloud 产品的突发事件
- Personalized Service Health 信息中心不可用时发生的突发事件
重大事故
Google Cloud 将符合以下所有条件的事故定义为重大事故:
- 影响范围广 - 突发事件具有全球影响,或正在影响一个或多个区域内大量客户项目。
- 严重程度 - 一项或多项产品不可用或严重降级。
在极少数情况下,如果发生重大突发事件,我们会立即采取行动来解决所有问题。
在重大突发事件期间,系统会通过 Google Cloud Service Health 信息中心告知问题状态。重大突发事件会在状态信息中心标记为 服务中断。问题解决后,我们会发布公开的突发事件报告,其中包含导致突发事件的详细因素,以及我们计划采取的措施来防止此类突发事件再次发生。
对于范围较小的事故,我们可能会向客户提供非公开报告。
突发事件的生命周期
检测到产品降级后, Google Cloud 支持团队和产品工程团队将协同解决突发事件并向您提供最新动态。
下图显示了产品工程团队和支持团队的职责:
您可以在以下部分中详细了解这些责任。
检测
Google Cloud 使用内部监控和黑匣子监控来检测突发事件。如需了解详情,请参阅《站点可靠性工程》一书的第 6 章。
初始响应
检测到突发事件时, Google Cloud 客户服务团队会负责与客户沟通。突发事件的初始通知通常很短,一般只提及有问题的产品。这是因为我们优先考虑快速通知,而不是细节。具体细节可以在后续更新中提供。
为了向您提供尽可能多的信息,并且不让您忙于应付对您没有影响的问题,应根据问题的范围和严重程度使用不同的沟通渠道:
调查
产品工程团队负责调查突发事件的根本原因。突发事件管理通常由网站可靠性工程师完成,但可能由软件工程师或其他人来完成,这取决于具体情况和产品。如需了解详情,请参阅《网站可靠性工程》一书的第 12 章。
缓解措施和解决方法
仅当 Google 确信所做更改将永远结束影响时,才会认为问题“已解决”。例如,这种解决操作可能会回滚触发过突发事件的更改。
当突发事件正在进行时,Customer Care 和产品团队会尝试“缓解”此问题。缓解是指可以减少问题的影响或范围,例如通过临时为过载的产品提供其他资源。
如果没有找到缓解措施,则 Customer Care 团队会尽可能找到解决方法并解决。解决方法是您在解决突发事件发生后的潜在需求时可以采取的步骤。解决方法可能对 API 调用使用不同的设置,以避开出现问题的代码路径。
Follow up
当突发事件正在进行时,Customer Care 团队会定期提供更新。更新通常会提供:
有关突发事件的更多信息,例如错误消息、受影响的地区或区域,受影响的功能或影响百分比。
缓解问题的进展,包括任何解决方法。
根据突发事件量身定制的沟通时间表。
状态变化,例如突发事件已解决。
事后分析
所有突发事件都会在内部执行事后分析,以便全面了解事件,并确定 Google 可作出的可靠性改进,然后跟踪和实施这些改进。如需详细了解 Google 的事后分析,请参阅《网站可靠性工程》一书的第 15 章。
突发事件报告
如果突发事件具有非常广泛且严重的影响,Google 会提供突发事件报告,其中概述了事件的症状、影响、根本原因、补救措施以及未来的预防。对于事后分析,我们特别注意我们所采取的了解问题和提高可靠性的步骤。Google 在撰写和发布事后分析秉承透明的原则,这体现了我们致力于为客户构建稳定产品的承诺。
突发事件数据模型
某个事故会影响一个或多个产品在一个或多个地区的使用。突发事件具有开始时间和结束时间,以及总体严重程度。突发事件的更新会描述突发事件随时间推移的变化情况,包括其状态和当时受影响的位置。突发事件信息通过 JSON 架构提供。
JSON 架构中的字段标记为稳定和不稳定。通常,ID 字段被视为稳定,而显示名称等字段被视为不稳定,可能会在没有警告的情况下发生更改。仅在与外部系统或楼宇自动化系统集成时使用稳定字段。请参阅我可以构建集成来以编程方式使用Google Cloud 服务运行状况信息中心中显示的数据吗?。
常见问题解答
在哪里可以找到以前产品故障和中断的相关信息?
Google Cloud 服务健康状况会记录Google Cloud 产品的中断和服务中断情况,最长可保留 5 年。信息中心的概览标签页会按语言区域显示商品的当前状态。如需查看过去一年内产品中断和服务中断的相关信息,请点击信息中心上的查看历史记录。如需查看某产品过去 5 年内的服务中断历史记录,请点击该产品的查看更多。
如何查看 Google Cloud 产品的地区性状态信息?
Google Cloud 服务运行状况页面会按地区和全球语言区域显示所有 Google Cloud 产品的状态。如需查看多区域的状态,请选择特定区域的标签页。
我可以构建集成来以编程方式使用 Google Google Cloud 服务运行状况中显示的数据吗?
可以,您可以通过以下方式使用 Google Cloud 服务运行状况页面上显示的数据:
- 通过 RSS Feed
通过 JSON 历史记录文件
您可以点击此处下载 JSON 文件的架构。
RSS Feed 和 JSON 历史记录文件提供突发事件状态信息,可通过集成使用。
使用 JSON 历史记录文件中标记为稳定的字段,而不是标记为不稳定的字段。示例:如果您尝试以编程方式识别影响特定产品集的突发事件,请使用产品 ID (affected_products>id
),而不是其显示名称。
商品 ID 与商品名称
过去, Google Cloud 服务运行状况未提供用于查找给定产品 ID 的机制。自 2023 年初起,Google Cloud 服务健康度推出了产品目录,为所有产品提供了此映射。商品 ID 提供了一个稳定的字段,可用作键值,同时允许更改商品的显示名称。在程序化地识别影响一组产品的突发事件时,请优先引用产品 ID。
如果我在区域性状态报告和名称更改为 Google Cloud Service Health 信息中心之前,基于 Google Cloud Service Health 预构建了集成,该怎么办?
在 RSS Feed 和 JSON 文件中,区域性状态信息是对在引入区域性状态报告和更改Google Cloud 服务健康状况名称之前已发布的信息的补充。因此,您现有的集成应该会继续正常运行。不过,如果您想通过集成使用地区性状态信息,则需要对其进行修改。
下面详细介绍了如何在 RSS Feed 和 JSON 文件中呈现地区信息:
RSS Feed
地区性状态信息是 Feed 信息的新补充,在引入地区性状态之前,我们提供的是 Feed 信息。系统会将报告为受影响的所有位置附加到 RSS 消息中。
JSON 文件
在地区性状态更新之前, Google Cloud 发布了一系列服务中断,其中每项服务中断都包含受影响产品的列表以及每项服务中断的状态更新列表(如果有)。这些状态更新包含一个非结构化字符串字段,该字段可能包含或不包含位置信息。
现在, Google Cloud 会像以前一样发布一系列事故。不过,对于每项突发事件,每项状态更新都包含以下新字段:
updates.affected_locations
:包含发布更新时受影响地点的结构化列表。每个更新记录和most_recent_update
记录都包含此字段。currently_affected_locations
:包含有关受相应事故直接影响的地理位置的最新信息。与updates.affected_locations
不同,此列表在问题解决后(即end
设置为非空值时)会变为空。previously_affected_locations
:包含之前在事故中受到影响但目前未受影响的位置列表。随着问题的进展,部分地区可能会有服务中断解决方案。这些位置仍会存在于previously_affected_locations field
中。在相应事故得到解决后(即end
设为非空值时),此字段会包含在此事故期间受影响的所有位置的列表。
如果我遇到了问题,但信息中心未列出这个问题,该怎么办?
Google Cloud Service Health 信息中心会提供影响 Google Cloud 产品和服务的任何重大突发事件的当前和历史状态信息。如果您遇到信息中心未列出的问题,则可能是只有您的项目或实例遇到了这个问题,或者这个问题影响的客户数量很有限。范围较小的事故可能会在客户服务门户上列出。如果您遇到了未在信息中心列出的问题,请与客户服务团队联系。
如果您已在使用 Personalized Service Health 信息中心,请查看该信息中心是否列出了此问题,以确定您的项目或实例是否受到影响。
如果您使用的是 Google Cloud 控制台,可以点击右上角的发送反馈工具来报告问题。
谁负责更新信息中心?
全球 Customer Care 团队使用许多不同类型的信号监控产品状态,如果发生广泛性问题,将更新信息中心。如果需要,他们将在事件解决后发布详细的事件分析报告。