查看服务运行状况和突发事件


当 Google Kubernetes Engine (GKE) 集群或应用遇到问题时,快速确定问题是由内部原因还是更广泛的Google Cloud 服务中断引起的至关重要。如果根本原因是已知的平台突发事件,那么花时间进行本地调试效率不高。

您可以使用本页面来确定 GKE 集群的问题是否是由范围更广的 Google Cloud 服务中断引起的。了解如何通过以下来源查找官方状态更新、个性化健康状况事件和服务突发事件数据分析:

  • Google Cloud 服务健康状况: Google Cloud服务的状态信息(按区域划分)。
  • Personalized Service Health:与您的项目相关的服务中断。
  • 服务突发事件数据分析和建议:受正在进行的服务突发事件影响的 GKE 集群。

对于正在排查问题并需要了解所发现的问题是否与更广泛的 Google Cloud 服务健康状况事件相关联的平台管理员、运维人员和应用开发者来说,此信息非常重要。如需详细了解我们在Google Cloud 内容中提及的常见角色和示例任务,请参阅常见的 GKE 用户角色和任务

查看 Google Cloud 服务运行状况

Google Cloud 服务健康状况页面提供有关属于 Google Cloud的服务的状态信息。

如需查看与 GKE 相关的突发事件,请前往 Google Cloud Service Health 页面。

查看针对 Google Kubernetes Engine 报告的所有突发事件

查看 Personalized Service Health

借助 Personalized Service Health,您可以识别与您的项目相关的Google Cloud 服务中断。这些中断称为服务健康状况事件,您可以在 Google Cloud 控制台和各种集成点中查看相关信息。

如需查看与您的项目相关的 GKE 突发事件,请在 Google Cloud 控制台的 Personalized Service Health 信息中心内查看服务健康状况事件。

前往 Personalized Service Health

您可以按服务、位置、相关性和状态过滤突发事件。信息中心还会提供突发事件的详细信息,例如影响范围、症状、解决方法和解决进度更新。如需开始使用,请参阅快速入门:在Google Cloud 控制台中查看服务健康状况事件

查看服务突发事件数据分析和建议

借助服务突发事件分析洞见和建议,您可以识别受正在进行的服务突发事件影响的 GKE 集群。

如需获取服务突发事件数据分析,请查看 GKE_RELIABILITY_INCIDENT 子类型的数据分析和建议。您可以使用 Google Cloud 控制台、Google Cloud CLI 或 Recommender API 获取数据分析。如需了解详情,请参阅查看数据洞见和建议

数据分析和建议包括以下信息:

  • 受影响的集群:受突发事件影响的集群。
  • 事件名称:事件标识符,供您在与 Cloud Customer Care 沟通时参考。
  • 突发事件说明:突发事件响应团队提供的有关突发事件的信息。
  • 上次生效时间:上次更新事件相关信息的时间。
  • 缓解措施:事件响应团队建议的缓解措施(如果有)。

在 Google Cloud 突发事件响应团队缓解突发事件并确定该数据洞见不再相关之前,服务突发事件数据洞见会一直显示。从突发事件得到缓解且不再影响您的资源,到相应数据分析被移除,这之间会存在延迟。如果您已实施解决方法,并且不想再看到相应的数据洞见,可以将其关闭。

后续步骤