观察 GKE 集群

本页面介绍如何访问 Cloud Operations for GKE 以及旧版 Logging 和 Monitoring 监控信息中心,以及如何使用 Cloud Operations for GKE 监控信息中心。

访问监控信息中心

  1. 从 Cloud Console 转到 Monitoring

    转到 Monitoring

    如果您从未使用过 Cloud Monitoring,那么您在 Google Cloud Console 中首次访问 Monitoring 时,系统会自动创建一个工作区,并将您的项目与该工作区相关联。否则,如果您的项目未与工作区关联,则系统会显示一个对话框,您可以创建一个工作区,也可以将您的项目添加到现有工作区。我们建议您创建一个工作区。完成选择后,请点击添加

  2. 选择信息中心,然后选择以下某个信息中心:

    • 对于启用了 Cloud Operations for GKE 的集群,请选择名为 GKE 的信息中心。

    • 对于启用了旧版 Logging 和 Monitoring 的集群,请选择名为 GKE 集群的信息中心。

    如果您没有看到任何集群,或者没有看到集群中的所有资源,请参阅 排查 GKE 信息中心问题

Cloud Operations for GKE 信息中心界面

Cloud Operations for GKE 信息中心分为以下几个部分:

显示 Cloud Operations for GKE 信息中心表格视图。

  1. 通过过滤栏,您可以在信息中心内选择要过滤的 GKE 资源。

  2. 通过提醒时间轴,您可以为信息中心选择特定时间范围,并且提醒时间轴会显示该时间范围内的提醒摘要。

  3. 这些表格按照类型(集群、命名空间、节点、工作负载、服务、Pod、容器)显示 GKE 机群。每行显示了一个带有指标的资源。点击某行会显示一个面板,其中包含有关该资源的更多详细信息。

过滤栏

通过过滤栏,您可以过滤信息中心中显示的 GKE 资源,以显示您感兴趣的数据。它还会显示集群中与过滤选项相关的其他资源信息。

使用过滤栏

如需过滤信息中心中的数据,请完成以下步骤。

  1. 点击过滤栏以显示过滤选项。

    显示过滤选项。

  2. 选择要过滤的 Kubernetes 资源,然后选择资源名称。

    如果有多个资源使用该名称,请选择要过滤的特定资源实例。

  3. 点击应用

    系统会刷新信息中心以显示更新后的信息。

使用过滤栏时,请注意以下几点:

  • 向信息中心应用过滤条件后,您可以再次点击过滤栏以过滤其他资源。

  • 某些资源可能有太多选项显示在过滤条件菜单中。在这种情况下,您必须先过滤父级资源以缩小选项范围。例如,您可能有太多 Pod 要显示,因此可以先按集群或任何其他 Kubernetes 资源进行过滤,以缩小 Pod 列表的范围。

  • 为了阐明每个过滤条件字符串的范围,过滤条件界面可能会根据您选择来过滤的资源默认显示其他过滤条件。例如,如果您过滤特定的命名空间,则过滤条件将添加该命名空间所在的集群。

    显示系统选择的其他过滤选项。

提醒时间轴

您可以通过提醒时间轴查看集群中的突发事件。通过突发事件的时间轴,您可以查看所选时间范围内发生的提醒政策违规行为。如果您将指针放在时间轴的红色区域上,系统会显示事件卡片。

使用 Kubernetes 提醒的时间轴视图。

每个事件卡片都会提供有关时间轴中显示的一个突发事件的详细信息。

通过时间范围下拉菜单,您可以为提醒时间轴以及信息中心中的表格设置时间范围。

使用事件卡片

将鼠标悬停在提醒时间轴上时,信息中心会显示每项提醒政策违规行为的事件卡片。带有 的提醒表示突发事件仍未解决,而带有 的提醒表示突发事件已解决。

如果您选择的时间范围的提醒超过 2 条,您可以点击查看全部以查看所有提醒。

如需查看“提醒”中的提醒突发事件,请点击查看突发事件

关联资源部分,事件卡片显示与提醒关联的资源。如果信息中心无法确定与提醒关联的资源,事件卡片会提供更新提醒政策链接,可让您转到修改提醒政策页面。在这里,您可以使用额外的信息更新提醒政策,以便信息中心能够找到关联的资源。

信息中心表

信息中心会显示每个 GKE 资源的指标表。这些表会显示以下列:

  • 名称:资源的显示名。

  • 提醒数量:在选定时间范围内,该资源及其子资源的打开和已确认提醒的数量。

  • 服务等级目标 (SLO):用于说明通过所选服务等级指标 (SLI) 衡量的预期服务性能。

  • 容器重启次数:容器在选定时间范围内重启的次数。

  • 错误日志:基于所选时间范围与实体关联的错误日志数。

  • CPU 利用率:在选定时间范围内可分配给资源的容器的 CPU 利用率。

    • 所使用的指标是 kubernetes.io/container/cpu/request_utilization
  • 内存利用率:在选定时间范围内可分配给资源的容器的内存利用率。

    • 所使用的指标是 kubernetes.io/container/memory/request_utilization
  • 磁盘利用率:在选定时间范围内可分配给资源的 Pod 的磁盘利用率。与前几列相比,此指标由 Pod 创建,不会显示在容器表中。

    • 所使用的指标是 kubernetes.io/pod/volume/utilization

对于利用率列,请注意以下信息:

  • 这些列未显示比率,而显示 2 个不同的数据点(用 / 分隔)。第一个数字显示针对该资源请求的总容量。第二个数字显示所请求容量的利用率百分比。

  • 火花谱线图显示页面上选择的时间范围内的利用率数据。

配置信息中心表

您可以配置信息中心中的表,以显示您最有兴趣查看的信息。使用过滤栏旁边的配置资源表下拉菜单,您可以选择要显示的列。您还可以选择是否在表中显示火花谱线图。

请注意,这些配置适用于信息中心内的所有表。

“配置资源表”下拉菜单的显示内容。

如需配置您的项目,请完成以下步骤:

  1. 选择“配置资源表”下拉菜单。

  2. 选择要在表中显示的列。

    名称未查看的提醒列是必须选择的列。

  3. 选择是否显示火花谱线图。

  4. 点击应用以进行更改。

查看资源详细信息

默认情况下,Cloud Operations for GKE 信息中心会显示每个 Kubernetes 资源的摘要行。如果点击表中的某一行,则系统会显示该资源的详细信息。

显示资源详细信息。

资源详细信息面板显示所选资源的相关信息。它还提供了突发事件标签页,显示关于打开事件的信息,指标标签页显示了图表中的指标,日志标签页显示资源生成的日志。

如需在“提醒”中查看提醒突发事件,请点击查看提醒

管理 SLO

您可以使用服务等级目标 (SLO) 跟踪应用的运行状况和性能。在配置信息中心以显示服务等级目标 (SLO) 列后,您可以查看您的应用是否满足其 SLO。您的资源的 SLO 可能具有以下状态之一:

  • 运行状况良好:表示资源满足指定的 SLO。此状态带有绿色指示图标。

  • 超出错误预算:表示资源已用尽其错误预算,这意味着额外错误事件可能会导致资源违反其 SLO。此状态带有黄色指示图标。

  • 运行状况不佳:表示资源无法满足 SLO 且触发了提醒。此状态带有红色指示图标。

  • 无状态:表示该 SLO 不存在任何数据。此状态带有灰色指示图标。

如需详细了解这些概念,请参阅服务监控中的概念

SLO 详细信息

您只能为以下 Kubernetes 资源定义 SLO:命名空间工作负载Kubernetes 服务。如需查看资源的 SLO 合规性的详细信息,请点击该资源,打开详细信息面板。在详细信息面板上,点击 SLO 标签页。

在详细信息面板中显示 SLO 标签页。

创建 SLO

您可以通过 Cloud Operations for GKE 监控信息中心为 Kubernetes 资源创建 SLO。

GKE 信息中心页面中,点击 Kubernetes 资源所在行中的 以打开创建服务等级目标 (SLO) 面板。

在资源的详细信息面板上,点击 创建 SLO 以打开创建服务等级目标 (SLO) 面板。

显示 SLO 创建面板。

如需了解如何填写表单以创建 SLO,请参阅创建 SLO 指南。

问题排查

如需了解问题排查信息,请参阅排查 GKE 信息中心问题