观察 GKE 集群

本页面介绍如何访问 Cloud Operations for GKE 以及旧版 Logging 和 Monitoring 监控信息中心,以及如何使用 Cloud Operations for GKE 监控信息中心。

访问监控信息中心

  1. 从 Cloud Console 转到 Monitoring

    转到 Monitoring

  2. 选择信息中心,然后选择以下某个信息中心:

    • 对于启用了 Cloud Operations for GKE 的集群,请选择名为 GKE 的信息中心。

    • 对于启用了旧版 Logging 和 Monitoring 的集群,请选择名为 GKE 集群的信息中心。

    如果您没有看到任何集群,或者没有看到集群中的所有资源,请参阅 排查 GKE 信息中心问题

Cloud Operations for GKE 信息中心界面

Cloud Operations for GKE 信息中心分为以下几个部分:

显示 Cloud Operations for GKE 信息中心表格视图。

  1. 通过过滤栏,您可以在信息中心内选择要过滤的 GKE 资源。

  2. 通过提醒时间轴,您可以为信息中心选择特定时间范围,并且提醒时间轴会显示该时间范围内的提醒摘要。

  3. 这些表格按照类型(集群、命名空间、节点、工作负载、服务、Pod、容器)显示 GKE 机群。每行显示了一个带有指标的资源。点击某行会显示一个面板,其中包含有关该资源的更多详细信息。

过滤栏

通过过滤栏,您可以过滤信息中心中显示的 GKE 资源,以显示您感兴趣的数据。它还会显示集群中与过滤选项相关的其他资源信息。

使用过滤栏

如需过滤信息中心中的数据,请完成以下步骤。

  1. 点击过滤栏以显示过滤选项。

    显示过滤选项。

  2. 选择要过滤的 Kubernetes 资源,然后选择资源名称。

    如果有多个资源使用该名称,请选择要过滤的特定资源实例。

  3. 点击应用

    系统会刷新信息中心以显示更新后的信息。

使用过滤栏时,请注意以下几点:

  • 向信息中心应用过滤条件后,您可以再次点击过滤栏以过滤其他资源。

  • 某些资源可能有太多选项显示在过滤条件菜单中。在这种情况下,您必须先过滤父级资源以缩小选项范围。例如,您可能有太多 Pod 要显示,因此可以先按集群或任何其他 Kubernetes 资源进行过滤,以缩小 Pod 列表的范围。

  • 为了阐明每个过滤条件字符串的范围,过滤条件界面可能会根据您选择来过滤的资源默认显示其他过滤条件。例如,如果您过滤特定的命名空间,则过滤条件将添加该命名空间所在的集群。

    显示系统选择的其他过滤选项。

提醒时间轴

您可以通过提醒时间轴查看集群中的提醒。通过提醒的时间轴,您可以查看所选时间范围内发生的提醒政策违规行为。如果您将指针放在时间轴的红色区域上,系统会显示事件卡片。

使用 Kubernetes 提醒的时间轴视图。

每个事件卡片都会提供有关时间轴中显示的一个提醒的详细信息。

通过时间范围下拉菜单,您可以为提醒时间轴以及信息中心中的表格设置时间范围。

使用事件卡片

将鼠标悬停在提醒时间轴上时,信息中心会显示每项提醒政策违规行为的事件卡片。带有 的提醒表示突发事件仍未解决,而带有 的提醒表示突发事件已解决。

如果您选择的时间范围的提醒超过 2 次,您可以使用鼠标滚轮滚动事件卡片。您还可以点击查看所有提醒在面板中显示所有事件卡片。

如需查看“提醒”中的提醒突发事件,请点击查看突发事件

关联资源部分,事件卡片显示与提醒关联的资源。如果信息中心无法确定与提醒关联的资源,事件卡片会提供更新提醒政策链接,可让您转到修改提醒政策页面。在这里,您可以使用额外的信息更新提醒政策,以便信息中心能够找到关联的资源。

信息中心表

信息中心会显示每个 GKE 资源的指标表。这些表会显示以下列:

  • 名称:资源的显示名。

  • 提醒数量:在选定时间范围内,该资源及其子资源的打开和已确认提醒的数量。

  • 服务等级目标 (SLO):用于说明通过所选服务等级指标 (SLI) 衡量的预期服务性能。

  • 容器重启次数:容器在选定时间范围内重启的次数。

  • 错误日志:基于选定时间范围与实体关联的错误日志数。

  • CPU 利用率:在选定时间范围内可分配给资源的容器的 CPU 利用率。

  • 内存利用率:在选定时间范围内可分配给资源的容器的内存利用率。

  • 磁盘利用率:在选定时间范围内可分配给资源的 Pod 的磁盘利用率。与前两列相比,此指标由 Pod 创建,并且不会显示在容器表中。

对于利用率列,请注意以下信息:

  • 这些列未显示比率,而显示 2 个不同的数据点(用 / 分隔)。第一个数字显示针对该资源请求的总容量。第二个数字显示所请求容量的利用率百分比。

  • 火花谱线图显示页面上选择的时间范围内的利用率数据。

配置信息中心表

您可以配置信息中心中的表,以显示您最有兴趣查看的信息。使用过滤栏旁边的配置资源表下拉菜单,您可以选择要显示的列。您还可以选择是否在表中显示火花谱线图。

请注意,这些配置适用于信息中心内的所有表。

“配置资源表”下拉菜单的显示内容。

如需配置您的项目,请完成以下步骤:

  1. 选择“配置资源表”下拉菜单。

  2. 选择要在表中显示的列。

    名称未查看的提醒列是必须选择的列。

  3. 选择是否显示火花谱线图。

  4. 点击应用以进行更改。

查看资源详细信息

默认情况下,Cloud Operations for GKE 信息中心会显示每个 Kubernetes 资源的摘要行。如果点击表中的某一行,则系统会显示该资源的详细信息。

显示资源详细信息。

资源详细信息面板显示所选资源的相关信息。它还提供提醒标签页(显示关于待处理提醒的信息)、事件标签页(显示与所选资源关联的 Kubernetes 事件)、指标标签页(显示图表中的指标)和日志标签页(显示资源生成的日志)。

如需在“提醒”中查看提醒突发事件,请点击查看提醒

查看 Kubernetes 事件

资源详细信息面板上的事件标签页显示与资源关联的 Kubernetes 事件。Kubernetes 事件可用于除容器以外的所有资源。

显示资源详细信息的“事件”标签页。

事件标签页含有一系列卡片,它们显示每个事件的相关信息。如果事件是在较低的资源级层中发生的,卡片还会提供关联资源的链接。您可以点击查看日志来打开日志浏览器,以查看与事件关联的日志。您也可以点击复制消息以将日志消息复制到剪贴板。

如需在日志浏览器中查看所有事件,请点击在 Logging 中查看。日志浏览器会打开并显示与 Kubernetes 事件关联的所有日志。

管理 SLO

您可以使用服务等级目标 (SLO) 来跟踪应用的运行状况和性能。配置信息中心以显示服务等级目标 (SLO) 列后,您可以查看应用是否达到了其 SLO。资源的 SLO 可能处于以下状态之一:

  • 运行状况良好:表示资源达到指定的 SLO。此状态带有绿色指示图标。

  • 超出错误预算:表示资源已用尽其错误预算,这意味着额外错误事件可能会导致资源违反其 SLO。此状态带有黄色指示图标。

  • 运行状况不佳:表示资源无法满足 SLO 且触发了提醒。此状态带有红色指示图标。

  • 无状态:表示该 SLO 不存在任何数据。此状态带有灰色指示图标。

如需详细了解这些概念,请参阅服务监控中的概念

SLO 详细信息

您只能为以下 Kubernetes 资源定义 SLO:命名空间工作负载Kubernetes 服务。如需查看有关资源 SLO 合规性的详细信息,请点击资源以打开详细信息面板。在详细信息面板上,点击 SLO 标签页。

在详细信息面板中显示 SLO 标签页。

创建 SLO

您可以从 Cloud Operations for GKE 监控信息中心为您的 Kubernetes 资源创建 SLO。

GKE 信息中心页面中,点击 Kubernetes 资源所在行中的 以打开创建服务等级目标 (SLO) 面板。

在资源的详细信息面板上,点击 创建 SLO 以打开创建服务等级目标 (SLO) 面板。

显示 SLO 创建面板。

如需了解如何填写表单以创建 SLO,请参阅创建 SLO 指南。

在日志浏览器中查看日志

您可以通过日志浏览器搜索和查看集群的日志数据。借助日志浏览器,您可以查看日志、解析和分析日志数据以及优化查询参数。

如需详细了解如何使用日志浏览器,请参阅 Logging 文档。

问题排查

如需了解问题排查信息,请参阅排查 GKE 信息中心问题