观察 GKE 集群

本页面介绍如何访问 Kubernetes Engine Operations 和旧版 Logging 和 Monitoring 监控信息中心,以及如何使用 Kubernetes Engine Operations 监控信息中心。

访问监控信息中心

  1. 从 Cloud Console 转到 Monitoring

    转到“监控”

    如果您的 Google Cloud 项目已与工作区关联,则系统会显示 Cloud Monitoring 首页。否则,系统会自动创建工作区。一般来说,此过程不需要您的互动,但需要一些时间才能完成。在某些情况下,系统会显示 将项目添加到工作区 对话框。在这种情况下,最简单的操作是创建新的工作区。

  2. 选择 信息中心

    • 如果您的集群使用 Kubernetes Engine Operations,请选择名为 Kubernetes Engine New 的信息中心。

    • 如果您的集群使用旧版 Logging 和 Monitoring,请选择名为 Kubernetes Engine 的信息中心。

      如果您没有看到任何集群,或者没有看到集群中的所有资源,请参阅 排查 GKE 信息中心问题

查看指标

对于配置了 Kubernetes Engine Operations 的集群,可以使用以下受监控的资源类型:

例如,要使用 Metrics Explorer 为配置了 Kubernetes Engine Operations 的集群创建 CPU 使用率图表,请执行以下操作:

  1. 在 Google Cloud Console 中,转到 Monitoring 或使用下面的按钮:
    转到 Monitoring
  2. 在 Monitoring 导航窗格中,点击 Metrics Explorer
  3. 确保所选标签页为指标
  4. 点击 Find resource type and metric 对应的框,然后从菜单中选择或者输入资源和指标的名称。在此文本框的各字段中填写以下信息:
    1. 对于资源,选择或输入 Kubernetes 容器
    2. 对于指标,选择或输入 CPU 使用时间
    当以过滤条件形式查看时,这些选择对应于:metric.type="kubernetes.io/container/cpu/core_usage_time" resource.type="k8s_container"

  5. 使用 FilterGroup ByAggregation 菜单修改数据的显示方式。要按命名空间显示数据,请在分组依据中选择 namespace_name。请注意,此选择会自动更新聚合(聚合定义了多个时间序列的组合方式)。如需了解详情,请参阅选择指标

Kubernetes Engine Operations 信息中心界面

Kubernetes Engine Operations 信息中心分为三部分:

显示 Kubernetes Engine Operations 信息中心表格视图。

  1. 信息中心工具栏用于控制观察的时间范围,并提供信息中心设置和过滤条件。

  2. 通过时间轴事件选择器,您可以选择特定时间并显示提醒摘要。如需了解详情,请转到 时间轴事件 部分。

  3. 您可以在详细信息部分选择集群信息的呈现方式。下一部分将详细介绍您的选择。

视图标签

Kubernetes Engine Operations 信息中心查看标签页可让您按不同层次结构来组织集群信息:

  • Infrastructure:按 Cluster汇总资源, then按 Node汇总,再按 Pod 汇总,最后由 Container 提供。

  • Workloads:按 Cluster汇总资源,然后按 Namespace 汇总,再按 Workloads 汇总,再按 Pod 汇总,最后由 Container 提供。

  • Services:按 Cluster汇总资源,然后按 Namespace 汇总,再按 Service 汇总,再按 Pod 汇总,最后由 Container 提供。

选择 Kubernetes Engine Operations 查看模式。

该表经过排序,首先显示带有未解决突发事件的资源。要查看资源的子组件,请点击该资源对应的“展开”图标 。以下屏幕截图显示了展开后的 Kubernetes 资源层次结构:

显示 Kubernetes 资源的扩展层次结构。

每个资源名称前面都有一个指示图标(红色或绿色)。红色指示图标表示资源或其子组件具有未解决的突发事件。绿色指示图标表示没有未解决的突发事件:要查看资源的提醒详细信息,指标和日志,请点击相应的行。如需了解详情,请转到 查看提醒,指标,日志和详细信息 部分。

列定义

Kubernetes Engine Operations 信息中心会根据所选时间范围分列显示数据:

  • 名称:您分配给 Kubernetes 资源的标签。
  • 资源类型:可能的值包括集群容器命名空间节点Pod工作区
  • 准备就绪:在指定实体中汇总的正在运行的 pod 数。复选指示图标表示实体至少有 1 个 pod 已准备就绪且正在运行。请注意,此 准备就绪 指示图标与 GKE 控制台中的 Pod 状态不同。准备就绪 仅表示该 pod 已准备好传送流量,而 Pod 状态 显示其他状态,如 未投放正在运行崩溃循环
  • 突发事件:违规行为提醒次数。
  • CPU 利用率:与所请求 CPU 资源相比的利用率百分比。
  • 内存利用率:所请求内存的利用率百分比。
  • Total Memory Usage:分配的内存量。

查看提醒,指标,日志和详细信息

默认情况下,Kubernetes Engine Operations 信息中心为每个 Kubernetes 资源显示一行摘要。每个包含子组件的资源都带有一个展开式 按钮,所有资源都带有红色或绿色指示图标。红色指示图标表示资源或其子组件具有未解决的突发事件。绿色指示图标表示没有未解决的突发事件:

  • 要查看资源的子组件,请点击该资源对应的“展开”图标
  • 要打开显示突发事件摘要,系统指标,日志和资源详细信息的窗格,请点击资源所在的行。点击某行时,显示的信息取决于资源类型。例如,当您点击某个集群的行时,您不会看到指标或日志信息。但是,当您点击广告连播行时,系统会显示此信息。

    在以下示例中,节点上没有未解决的突发事件:

    显示 Kubernetes 提醒详细信息。

    要转到 Cloud Console 中的“Kubernetes”页面,请点击 管理

时间轴活动

您还可以通过 Kubernetes Engine Operations 信息中心时间轴事件选择器访问提醒详细信息面板。通过事件时间轴,您可以查看选定时间范围内发生的违规行为提醒。如果您将指针放在时间轴上的红色区域上,系统会显示活动卡片:

使用 Kubernetes 提醒的时间轴视图。

每个活动卡片都会提供有关时间轴中显示的一个事件的详细信息。要查看某个活动的提醒详细信息,请点击其活动卡片。

问题排查

如需了解问题排查信息,请参阅 排查 GKE 信息中心问题