观察您的 Kubernetes 集群

借助 Stackdriver,您只需使用一个信息中心即可探究 Google Kubernetes Engine 集群和应用容器中的监控信息及日志记录信息。

开始

  1. 在 GCP Console 中,选择 Stackdriver > Monitoring 以转到 Stackdriver Monitoring 首页。您可以点击以下链接转到该首页:

    转到 Stackdriver Monitoring 控制台

  2. 选择包含您的 Google Kubernetes Engine 集群的工作区

    • 大多数情况下,工作区是包含 Google Kubernetes Engine 集群的 Google Cloud Platform 项目。
    • 系统可能会提示您创建工作区,否则您无法在帐号列表中看到您的 GCP 项目。在这种情况下,您应该使用 GCP 项目创建一个新的工作区。如需了解详情,请参阅创建 Stackdriver 帐号
    • 要在同一个信息中心中监控多个项目的集群,您必须创建一个与您的 GCP 项目不同的工作区。如需了解详情,请参阅监控多个项目
  3. 导航到 Kubernetes Monitoring 控制台:

    1. 如果您使用的是旧版 Stackdriver,请选择资源 > Kubernetes Engine

    2. 如果您使用的是 Stackdriver Kubernetes Engine Monitoring,请选择资源 > Kubernetes Engine NEW

      仅当您拥有使用 Stackdriver 的集群时,才会看到这些菜单项。

    转到 Stackdriver Kubernetes Monitoring 控制台

    此控制台仅显示使用 Stackdriver Kubernetes Monitoring 的集群。如果您没有看到任何集群,或者没有看到集群中的全部资源,请参阅本页面的问题排查部分。

Stackdriver Kubernetes Engine Monitoring 信息中心界面

正如以下屏幕截图中的红色数字所示,Stackdriver Kubernetes Engine Monitoring 信息中心分为多个部分:

Kubernetes 表格视图

  1. 信息中心工具栏提供针对其下方显示的时间轴的信息中心设置、过滤和控制。

  2. 借助时间轴事件选择器,您可以将鼠标悬停在时间轴上,以显示违规行为提醒摘要。请参阅下方的时间轴事件部分。

  3. 在详细信息部分,您可从下列三个查看标签页中任选其一:基础架构工作负载服务。下方的查看标签页部分讨论了这些查看标签页。

查看标签页

信息中心提供多个查看标签页,这些标签页以不同方式组织您的集群信息。可能的查看标签页如下:

  • 基础架构。按以下层次结构汇总 Kubernetes 资源:集群 > 节点 > Pod > 容器

  • 工作负载。按以下层次结构汇总 Kubernetes 资源:集群 > 命名空间 > 工作负载 > Pod > 容器

  • 服务。按以下层次结构汇总 Kubernetes 资源:集群 > 命名空间 > 服务 > Pod > 容器

您可以从详细信息部分上方的标签页中选择您的查看模式:

Kubernetes 活动详细信息

该表经过排序,首先显示带有未结事件的 Kubernetes 资源。您可以点击每个 Kubernetes 资源前面的展开箭头 (▸),以查看该资源的任何子组件。以下屏幕截图显示了展开后的 Kubernetes 资源层次结构:

Kubernetes 活动详细信息

每个资源名称前面都有一个指示符,如果该指示符为红色,则表示该资源或层次结构中更低层次的资源中发生了事件。要查看提醒详细信息,请点击 Name。如需了解详情,请参阅下方的提醒详细信息部分。

列定义

以下是对这三个标签页中所显示列的说明。显示的值基于所选的时间范围:

  • 名称:您分配给 Kubernetes 资源的标签。
  • 资源类型:可能的值包括集群容器命名空间节点Pod工作区
  • 准备就绪:可用的节点实例数量。
  • 突发事件:违规行为提醒次数。
  • CPU 利用率:与所请求 CPU 资源相比的利用率百分比。
  • 内存利用率:所请求内存的利用率百分比。
  • 内存使用总量 (Total Memory Usage):分配的内存量。

提醒详细信息

默认情况下,Kubernetes Monitoring 信息中心为每个 Kubernetes 资源显示一行摘要。要查看资源详细信息,请点击 Kubernetes 资源前面的展开箭头 (▸)。

如果您点击条目前面的红色或绿色按钮,则会看到一个包含提醒详细信息的面板:

Kubernetes 活动详细信息

此详细信息视图将事件、系统指标和日志汇总到一个视图中。

时间轴活动

您也可以从信息中心顶部的时间轴活动选择器访问提醒详细信息面板。通过事件时间轴,您可以查看选定时间范围内发生的违规行为提醒。如果您将鼠标悬停在时间轴中的红色区域上,则会出现活动卡:

Kubernetes 时间轴视图

活动卡提供与时间轴中显示的各个事件有关的详细信息。如果您点击单个事件卡,则会在新面板中看到该突发事件的提醒详细信息。

气泡图

Kubernetes Monitoring 信息中心提供一个将数据以气泡形式直观呈现的功能,可让您探究指标中显示的趋势和模式。此外,它还提供集群中节点的运行状况信息概览。

气泡图示例

查看图表时请牢记以下信息:

  • 每个气泡代表一个节点,其大小(面积大小)表示该节点中的 Pod 数量。

  • 灰色气泡表示状况良好的节点;红色气泡表示尚未解决突发事件的节点。

  • 对于测试版,您可以选择 CPU 使用率内存使用量作为图表的轴。如果节点使用 GPU,您还可以选择 GPU 使用率 (GPU Usage)。

问题排查

如果您没有在信息中心内看到 Kubernetes 资源,请检查以下内容:

  • 是否在页面顶部选择了正确的 GCP 项目? 如果没有,请使用页面顶部的下拉菜单选择项目。您必须选择要查看其数据的项目。

  • 您的项目是否有活动? 如果您刚刚创建集群,请稍等几分钟,以便其填充数据。如需了解详情,请参阅安装 Stackdriver 支持

  • 时间范围是否过窄? 您可以转到页面顶部信息中心工具栏中的时间菜单,借助此菜单选择其他时间范围或指定自定义范围。

  • 您是否拥有查看信息中心的适当权限? 在查看服务的部署详细信息或 GCP 项目的指标时,如果您看到以下任一权限遭拒的错误消息,则需要更新您的 Cloud Identity and Access Management 角色,使其包括 roles/monitoring.viewerroles/viewer

    • You do not have sufficient permissions to view this page
    • You don't have permissions to perform the action on the selected resources

    如需了解详情,请转到预定义角色

  • 您的集群的服务帐号是否有权将数据写入 Stackdriver? 如果您在 API 信息中心中看到较高的错误率,则您的服务帐号可能缺少以下角色:

    • metricWriter
    • logWriter
    • Stackdriver Resource Metadata Writer
此页内容是否有用?请给出您的反馈和评价:

发送以下问题的反馈:

此网页
Stackdriver Monitoring
需要帮助?请访问我们的支持页面