本文档介绍如何创建一组建议的自定义信息中心以监控集群。
创建信息中心的权限
如需创建信息中心,您的 Google 账号必须拥有以下权限才能创建信息中心:
monitoring.dashboards.create
monitoring.dashboards.delete
monitoring.dashboards.update
如果您的账号具有以下任一角色,那么您将拥有这些权限。您可以在 Google Cloud 控制台中检查您的权限:
monitoring.dashboardEditor
monitoring.editor
- 项目
editor
- 项目
owner
此外,如需使用 gcloud
(gcloud CLI) 创建信息中心,您的 Google 账号必须拥有 serviceusage.services.use
权限。
如果您的账号具有下列角色之一,则拥有此权限:
roles/serviceusage.serviceUsageConsumer
roles/serviceusage.serviceUsageAdmin
roles/owner
roles/editor
- 项目
editor
- 项目
owner
推荐的信息中心
创建集群(管理员或用户)后,最佳做法是使用 Cloud Monitoring 创建以下信息中心,让您的 GKE on VMware 运营团队监控集群运行状况:
如果您的集群还运行 Windows Server 操作系统节点,您可以创建以下信息中心来监控 Windows 节点和 Pod 的状态:
- Windows 节点状态信息中心
- Windows Pod 状态信息中心
如果启用了 Cloud Monitoring,则系统会在管理员集群安装过程中自动创建信息中心。
本部分介绍如何创建这些信息中心。如需详细了解以下部分中介绍的信息中心创建流程,请参阅通过 API 管理信息中心。
创建控制层面正常运行时间信息中心
GKE on VMware 控制平面由 API 服务器、调度器、控制器管理器和 etcd 组成。如需监控控制层面的状态,请创建一个监控这些组件的状态的信息中心。
下载信息中心配置:
control-plane-uptime.json
。运行以下命令,使用配置文件创建自定义信息中心:
gcloud monitoring dashboards create --config-from-file=control-plane-uptime.json
在 Google Cloud 控制台中,选择 Monitoring 或使用如下按钮:
选择资源 > 信息中心,并查看名为 GKE On-Prem 控制层面正常运行时间的信息中心。每个用户集群的控制层面正常运行时间从管理员集群中的单独命名空间中收集。namespace_name 字段是用户集群名称。
(可选)创建提醒政策。
创建 pod 状态信息中心
如需创建包含每个 pod 的阶段以及每个容器的重启次数和资源使用情况的信息中心,请执行以下步骤。
下载信息中心配置:
pod-status.json
。运行以下命令,使用配置文件创建自定义信息中心:
gcloud monitoring dashboards create --config-from-file=pod-status.json
在 Google Cloud 控制台中,选择 Monitoring 或使用如下按钮:
选择资源 > 信息中心,并查看名为 GKE On-Prem pod 状态的信息中心。
(可选)创建提醒政策。
创建节点状态信息中心
如需创建节点状态信息中心以监控节点情况、CPU、内存和磁盘用量,请执行以下步骤:
下载信息中心配置:
node-status.json
。运行以下命令,使用配置文件创建自定义信息中心:
gcloud monitoring dashboards create --config-from-file=node-status.json
在 Google Cloud 控制台中,选择 Monitoring 或使用如下按钮:
选择资源 > 信息中心,并查看名为 GKE On-Prem 节点状态的信息中心。
(可选)创建提醒政策。
创建虚拟机运行状况信息中心
虚拟机运行状况信息中心会监控管理员集群和用户集群中虚拟机的 CPU、内存和磁盘资源争用信号。
如需创建虚拟机运行状况信息中心,请执行以下操作:
确保将
stackdriver.disableVsphereResourceMetrics
设置为 false。请参阅用户集群配置文件。下载信息中心配置:
vm-health-status.json
。运行以下命令,使用配置文件创建自定义信息中心:
gcloud monitoring dashboards create --config-from-file=vm-health-status.json
在 Google Cloud 控制台中,选择 Monitoring 或使用如下按钮:
选择资源>信息中心并查看名为 GKE On-Prem 虚拟机运行状况的信息中心。
(可选)创建提醒政策。
创建节点利用率信息中心
节点利用率信息中心显示集群中的以下利用率:
- 节点 CPU 分配比率
- 可用于安排 Kubernetes 工作负载的 vCPU
- 节点内存分配比率
- 可用于安排 k8s 工作负载的内存
- 节点磁盘利用率
如需创建节点利用率信息中心,请执行以下操作:
下载信息中心配置:
node-utilization.json
。使用此配置文件通过运行以下命令创建自定义信息中心:
gcloud monitoring dashboards create --config-from-file=node-utilization.json
在 Google Cloud 控制台中,选择 Monitoring 或使用如下按钮:
选择资源 > 信息中心,并查看名为 GKE On-Prem 节点利用率的信息中心。
(可选)创建提醒政策。
创建 Anthos 利用率计量信息中心
Anthos 利用率计量信息中心会按命名空间和 Pod 标签显示集群中的 CPU 和内存利用率。
如需创建 Anthos 利用率计量信息中心,请执行以下操作:
下载信息中心配置:
anthos-utilization.json
。使用此配置文件通过运行以下命令创建自定义信息中心:
gcloud monitoring dashboards create --config-from-file=anthos-utilization.json
在 Google Cloud 控制台中,选择 Monitoring 或使用如下按钮:
选择资源 > 信息中心,并查看名为 Anthos 利用率计量的信息中心。
(可选)创建提醒政策。