使用 GKE Enterprise 概览

Google Cloud 控制台中的 GKE Enterprise 概览简要介绍整个舰队。它提供了资源利用率的舰队级视图,可用于优化支出、应用设计和资源分配,包括按舰队和集群汇总的 CPU、内存和磁盘利用率。它还显示了整个舰队内的 Policy Controller 合规性,帮助您确定可以提高安全性的领域以及 Config Sync 软件包的同步状态。

本页面假定您熟悉 Kubernetes 中的资源管理。 如需了解详情,请参阅 Kubernetes 文档中的针对 Pod 和容器的资源管理

Google Cloud 控制台中的 GKE Enterprise 概览供已启用整个 GKE Enterprise 平台的舰队用户使用。如果您启用了 GKE Enterprise,您还可以在 GKE Enterprise 概览中查看舰队概览信息。

查看概览

如需查看概览,请执行以下操作:

选择时间过滤条件

默认情况下,GKE Enterprise 概览会显示过去一小时内的资源利用率。如需更改此时间段,请使用时间过滤条件选项:

  • 选择您要查看舰队容器的平均资源利用率的时间段。选择其中一个预定义选项,或选择自定义以指定自定义时间段。

查看集群和总资源利用率

页面顶部的概览提供集群的概览视图,以及在所选时间段内的总 CPU/内存/磁盘利用率。资源利用率指标是使用舰队集群的系统 Cloud Monitoring 数据生成。如果您在页面顶部看到缺少数据...,请参阅下文的为舰队集群启用系统 Cloud Monitoring

查看集群状态

舰队中的集群部分中,您可以查看舰队中的集群数量,如果它们与舰队的连接出现任何问题,系统会显示警告或错误:例如,如果您未事先取消注册集群就删除它,或者您需要登录 Google Cloud 外部的集群才能查看其详细信息。

  • 如果显示错误或警告,请点击通知以查看一个或多个问题集群并解决问题。
  • 点击查看所有集群以查看舰队的完整集群列表。

查看资源总利用率

总 CPU/内存/磁盘利用率部分显示在所选时间段内所有舰队容器的实际 CPU、内存和磁盘资源的平均使用量(相对于此舰队中集群节点的可分配资源)。Kubernetes 节点上的可分配定义为该节点上的常规 Pod 可以使用的资源数量。

此视图可让您快速了解舰队的资源利用率和可用资源,并可让您通过更详细的指标来进一步调查相关问题:例如,如果 CPU 总利用率非常低,您可以使用以下“按集群”指标确定可以调整大小的集群。

查看详细的资源利用率

本部分详细介绍您的舰队如何使用其云或本地资源的详细视图,包括按舰队列出的资源利用率以及按集群列出的排名靠前和靠后资源利用率。例如,这可以帮助您找到可能未充分利用或过度利用的集群,从而调整其大小。如需详细了解如何计算这些指标,请参阅舰队资源利用率指标

查看一段时间内的资源利用率

通过CPU/内存/磁盘利用率(按舰队),您可以深入了解舰队如何使用资源,除了可分配的资源和实际使用情况之外,您还可以考虑来自集群的已请求资源。每个面板都显示所选时间段内按舰队汇总的 CPU、内存或磁盘使用量的图表,以下信息显示为不同的折线:

  • 可分配:在所有舰队集群节点中可分配的资源数量
  • 已请求:整个舰队中的容器已请求的资源数量
  • 已使用:容器已使用的实际资源数量

如需查看图表上给定点的详细信息,请滚动查看图表上您感兴趣的时间(例如,图表上的实际使用量峰值)。系统会显示该时间的可分配、已请求和实际资源使用量信息。

如需切换图表中的一个或多个线条的显示,请点击图表下方的一个或多个相关指标。

查看资源利用率 - 按集群从高到低排序

下一行显示舰队的 CPU/内存/磁盘利用率 - 按集群从高到低排序,可让您快速了解哪些特定集群是其可分配资源的最大用户。每个面板按利用率顺序(从高到低)列出您的排名靠前的集群。对于每个集群,您可以查看它们在资源使用量方面的图表,以及其在选定时间段内相对于可分配资源的平均资源使用量。此视图有很多作用,例如可以帮助您查看利用率过高的集群。可用资源不足的集群可能无法调度 Pod。

点击您感兴趣的集群的名称以查看更多详细信息。在集群概览中,您可以点击以下链接来展开细目:在 GKE 中查看更多详细信息可在 GKE 信息中心中查看其他节点、工作负载和服务详细信息。

点击查看所有集群的 CPU/内存/磁盘利用率,可查看舰队中所有集群的排序列表。

查看资源利用率最低的集群

最终的资源利用率行显示队列的 CPU/内存/磁盘利用率 -按集群从低到高排序,以便您可以快速了解哪些集群未充分利用。使用最少资源的集群会显示在每个面板的顶部,其中包含使用量图表,以及所选时间段内相对于其可分配资源的资源使用量平均值。

点击您感兴趣的集群的名称,以查看有关该集群的更多详细信息。点击查看所有集群的 CPU/内存/磁盘利用率,可查看舰队中所有集群的排序列表。

查看政策控制器覆盖范围

Policy Controller 支持为您的集群强制执行完全可编程的政策。这些政策可作为一种“保障措施”,防止对 Kubernetes API 配置进行的任何更改违反组织的安全、运维或合规性控制。

政策状态部分显示有多少集群启用了 Policy Controller。

点击查看政策以查看 Policy Controller 信息中心。如果您尚未在集群上安装 Policy Controller,请点击启用政策

如需详细了解 Policy Controller,请参阅其文档

查看 Config Sync 软件包健康状况

Config Sync 是一种 GitOps 服务,可让集群操作员和平台管理员从可靠来源部署软件包。软件包包含要从中同步集群的每个来源中存储的所有配置。来源可以是 Git 代码库、Git 代码库中的目录、OCI 映像或 Helm 代码库。由于您可以从多个来源同步集群,因此每个集群可能有多个软件包。

配置状态部分显示以下信息:

  • 舰队中的软件包总数
  • 舰队中的软件包的同步状态

点击查看 Config 概览以查看 Config Sync 信息中心。如果您尚未在集群上安装 Config Sync,请点击启用 Config Sync

如需详细了解 Config Sync,请参阅其文档

为舰队集群启用系统 Cloud Monitoring

如上所述,信息中心内的指标是使用集群组件(例如 kube-systemgke-connect 命名空间中的工作负载)的 Cloud Monitoring 数据生成的。因此,必须为舰队成员集群的所有系统、控制平面和 Kube State Metrics 组件启用 Cloud Monitoring。

默认情况下,大多数 GKE 和 GKE 集群会启用 Cloud Logging 和 Cloud Monitoring,但您仍需要为所有集群组件手动启用 Cloud Monitoring。关联集群始终要求您手动设置 Cloud Monitoring。

如果您的任何舰队集群组件未启用 Cloud Monitoring,则页面顶部会显示一个面板,其中显示缺少数据的集群数量。如需为这些集群上的组件启用 Cloud Monitoring,请完成以下步骤:

  1. 缺少数据... 面板中,点击查看集群以查看未向 Google Cloud 控制台发送数据的集群。

  2. 对于列表中的每个集群,请参阅以下集群类型指南以启用 Cloud Monitoring:

为跨项目的已注册集群启用监控功能

如需收集并查看多个 Google Cloud 项目的指标,您可以使用 Cloud Monitoring 创建多项目指标范围。当您将其他项目中的 GKE 集群注册到舰队宿主项目时,系统会自动创建包含这两个项目的新指标范围(如果指标范围尚不存在)。这样您就可以在概览中查看集群的利用率数据。

后续步骤