使用 GKE Enterprise 概览

Google Cloud 控制台中的 GKE Enterprise 概览信息中心显示舰队的整体概况。概览会显示您的舰队存在的安全问题、舰队范围内的 Policy Controller 覆盖范围以及 Config Sync 软件包的同步状态,从而帮助您使用 GKE Enterprise 功能。此外,信息中心会提供舰队、集群和团队的资源利用率的舰队级视图。这些信息可以帮助您优化支出、应用设计和资源分配,包括 CPU、内存和磁盘利用率。

本页面假定您熟悉 Kubernetes 中的资源管理。如需了解详情,请参阅 Kubernetes 文档中的针对 Pod 和容器的资源管理

Google Cloud 控制台中的 GKE Enterprise 概览仅适用于启用了 GKE Enterprise 的舰队用户。

查看概览

如需查看概览信息中心,请执行以下操作:

选择时间过滤条件

默认情况下,GKE Enterprise 概览会显示过去一小时内的资源利用率。如需更改此时间段,请使用时间过滤条件选项:

  • 选择您要查看舰队容器的平均资源利用率的时间段。选择其中一个预定义选项,或选择自定义以指定自定义时间段。

查看集群、团队范围和总资源利用率

第一部分提供集群、团队范围以及所选时间段内的 CPU/内存/磁盘总利用率的一览视图。资源利用率指标是使用舰队集群的系统 Cloud Monitoring 数据生成。

如果您看到缺少数据通知,请参阅为舰队集群启用系统 Cloud Monitoring 部分以解决此问题。

查看集群状态

此舰队中的集群部分中,您可以查看舰队中有多少集群。如果集群与舰队的连接出现任何问题,则会显示警告或错误:例如,如果您未取消注册集群就删除了集群,或者您需要登录到 Google Cloud 外部的集群以查看其详细信息。

  • 如果显示错误或警告,请点击通知以查看一个或多个问题集群并解决问题。
  • 点击查看所有集群可查看舰队的完整集群列表。

查看团队范围

团队范围部分中,您可以看到此舰队中的团队范围数量。借助团队范围,您可以按团队定义舰队资源子集。在定义这些范围后,您可以使用团队管理功能,这样每个团队都可以在舰队上作为单独的“租户”。

  • 点击查看所有团队范围可查看舰队中团队范围的完整列表。

查看资源总利用率

总利用率部分显示所有舰队容器的实际 CPU、内存和磁盘资源的平均使用量(相对于此舰队中集群节点的可分配资源)。系统会显示您选择的时间段内的数据。Kubernetes 节点上的可分配定义为该节点上的常规 Pod 可以使用的资源数量。

此视图可让您快速了解舰队的资源利用率和可用资源,并可让您通过更详细的指标来进一步调查可能的问题。例如,如果 CPU 总利用率非常低,您可以使用“按集群”指标确定可以调整大小的集群。

查看功能管理

查看安全问题

为了帮助您找出影响舰队成员集群的安全问题(例如活跃的漏洞或工作负载配置问题),请查看安全问题部分。此部分展示以下信息:

  • 在舰队中找到的问题总数。问题按严重级别进行分组,严重级别根据 CVSS 定性严重级别评分量表指定。
  • 按类型细分的问题。这有助于您确定问题是来自配置问题、安全公告还是漏洞。

如需查看 GKE 安全的概览以及有关如何解决发现的问题的实用建议,请点击查看安全状况。如果您之前没有使用过安全状况信息中心,请点击启用安全状况以启用 Container Security API 并访问安全状况信息中心。

如需了解详情,请参阅安全状况信息中心简介

查看政策控制器覆盖范围

Policy Controller 支持为您的集群强制执行完全可编程的政策。这些政策可作为一种“保障措施”,防止对 Kubernetes API 配置进行的任何更改违反组织的安全、运维或合规性控制。

政策状态部分显示有多少集群启用了 Policy Controller。

点击查看政策以查看 Policy Controller 信息中心。如果您尚未在集群上安装 Policy Controller,请点击启用政策

如需详细了解 Policy Controller,请参阅其文档

查看 Config Sync 软件包健康状况

Config Sync 是一种 GitOps 服务,可让集群运维人员和平台管理员部署来自可靠来源的软件包。软件包包含集群要同步的每个来源中包含的所有配置。来源可以是 Git 代码库、Git 代码库中的目录、OCI 映像或 Helm 代码库。由于您可以从多个来源同步集群,因此每个集群可能有多个软件包。

配置状态部分显示以下信息:

  • 舰队中的软件包总数
  • 舰队中的软件包的同步状态

点击查看 Config 概览以查看 Config Sync 信息中心。如果您尚未在集群上安装 Config Sync,请点击启用 Config Sync

如需详细了解 Config Sync,请参阅其文档

查看舰队效率

本部分提供关于舰队如何使用其云资源或本地资源的详细视图,包括舰队的资源利用率以及资源利用率最高和最低的集群。例如,这可以帮助您找到可能未充分利用或过度利用的集群,从而调整其大小。如需详细了解如何计算这些指标,请参阅舰队资源利用率指标

查看一段时间内的资源利用率

通过舰队的 CPU/内存/磁盘利用率行,您可以深入了解舰队在一段时间内的资源使用情况。此外,您还可以查看集群请求的资源、可分配资源以及实际使用量。每个面板都显示所选时间段内按舰队汇总的 CPU、内存或磁盘使用量的图表,以下信息显示为不同的折线:

  • 可分配:在所有舰队集群节点中可分配的资源数量
  • 已请求:整个舰队中的容器已请求的资源数量
  • 已使用:容器已使用的实际资源数量

如需查看图表上给定点的详细信息,请滚动查看图表上您感兴趣的时间(例如,图表上的实际使用量峰值)。系统会显示该时间的可分配、已请求和实际资源使用量信息。

如需切换图表中的一个或多个线条的显示,请点击图表下方的一个或多个相关指标。

查看资源利用率最高的集群

下一行显示舰队的 CPU/内存/磁盘利用率最高的集群,可让您快速了解哪些特定集群是其可分配资源的最大用户。每个面板按从高到低的顺序列出利用率最高的五个集群。对于每个集群,您可以查看其在所选时间段内的资源用量图表,以及相对于其可分配资源的平均资源用量。此视图有很多作用,例如可以帮助您查看利用率过高的集群。可用资源不足的集群可能无法安排 Pod。

点击您感兴趣的集群的名称,可以查看有关集群如何使用其资源的更多详细信息。在利用率视图中,您还可以查看有多少个容器重启以及集群有多少错误日志。

点击查看所有集群的 CPU/内存/磁盘利用率,可查看舰队中所有集群的排序列表。

查看资源利用率最低的集群

资源利用率的最后一行显示舰队的 CPU/内存/磁盘利用率最低的集群,以便您可以快速了解哪些集群未充分利用。每个面板的顶部显示使用资源最少的五个集群,还会显示集群在所选时间段内的资源用量图表,以及相对于其可分配资源的平均资源用量。

点击您感兴趣的集群的名称,可以查看有关集群如何使用其资源的更多详细信息。在利用率视图中,您还可以查看有多少个容器重启以及集群有多少错误日志。

点击查看所有集群的 CPU/内存/磁盘利用率,可查看舰队中所有集群的排序列表。

查看团队效率

本部分提供关于团队如何使用其云资源或本地资源的概览视图。此外,它还可帮助您监控哪些团队遇到问题。

点击您感兴趣的团队,以在团队信息中心中展开细目。在团队信息中心,您可以查看有关资源利用率和团队命名空间的更多详细信息。这有助于您了解哪些命名空间影响了团队的资源使用用量。

查看资源利用率最高的团队范围

团队范围的 CPU/内存/磁盘利用率可让您快速了解哪些特定团队是其资源的最大用户。每个面板按从高到低的顺序列出利用率最高的团队。对于每个团队,您可以查看其资源用量图表,以及相对于请求的平均资源用量。

如需查看所选时间范围内所有团队的资源利用率,请点击查看所有团队的 CPU/内存/磁盘利用率

查看错误数量最多的范围

此卡片显示所选时间范围内错误日志最多的团队。

如需查看按错误数量排序的团队列表,请点击查看所有范围的错误数量

查看重启次数最多的范围

此部分显示所选时间范围内容器重启次数最多的团队。

如需查看按重启次数排序的团队列表,请点击查看所有范围的重启次数

为舰队集群启用系统 Cloud Monitoring

查看集群、团队范围和总资源利用率部分中所述,信息中心内的指标是使用集群组件(例如 kube-systemgke-connect 命名空间中的工作负载)的 Cloud Monitoring 数据生成的。因此,必须为舰队成员集群的所有系统、控制平面和 Kube State Metrics 组件启用 Cloud Monitoring。

默认情况下,大多数 GKE 和 GKE 集群会启用 Cloud Logging 和 Cloud Monitoring,但您仍需要为所有集群组件手动启用 Cloud Monitoring。关联集群始终要求您手动设置 Cloud Monitoring。

如果您的任何舰队集群组件未启用 Cloud Monitoring,则页面顶部会显示一个面板,其中显示缺少数据的集群数量。

如需为这些集群上的组件启用 Cloud Monitoring,请参阅以下适用于您集群类型的指南:

为跨项目的已注册集群启用监控功能

如需收集并查看多个 Google Cloud 项目的指标,您可以使用 Cloud Monitoring 创建多项目指标范围。当您将其他项目中的 GKE 集群注册到舰队宿主项目时,系统会自动创建包含这两个项目的新指标范围(如果指标范围尚不存在)。这样您就可以在概览中查看集群的利用率数据。

后续步骤