集群管理概览


本页面简要介绍了面向管理员的 GKE 集群管理。

如果您是开发者,并且在 GKE 上运行工作负载,则可能不需要执行大多数这些任务。如需简要了解如何在 GKE 上部署工作负载,请参阅部署工作负载

在阅读本页内容之前,您应该先熟悉以下内容以及 Kubernetes 基本概念

我使用哪些工具?

作为管理员,您可以使用一系列工具来处理 GKE 集群。

  • 如需控制集群的配置和整体特性,您可以使用 Google Cloud 工具和 API,包括 Google Cloud CLIGoogle Cloud 控制台。这些任务包括创建、更新、查看和删除集群,以及使用 Identity and Access Management (IAM) 控制哪些用户可以访问集群。您还可以使用其他 Google Cloud 工具和服务(例如可观测性服务)进行监控、日志记录和提醒。

  • 如需控制集群的内部行为,您可以使用 Kubernetes API 和 kubectl 命令行界面。您可能需要使用 kubectl 执行的任务包括部署工作负载、应用 Kubernetes 基于角色的访问控制 (RBAC) 政策以及指定 Kubernetes 网络政策规则。如需详细了解如何配置 kubectl 以便与 GKE 集群搭配使用,请参阅安装 kubectl 并配置集群访问权限

  • 如需以声明方式预配集群和工作负载,您可以使用 Terraform。如需详细了解如何将 Terraform 与 GKE 搭配使用,请参阅使用 Terraform 预配 GKE 资源

基本的集群管理

基本集群管理任务包括集群配置、集群升级和节点配置。如果您为集群使用默认的 Autopilot 模式(推荐),GKE 会为您处理大部分工作:集群升级和节点配置由 GKE 管理。如果您使用 Standard 模式,则只有升级由 GKE 管理,而您需要自行配置节点。您可以在 GKE 运维模式中详细了解何时可能需要为集群选择标准模式。

基本的集群管理任务特定于 Google Cloud 上的 GKE 集群,通常不涉及 Kubernetes 系统本身;您可以使用 Google Cloud 控制台、Google Cloud CLI、GKE API 或 Terraform 的 Google Cloud提供程序完整执行这些任务。

查看集群

您可以在 Google Cloud 控制台中查看有关集群的基本信息,也可以使用 Google Cloud CLI 或 GKE API 查看此类信息。这包括集群是否正在运行以及其当前配置,还会列出您的所有集群。如需了解详情,请参阅管理集群

如需详细了解集群状态和运行状况,您可以使用可观测性工具和功能。

集群和节点升级

默认情况下,集群和节点会自动升级。您可以详细了解如何为每个集群配置升级方式,包括何时可以升级以及何时不可以升级。

集群级层配置

集群级层配置任务包括创建删除 GKE 集群和节点。您还可以更新一些集群设置,例如集群维护任务的发生时间

如需详细了解集群配置,请参阅集群配置概览

节点配置

如果您为集群使用 Autopilot,则无需担心节点配置,因为 GKE 会为您配置节点。Autopilot 集群节点全部由 GKE 全代管式,并且都使用相同的节点操作系统 (OS) cos_containerd

不过,如果您需要为任何集群使用 Standard 模式,GKE 为集群节点提供了一系列选项。例如,您可以创建一个或多个节点池;节点池是集群内共享公共配置的一组节点。集群必须至少有一个节点池,在您创建集群时,系统会默认创建一个名为 default 的节点池。如需详细了解 GKE 中的节点池管理,请参阅添加和管理节点池

Standard 集群的其他节点配置选项包括选择非默认操作系统、使用临时Spot VM,以及为新节点选择满足最低要求的 CPU 平台(Autopilot 用户还可以为计算密集型工作负载指定满足最低要求的 CPU 平台,但只能在工作负载级别进行指定)。

即使使用标准集群,您也无法更改 iptables 规则或 GKE 管理的其他节点级设置。当手动更改还原为集群的声明式配置时,节点可能会变得无法访问或被无意中公开。

配置集群网络

集群管理的一个重要方面是启用和控制集群的各种网络功能,例如标准集群的 IP 地址选项、是否可以从公共网络访问集群的节点(无法从公共网络访问的节点称为专用节点),以及网络访问政策。

许多网络功能都是在创建集群时进行设置的(其中许多功能在未重新创建集群的情况下无法更改):使用Google Cloud 界面创建集群时,您必须启用要使用的网络功能。鉴于此行为,如果您不是网络管理员,则在设置可投入生产环境的集群时,可能需要与网络管理员密切合作。

有些可通过 Google Cloud 工具启用的网络功能(例如网络政策强制执行)还需要使用 Kubernetes API 进行进一步配置。

如需详细了解 GKE 网络,请参阅网络概览

集群可观测性

集群管理的另一个重要部分是配置和使用可观测性工具来了解基础架构和应用的运行状况,并保持应用的可用性和可靠性。默认情况下,GKE 集群会配置为执行以下操作:

GKE 还提供可观测性功能,可帮助您使用收集的数据,包括默认信息中心和自定义信息中心、提醒、服务等级目标 (SLO) 监控和日志分析。

如需详细了解如何设置和使用 GKE 可观测性,请参阅 GKE 的可观测性

配置集群安全性

GKE 包含可与您的集群搭配使用的 Google Cloud专有功能和 Kubernetes 安全功能。您可以使用Google Cloud 控制台管理Google Cloud级层的安全性,例如 IAM。您可以使用 Kubernetes API 和其他界面管理集群内安全功能,例如 Kubernetes 基于角色的访问权限控制 (RBAC)。

如需了解 GKE 提供的安全功能,请参阅安全概览强化集群安全性。GKE Autopilot 集群会自动实现许多此类安全功能和安全强化最佳做法。如需了解详情,请参阅 GKE Autopilot 中的安全功能

优化费用

借助 GKE 的工具,您可以查看集群费用,并确保您以最有效的方式使用您付费的 Google Cloud 资源。您可以查看不同时间范围内 CPU、内存和磁盘用量的利用率指标,并使用这些指标来优化资源用量:例如,如果您有可能未充分利用或过度利用的集群,则可以调整其大小。您还可以使用自动扩缩功能在非高峰时段缩减集群大小,并使用数据分析和建议来识别空闲集群,以及遵循其他最佳实践。

如果您使用的是 GKE Enterprise,还可以查看指标,以优化整个舰队和各个团队的费用。

灾难恢复配置

为确保生产工作负载在发生服务中断事件时仍然可用,您应该准备灾难恢复 (DR) 规划。 如需详细了解灾难恢复规划,请参阅灾难恢复规划指南

除非您采取明确的措施,否则系统不会备份您的 Kubernetes 配置和任何永久性卷。如需在 GKE 集群上备份和恢复 Kubernetes 配置和永久性卷,您可以使用 Backup for GKE

后续步骤