集群管理概览


在 Google Kubernetes Engine (GKE) 中,您可以使用各种 Google Cloud 工具和 API(包括 Google Cloud CLIGoogle Cloud 控制台)来配置集群的配置和特性。这些任务包括创建、更新和删除集群;添加或移除节点;以及使用 Identity and Access Management (IAM) 控制哪些用户可以访问集群。

如需控制集群的内部行为,您可以使用 Kubernetes API 和 kubectl 命令行界面。您还可以使用 Google Cloud 控制台配置集群行为的各个方面。

基本的集群管理

基本的集群管理任务特定于 Google Cloud 上的 GKE 集群,通常不涉及 Kubernetes 系统本身;您可以使用 Google Cloud 控制台、Google Cloud CLI 或 GKE API 完整执行这些任务。

集群和节点升级

默认情况下,集群和节点池会自动升级。您可以详细了解如何为每个集群配置升级方式,包括何时可以升级以及何时不可以升级。

集群级层配置

集群级层配置任务包括创建删除 GKE 集群和节点。您可以控制集群维护任务的发生时间,以及配置集群级层自动扩缩

节点配置

GKE 提供了各种适用于集群节点的选项。例如,您可以创建一个或多个节点池;节点池是集群内共享公共配置的节点组。集群必须至少有一个节点池,在您创建集群时系统会创建一个名为 default 的节点池。

对于标准集群,您可以基于每个池设置其他节点选项,包括:

配置集群监控

Google 建议您使用 Google Cloud 的 Managed Service for Prometheus 来监控您的 Kubernetes 应用和基础架构。

Managed Service for Prometheus 是针对 Prometheus 指标的 Google Cloud 全代管式多云解决方案。您可以使用 Prometheus 全局监控工作负载并发出提醒,而无需大规模手动管理和操作 Prometheus。

Managed Service for Prometheus 会从 Prometheus 导出器中收集指标,并支持使用 PromQL 全局查询数据,这意味着您可以继续使用任何现有的 Grafana 信息中心、基于 PromQL 的提醒和工作流。它与混合云和多云兼容,可以监控 Kubernetes 和虚拟机工作负载,将数据保留 24 个月,并与上游 Prometheus 保持兼容以维持可移植性。您还可以使用 PromQL 在 Cloud Monitoring 中查询超过 1,500 个免费指标(包括免费的 GKE 系统指标),作为 Prometheus 监控的补充。

如需详细了解如何配置集群监控,请参阅以下指南:

配置集群网络

集群管理的另一个方面是启用和控制集群的各种网络功能。大多数网络功能都是在创建集群时进行设置的:使用 Google Cloud 界面创建集群时,您必须启用要使用的网络功能。其中有部分功能可能需要使用 Kubernetes 界面(例如 kubectl 命令行界面)进行进一步配置。

例如,如需在 GKE 集群上启用网络政策实施功能,您必须先使用 Google Cloud 控制台或 Google Cloud CLI 启用该功能。然后,使用 Kubernetes Network Policy API 或 kubectl 命令行界面指定实际的网络政策规则。对于 Autopilot 集群,网络政策默认处于关闭状态,但您可以启用此功能。

如需详细了解如何在 GKE 上启用网络功能,请参阅以下指南:

配置集群安全性

GKE 包含可与您的集群搭配使用的 Google Cloud 专有功能和 Kubernetes 安全功能。您可以使用 Google Cloud 控制台管理 Google Cloud 级层的安全性,例如 IAM。您可以使用 Kubernetes API 和其他界面管理集群内安全功能,例如基于角色的访问控制。

如需了解 GKE 提供的安全功能,请参阅安全概览强化集群安全性。GKE Autopilot 集群会自动实现许多此类安全功能和安全强化最佳做法。如需了解详情,请参阅 GKE Autopilot 中的安全功能

灾难恢复配置

为确保生产工作负载在发生服务中断事件时仍然可用,您应该准备灾难恢复 (DR) 规划。 如需详细了解灾难恢复规划,请参阅灾难恢复规划指南

除非您采取明确的措施,否则系统不会备份您的 Kubernetes 配置和任何永久性卷。如需在 GKE 集群上备份和恢复 Kubernetes 配置和永久性卷,您可以使用 Backup for GKE