在 GKE on Bare Metal 集群安装过程中,二进制文件和 systemd 服务会安装在托管该集群的节点上,并且服务会开始监听节点上的端口。
但是,如果集群安装失败,则需要删除所有这些二进制文件和服务。换句话说,在尝试重新安装集群之前,需要重置或擦除这些节点。如果未以这种方式重置节点,则在这些节点上安装集群的下一次尝试将失败。
本页面介绍了如何执行特定节点的清理操作以及如何删除集群。
选择删除方法
用于删除集群的方法取决于以下各项:
- 集群类型。
- 是否您只想清理特定节点而不是删除整个集群。
- 集群的创建方式。
GKE on Bare Metal 提供以下删除方法:
Google Cloud 控制台或 Google Cloud CLI:
使用控制台或 gcloud CLI 删除由 GKE On-Prem API 管理的用户集群。如果满足以下任一条件,则用户集群由 GKE On-Prem API 管理:
集群是在 Google Cloud 控制台中或使用 gcloud CLI 创建的,这会自动配置 GKE On-Prem API 来管理集群。
该集群是使用
bmctl
创建的,但已将其配置为由 GKE On-Prem API 管理。
bmctl
:- 使用
bmctl reset nodes
重置特定节点。 使用
bmctl reset
删除以下集群类型:- 管理员集群、混合集群和独立集群(称为自行管理的集群)。这包括由 GKE On-Prem API 管理的管理员集群。
- 不受 GKE On-Prem API 管理的用户集群。
如果您使用
bmctl
重置节点或删除集群,则命令会要求集群配置文件位于当前工作目录中。默认情况下,路径如下所示:bmctl-workspace/CLUSTER_NAME/CLUSTER_NAME.yaml
如果您在集群创建期间使用
--workspace-dir
标志指定了其他目录,则必须在集群重置期间使用此标志指定工作目录。- 使用
kubectl
:- 使用
kubectl delete cluster
仅删除并非由 GKE On-Prem API 集群管理的用户集群。请勿在其他集群类型上运行该命令。 - 请注意,如果您使用
kubectl delete cluster
,则还必须在删除集群后删除集群所在的命名空间。
- 使用
删除集群后,您可以在进行任何需要的配置更改后重新安装它。
删除自行管理的集群
如需删除管理员集群、混合集群或独立集群,请运行以下命令:
bmctl reset --cluster CLUSTER_NAME
在该命令中,将 CLUSTER_NAME
替换为您要重置的集群的名称。
bmctl cluster reset
命令的输出类似于以下示例:
Please check the logs at bmctl-workspace/example-cluster-1/log/reset-20221025-184705/reset.log [2022-10-25 18:47:11+0000] Creating bootstrap cluster... OK [2022-10-25 18:48:18+0000] Loading images... OK [2022-10-25 18:48:18+0000] Waiting for reset jobs to finish... [2022-10-25 18:48:28+0000] Operation reset in progress: 1 Completed: 0 Failed: 0 ... [2022-10-25 18:50:08+0000] Operation reset in progress: 0 Completed: 1 Failed: 0 [2022-10-25 18:50:08+0000] Flushing logs... OK [2022-10-25 18:50:08+0000] Deleting GKE Hub member example-cluster-1 in project example-project-12345... [2022-10-25 18:50:11+0000] Successfully deleted GKE Hub member example-cluster-1 in project example-project-12345 [2022-10-25 18:50:11+0000] Deleting bootstrap cluster... OK
除了删除集群之外,该命令还会从舰队中删除集群成员资格。
对于由 GKE On-Prem API 管理的管理员集群,您还需要删除 Google Cloud 中的 API 资源。否则,该集群将显示在 Google Cloud 控制台的 GKE 集群页面上。使用以下命令删除管理员集群的 GKE On-Prem API 资源:
gcloud container bare-metal admin-clusters unenroll CLUSTER_NAME \ --project=FLEET_HOST_PROJECT_ID \ --location=REGION \ --ignore-errors
替换以下内容:
FLEET_HOST_PROJECT_ID
:管理员集群所属舰队的项目 ID。REGION
:GKE On-Prem API 在其中存储集群元数据的 Google Cloud 区域。
--ignore-errors
标志可确保即使取消注册裸金属管理员集群资源期间发生错误,取消注册也会成功。
集群删除完成后,您可以创建新集群。如需了解详情,请参阅集群创建概览。
删除用户集群
如果用户集群由 GKE On-Prem API 管理,请使用控制台或 gcloud CLI 删除集群。否则,请使用 bmctl
或 kubectl
删除集群。
bmctl
您可以使用 bmctl
删除使用 bmctl
或 kubectl
创建且未在 GKE On-Prem API 中注册的用户集群。
运行以下命令以使用 bmctl
删除用户集群:
bmctl reset --cluster USER_CLUSTER_NAME --admin-kubeconfig ADMIN_KUBECONFIG_PATH
在该命令中,将以下条目替换为特定于您的环境的信息:
USER_CLUSTER_NAME
:要删除的用户集群的名称。ADMIN_KUBECONFIG_PATH
:关联管理员集群的kubeconfig
文件的路径。bmctl
支持使用--kubeconfig
作为--admin-kubeconfig
标志的别名。
bmctl cluster reset
命令的输出类似于以下示例:
Please check the logs at bmctl-workspace/example-cluster-1/log/reset-20221025-184705/reset.log [2022-10-25 18:47:11+0000] Creating bootstrap cluster... OK [2022-10-25 18:48:18+0000] Loading images... OK [2022-10-25 18:48:18+0000] Waiting for reset jobs to finish... [2022-10-25 18:48:28+0000] Operation reset in progress: 1 Completed: 0 Failed: 0 ... [2022-10-25 18:50:08+0000] Operation reset in progress: 0 Completed: 1 Failed: 0 [2022-10-25 18:50:08+0000] Flushing logs... OK [2022-10-25 18:50:08+0000] Deleting GKE Hub member example-cluster-1 in project example-project-12345... [2022-10-25 18:50:11+0000] Successfully deleted GKE Hub member example-cluster-1 in project example-project-12345 [2022-10-25 18:50:11+0000] Deleting bootstrap cluster... OK
kubectl
您可以使用 kubectl
删除使用 bmctl
或 kubectl
创建且未注册 GKE On-Prem API 的用户集群。如需使用 kubectl
删除用户集群,您必须先删除集群对象,然后删除其命名空间。否则无法创建重置机器的作业,删除过程可能会无限期卡住。
要使用 kubectl
删除用户集群,请执行以下操作:
运行以下命令以删除集群对象:
kubectl delete cluster USER_CLUSTER_NAME -n USER_CLUSTER_NAMESPACE \ --kubeconfig ADMIN_KUBECONFIG_PATH
在该命令中,将以下条目替换为特定于您的环境的信息:
USER_CLUSTER_NAME
:要删除的用户集群的名称。USER_CLUSTER_NAMESPACE
:集群的命名空间。默认情况下,GKE on Bare Metal 的集群命名空间是以cluster-
开头的集群名称。例如,如果您将集群命名为test
,则命名空间的名称类似于cluster-test
。ADMIN_KUBECONFIG_PATH
:关联管理员集群的kubeconfig
文件的路径。
成功删除集群后,运行以下命令以删除命名空间:
kubectl delete namespace USER_CLUSTER_NAMESPACE --kubeconfig ADMIN_KUBECONFIG_PATH
控制台
如果用户集群由 GKE On-Prem API 管理,请执行以下步骤删除集群:
在控制台中,前往 Google Kubernetes Engine 集群概览页面。
选择用户集群所在的 Google Cloud 项目。
在集群列表中,点击要修改的集群。
在集群列表中,找到要删除的集群。 如果类型为外部,则表示集群是使用
bmctl
创建的,并且未注册在 GKE On-Prem API 中。在这种情况下,请按照bmctl
或kubectl
标签页中的步骤删除集群。如果状态列中的图标表明存在问题,请按照 gcloud CLI 标签页中的步骤删除集群。您需要向 delete 命令添加
--ignore-errors
标志。点击您要删除的集群的名称。
在详细信息面板的窗口顶部附近,点击
删除。当系统提示您确认时,请输入集群名称,然后点击移除。
gcloud CLI
如果用户集群由 GKE On-Prem API 管理,请执行以下步骤在安装了 gcloud CLI 的计算机上删除集群:
使用您的 Google 账号登录:
gcloud auth login
更新组件:
gcloud components update
获取集群列表,以便确保在删除命令中指定正确的集群名称:
gcloud container bare-metal clusters list \ --project=FLEET_HOST_PROJECT_ID \ --location=LOCATION
替换以下内容:
FLEET_HOST_PROJECT_ID
:在其中创建集群的项目的 ID。LOCATION
:与用户集群关联的 Google Cloud 位置。
输出类似于以下内容:
NAME LOCATION VERSION ADMIN_CLUSTER STATE example-user-cluster-1a us-west1 1.28.400-gke.77 example-admin-cluster-1 RUNNING
运行以下命令以删除集群:
gcloud container bare-metal clusters delete USER_CLUSTER_NAME \ --project=FLEET_HOST_PROJECT_ID \ --location=LOCATION \ --force \ --allow-missing
替换以下内容:
USER_CLUSTER_NAME
:要删除的用户集群的名称。FLEET_HOST_PROJECT_ID
:在其中创建集群的项目的 ID。LOCATION
:与用户集群关联的 Google Cloud 位置。
您可以使用
--force
标志来删除包含节点池的集群。如果没有--force
标志,您必须先删除节点池,然后再删除集群。--allow-missing
标志是标准 Google API 标志。添加此标志后,如果未找到集群,该命令会返回成功。如果该命令返回包含文本
failed connecting to the cluster's control plane
的错误,则表示管理员集群、Connect Agent 或本地环境存在连接问题。 如需排查 Connect Agent 的问题,请参阅收集 Connect Agent 日志。如果您认为连接问题是暂时性的(例如由于网络问题导致),请等待并重试该命令。
如果您知道管理员集群已被删除,或者管理员或用户集群的节点机器已关停或离线,请添加
--ignore-errors
标志并重试该命令。如果使用
bmctl
或kubectl
删除集群,会将 GKE On-Prem API 资源保留在 Google Cloud 中,您还需要添加--ignore-errors
。一个症状是,集群仍显示为运行状况不佳的控制台的 GKE 集群页面上。
如需了解其他标志,请参阅 gcloud CLI 参考文档。
重置特定集群节点
在某些情况下您可能需要重置集群的特定节点,例如管理员集群已被删除,但由该管理员集群管理的用户集群仍然存在。在这种情况下,由于管理员集群已被删除,将无法删除所有用户集群。因此,用户集群的节点必须单独重置。
如需重置节点,您需要一个具有 Google Container Registry (GCR) 的读取权限的服务账号。bmctl
命令需要此服务账号的 JSON 密钥文件作为参数。如需重置集群的各个节点,请运行以下命令:
bmctl reset nodes --addresses NODE_1_IP_ADDRESS,NODE_2_IP_ADDRESS \ --ssh-private-key-path SSH_KEY_PATH \ --gcr-service-account-key SERVICE_ACCOUNT_KEY_PATH \ --login-user root
在该命令中,将以下条目替换为特定于您的环境的信息:
NODE_1_IP_ADDRESS , NODE_2_IP_ADDRESS
:要删除的节点的 IP 地址的逗号分隔列表。SSH_KEY_PATH
:SSH 私钥的路径。 这是用于在重置期间与节点建立 SSH 连接的密钥。SERVICE_ACCOUNT_KEY_PATH
:包含服务账号密钥的 JSON 文件的路径。此密钥授权bmctl
从 Google Container Registry 拉取映像。您可以使用控制台或 gcloud CLI 创建服务账号密钥。如需了解详情,请参阅创建和管理服务账号密钥。创建服务账号密钥文件的另一种方法是,运行带有--create-service-accounts
标志的create config
命令。如需详细了解该命令,请参阅使用 bmctl 创建管理员集群配置。
集群删除详情
在删除过程中,集群的舰队成员注册、存储空间装载以及来自 anthos-system StorageClass
的数据都将被删除。
对于所有节点,用于集群网络的隧道接口会被移除,并且以下目录会被删除:
/etc/kubernetes
/etc/cni/net.d
/root/.kube
/var/lib/kubelet
对于负载均衡器节点:
- 系统会删除
keepalived
和haproxy
服务。 - 系统会删除
keepalived
和haproxy
的配置文件。