Reparar la VM del plano de control del clúster de administrador

En una implementación de Google Distributed Cloud, la VM del plano de control de un clúster de administrador tiene dos discos adjuntos:

  • El disco de arranque tiene el sistema operativo para la VM.

  • El disco de datos tiene credenciales y la base de datos etcd, que almacena el estado del clúster de administrador. Es decir, el disco de datos almacena todos los objetos de Kubernetes para el clúster de administrador.

En esta página, se muestra cómo recuperarse cuando se pierde la VM del plano de control o se vulnera el disco de arranque. Por ejemplo:

  • El disco de arranque se vuelve de solo lectura debido a los registros de diario de spam.
  • El sistema de archivos de superposición Docker se daña.

En esta página, no se abarca la recuperación del disco de datos. Si deseas obtener instrucciones para recuperar el disco de datos, consulta Restablece un clúster de administrador.

Repara la VM del plano de control

Los pasos que debes seguir para reparar la VM del plano de control del clúster de administrador difieren ligeramente según si tienes un clúster de administrador con alta disponibilidad (HA) o sin HA.

HA

Un clúster de administrador de alta disponibilidad tiene tres VMs del plano de control. Debes tener al menos dos VMs para abrir el plano de control del clúster. Si tres VMs fallaron, repara las VMs con errores una a la vez. Después de que se repare y ejecute la segunda VM, debería volver a iniciarse el plano de control del clúster.

  1. Ejecuta el siguiente comando:

    gkectl repair admin-master --config ADMIN_CLUSTER_CONFIG --kubeconfig ADMIN_CLUSTER_KUBECONFIG
    

    Reemplaza lo siguiente:

    • ADMIN_CLUSTER_CONFIG por la ruta de acceso del archivo de configuración del clúster de administrador

    • ADMIN_CLUSTER_KUBECONFIG es la ruta de acceso del archivo kubeconfig del clúster de administrador.

    El resultado del comando es similar al siguiente:

    Please select the control plane VM template to be used for re-creating the admin cluster's control plane VM.
    [1] VM template:         /atl-qual-vc07/vm/gke-admin-57f8g-fx9f4c729448z2v8-2-tmpl
        GKE on-prem version: 1.16.0-gke.550
        Creation time:       2023-07-25 01:52:51.815518 +0000 UTC
        CPU:                 4 CPU(s)
        Memory:              16384 MB
        Data disk:           [vsanDatastore] 37a73d64-b823-47cd-2e0c-00620b9189a0/gke-admin-57f8g/default/gke-admin-57f8g-2-data.vmdk
    
    [2] VM template:         /atl-qual-vc07/vm/gke-admin-57f8g-fx9f4c729448z2v8-0-tmpl
        GKE on-prem version: 1.16.0-gke.550
        Creation time:       2023-07-25 01:52:54.228252 +0000 UTC
        CPU:                 4 CPU(s)
        Memory:              16384 MB
        Data disk:           [vsanDatastore] 37a73d64-b823-47cd-2e0c-00620b9189a0/gke-admin-57f8g/default/gke-admin-57f8g-0-data.vmdk
    
    [3] VM template:         /atl-qual-vc07/vm/gke-admin-57f8g-fx9f4c729448z2v8-1-tmpl
        GKE on-prem version: 1.16.0-gke.550
        Creation time:       2023-07-25 01:52:54.210705 +0000 UTC
        CPU:                 4 CPU(s)
        Memory:              16384 MB
        Data disk:           [vsanDatastore] 37a73d64-b823-47cd-2e0c-00620b9189a0/gke-admin-57f8g/default/gke-admin-57f8g-1-data.vmdk
    
    Please enter your numeric choice:
    
  2. Ingresa el número de la VM que quieres reparar. Si no ves la VM en el resultado, comunícate con el equipo de asistencia de Google Cloud.

    Si tienes tres VMs que se deben reparar, gkectl repair admin-master muestra un mensaje de error similar al siguiente después de reparar la primera VM:

    If you are repairing admin control plane VM for HA admin cluster,
    it's possible that the API server is still down after repairing one
    of the VMs. Try continue fixing other control plane VMs listed to
    recover the quorum of control plane.
    

    En este caso, vuelve a ejecutar el comando para reparar la segunda VM.

Sin HA

Ejecuta el siguiente comando:

gkectl repair admin-master \
  --config ADMIN_CLUSTER_CONFIG \
  --kubeconfig ADMIN_CLUSTER_KUBECONFIG

Reemplaza lo siguiente:

  • ADMIN_CLUSTER_CONFIG por la ruta de acceso del archivo de configuración del clúster de administrador
  • ADMIN_CLUSTER_KUBECONFIG es la ruta de acceso del archivo kubeconfig del clúster de administrador.

La VM del plano de control del clúster de administrador se clona en una plantilla de VM, que tiene toda la información necesaria para volver a crear la VM. El comando gkectl repair admin-master usa la plantilla de VM para crear una VM nueva. Luego, conecta un disco de arranque nuevo y el disco de datos existente.

Si los nodos del clúster obtienen sus direcciones de un servidor DHCP, la VM nueva podría tener una dirección IP diferente de la VM original.

¿Qué sigue?