Reparar la VM del plano de control del clúster de administrador

En una implementación de GKE en VMware, la VM del plano de control para un clúster de administrador tiene dos discos conectados:

  • El disco de arranque tiene el sistema operativo para la VM.

  • El disco de datos tiene credenciales y la base de datos etcd, que almacena el estado del clúster de administrador. Es decir, el disco de datos almacena todos los objetos de Kubernetes del clúster de administrador.

En esta página, se muestra cómo realizar la recuperación cuando se pierde la VM del plano de control o se vulnera el disco de arranque. Por ejemplo:

  • El disco de arranque se vuelve de solo lectura debido a los registros del diario de spam.
  • El sistema de archivos de superposición Docker se daña.

En esta página, no se abarca la recuperación del disco de datos. Si deseas obtener instrucciones para recuperar el disco de datos, consulta Restablece un clúster de administrador.

Repara la VM del plano de control

Los pasos que debes realizar para reparar la VM del plano de control del clúster de administrador difieren un poco según si tienes un clúster de administrador con alta disponibilidad (HA) o uno sin alta disponibilidad.

HA

Un clúster de administrador de alta disponibilidad tiene tres VMs del plano de control. Debes tener al menos dos VMs para abrir el plano de control del clúster. Si tres VMs fallan, repara todas, una a la vez. Después de reparar y ejecutar la segunda VM, el plano de control del clúster debería volver a funcionar.

  1. Ejecuta el siguiente comando:

    gkectl repair admin-master --config ADMIN_CLUSTER_CONFIG --kubeconfig ADMIN_CLUSTER_KUBECONFIG
    

    Reemplaza lo siguiente:

    • ADMIN_CLUSTER_CONFIG por la ruta de acceso del archivo de configuración del clúster de administrador

    • ADMIN_CLUSTER_KUBECONFIG es la ruta de acceso del archivo kubeconfig del clúster de administrador.

    El resultado del comando es similar al siguiente:

    Please select the control plane VM template to be used for re-creating the admin cluster's control plane VM.
    [1] VM template:         /atl-qual-vc07/vm/gke-admin-57f8g-fx9f4c729448z2v8-2-tmpl
        GKE on-prem version: 1.16.0-gke.550
        Creation time:       2023-07-25 01:52:51.815518 +0000 UTC
        CPU:                 4 CPU(s)
        Memory:              16384 MB
        Data disk:           [vsanDatastore] 37a73d64-b823-47cd-2e0c-00620b9189a0/gke-admin-57f8g/default/gke-admin-57f8g-2-data.vmdk
    
    [2] VM template:         /atl-qual-vc07/vm/gke-admin-57f8g-fx9f4c729448z2v8-0-tmpl
        GKE on-prem version: 1.16.0-gke.550
        Creation time:       2023-07-25 01:52:54.228252 +0000 UTC
        CPU:                 4 CPU(s)
        Memory:              16384 MB
        Data disk:           [vsanDatastore] 37a73d64-b823-47cd-2e0c-00620b9189a0/gke-admin-57f8g/default/gke-admin-57f8g-0-data.vmdk
    
    [3] VM template:         /atl-qual-vc07/vm/gke-admin-57f8g-fx9f4c729448z2v8-1-tmpl
        GKE on-prem version: 1.16.0-gke.550
        Creation time:       2023-07-25 01:52:54.210705 +0000 UTC
        CPU:                 4 CPU(s)
        Memory:              16384 MB
        Data disk:           [vsanDatastore] 37a73d64-b823-47cd-2e0c-00620b9189a0/gke-admin-57f8g/default/gke-admin-57f8g-1-data.vmdk
    
    Please enter your numeric choice:
    
  2. Ingresa el número de la VM que deseas reparar. Si no ves la VM en el resultado, comunícate con el equipo de Asistencia de Google Cloud.

    Si tienes tres VM que deben repararse, gkectl repair admin-master muestra un mensaje de error similar al siguiente después de reparar la primera VM:

    If you are repairing admin control plane VM for HA admin cluster,
    it's possible that the API server is still down after repairing one
    of the VMs. Try continue fixing other control plane VMs listed to
    recover the quorum of control plane.
    

    En este caso, vuelve a ejecutar el comando para reparar la segunda VM.

Sin alta disponibilidad

Ejecuta el siguiente comando:

gkectl repair admin-master \
  --config ADMIN_CLUSTER_CONFIG \
  --kubeconfig ADMIN_CLUSTER_KUBECONFIG

Reemplaza lo siguiente:

  • ADMIN_CLUSTER_CONFIG por la ruta de acceso del archivo de configuración del clúster de administrador
  • ADMIN_CLUSTER_KUBECONFIG por la ruta del archivo kubeconfig del clúster de administrador

La VM del plano de control del clúster de administrador se clona en una plantilla de VM, que tiene toda la información necesaria para volver a crear la VM. El comando gkectl repair admin-master usa la plantilla de VM para crear una VM nueva. Luego, conecta un disco de arranque nuevo y el disco de datos existente.

Si los nodos del clúster obtienen sus direcciones de un servidor DHCP, la VM nueva podría tener una dirección IP diferente de la VM original.

¿Qué sigue?