Esta página está destinada a operadores de infraestructura.
En esta página, se describe cómo crear una copia de seguridad y restablecer los clústeres creados con Anthos que se ejecutan en modo desconectado. Estas instrucciones se aplican a todos los tipos de clústeres que admite Anthos.
Crea una copia de seguridad de un clúster
El proceso de copia de seguridad tiene dos partes. Primero, se realiza una instantánea desde el almacén de etcd. Luego, los certificados de PKI relacionados se guardan en un archivo tar. El almacén de etcd es el almacenamiento de copia de seguridad de Kubernetes para todos los datos del clúster y contiene todos los objetos de Kubernetes y objetos personalizados requeridos para administrar el estado del clúster. Los certificados de PKI se usan para la autenticación con TLS. Estos datos tienen copia de seguridad desde el plano de control del clúster o en uno de los planos de control para una alta disponibilidad (HA).
Te recomendamos crear una copia de seguridad de tus clústeres con regularidad para asegurarte de que los datos de la instantánea sean relativamente actuales. La frecuencia de las copias de seguridad depende de la frecuencia con la que se producen cambios significativos en los clústeres.
Haz una instantánea de almacenamiento de etcd
En Anthos, un Pod llamado etcd-CONTROL_PLANE_NAME
en el espacio de nombres kube-system ejecuta el etcd para ese plano de control. Para crear una copia de seguridad del almacén de etcd del clúster, realiza los siguientes pasos desde tu estación de trabajo de administrador:
Usa
kubectl get po
para identificar el Pod de etcd.kubectl --kubeconfig CLUSTER_KUBECONFIG get po -n kube-system \ -l 'component=etcd,tier=control-plane'
La respuesta incluye el nombre del Pod de etcd y su estado.
Usa
kubectl describe pod
para ver los contenedores que se ejecutan en el Pod etcd, incluido el contenedor etcd.kubectl --kubeconfig CLUSTER_KUBECONFIG describe pod ETCD_POD_NAME -n kube-system
Ejecuta una shell de Bash en el contenedor de etcd.
kubectl --kubeconfig CLUSTER_KUBECONFIG exec -it \ ETCD_POD_NAME --container etcd --namespace kube-system \ -- bin/sh
Desde la shell dentro del contenedor de etcd, usa
etcdctl
(la versión 3 de la API) para guardar una instantánea,snapshot.db
, del almacén de etcd.ETCDCTL_API=3 etcdctl --endpoints=https://127.0.0.1:2379 \ --cacert=/etc/kubernetes/pki/etcd/ca.crt \ --cert=/etc/kubernetes/pki/etcd/peer.crt \ --key=/etc/kubernetes/pki/etcd/peer.key \ snapshot save /tmp/snapshotDATESTAMP.db
Reemplaza DATESTAMP por la fecha actual para evitar reemplazar las instantáneas posteriores.
Sal de la shell en el contenedor y ejecuta el siguiente comando para copiar el archivo de instantáneas en la estación de trabajo de administrador.
kubectl --kubeconfig CLUSTER_KUBECONFIG cp \ kube-system/ETCD_POD_NAME:/tmp/snapshot.db \ --container etcd snapshot.db
Copia el objeto binario
etcdctl
del Pod de etcd para que se pueda usar lo mismo durante el proceso de restablecimiento.kubectl --kubeconfig CLUSTER_KUBECONFIG cp \ kube-system/ETCD_POD_NAME:/usr/local/bin/etcdctl \ --container etcd etcdctl
Almacena el archivo de instantánea y el objeto binario
etcdctl
en una ubicación que esté fuera del clúster y no dependa de la operación de este.
Archiva los certificados de PKI
Los certificados para crear una copia de seguridad se encuentran en el directorio /etc/kubernetes/pki
del plano de control. Los certificados de PKI, junto con el archivo snapshot.db
del almacén de etcd, son necesarios para recuperar un clúster en caso de que el plano de control se interrumpa por completo. Los siguientes pasos crean un archivo tar y contienen los certificados de PKI.
Usa
ssh
para conectarte al plano de control del clúster como raíz.ssh root@CONTROL_PLANE_NAME
En el plano de control, crea un archivo tar,
certs_backup.tar.gz
, con el contenido del directorio/etc/kubernetes/pki
.tar -czvf certs_backup.tar.gz -C /etc/kubernetes/pki .
Crea el archivo tar desde el plano de control conserva todos los permisos del archivo de certificado.
Sal del plano de control y, en la estación de trabajo, copia el archivo tar y que contiene los certificados para una ubicación preferida de la estación de trabajo.
sudo scp root@CONTROL_PLANE_NAME:certs_backup.tar.gz BACKUP_PATH
Restablece un clúster
Restablecer un clúster desde una copia de seguridad es el último recurso y se debe usar cuando un clúster falla de manera catastrófica y no puede regresar al servicio de ninguna otra manera. Por ejemplo, los datos etcd están dañados o el Pod de etcd está en un bucle de falla.
El proceso de restablecimiento del clúster tiene dos partes. En primer lugar, los certificados de PKI se restablecen en el plano de control. A continuación, se restablecen los datos de almacén de etcd.
Restablece certificados de la PKI
Si suponemos que creaste copias de seguridad de certificados PKI como se describe en Archiva los certificados de PKI, en los pasos siguientes, se describe cómo restablecer los certificados del archivo tar a un plano de control.
Copia el archivo tar de certificados de PKI,
certs_backup.tar.gz
, de la estación de trabajo al plano de control del clúster.sudo scp -r BACKUP_PATH/certs_backup.tar.gz root@CONTROL_PLANE_NAME:~/
Usa
ssh
para conectarte al plano de control del clúster como raíz.ssh root@CONTROL_PLANE_NAME
Desde el plano de control, extrae el contenido del archivo tar en el directorio
/etc/kubernetes/pki
.tar -xzvf certs_backup.tar.gz -C /etc/kubernetes/pki/
Sal del plano de control.
Restablece el almacén de etcd
Cuando restableces el almacén de etcd, el proceso depende de si el clúster se ejecuta o no en modo de alta disponibilidad (HA) y, de ser así, de si se conservó o no quórum. Usa la siguiente guía a fin de restablecer el almacén de etcd para una situación de falla de clúster determinada:
Si el clúster con errores no se ejecuta en modo de alta disponibilidad, restablece el almacén de etcd en el plano de control con los siguientes pasos.
Si el clúster se ejecuta en modo de alta disponibilidad y el quórum se conserva, no realices ninguna acción. Siempre que se conserve un quórum, no necesitas restablecer los clústeres con errores.
Si el clúster se ejecuta en modo de alta disponibilidad y se pierde quórum, repite los siguientes pasos a fin de restablecer el almacén de etcd para cada miembro con errores.
Sigue estos pasos de la estación de trabajo para quitar y restablecer el almacén de etcd en un plano de control de un clúster con errores:
Crea un directorio
/backup
en el directorio raíz del plano de control.ssh root@CONTROL_PLANE_NAME "mkdir /backup"
Este paso no es estrictamente obligatorio, pero lo recomendamos. En los siguientes pasos, se supone que creaste un directorio
/backup
.Copia el archivo de instantánea de etcd,
snapshot.db
, y el objeto binarioetcdctl
de la estación de trabajo en el directoriobackup
del plano de control del clúster.sudo scp snapshot.db root@CONTROL_PLANE_NAME:/backup sudo scp etcdctl root@CONTROL_PLANE_NAME:/backup
Para detener los Pods estáticos de etcd y kube-apiserver, mueve los archivos de manifiesto del directorio
/etc/kubernetes/manifests
al directorio/backup
.sudo mv /etc/kubernetes/manifests/etcd.yaml /backup/etcd.yaml sudo mv /etc/kubernetes/manifests/kube-apiserver.yaml /backup/kube-apiserver.yaml
Quita el directorio de datos de etcd.
rm -rf /var/lib/etcd/
Ejecuta el restablecimiento de instantánea de
etcdctl
mediante el objeto binario guardado.sudo chmod +x /backup/etcdctl sudo ETCDCTL_API=3 /backup/etcdctl \ --cacert=/etc/kubernetes/pki/etcd/ca.crt \ --cert=/etc/kubernetes/pki/etcd/server.crt \ --key=/etc/kubernetes/pki/etcd/server.key \ --data-dir=/var/lib/etcd \ --name=CONTROL_PLANE_NAME \ --initial-advertise-peer-urls=https://CONTROL_PLANE_IP:2380 \ --initial-cluster=CONTROL_PLANE_NAME=https://CONTROL_PLANE_IP:2380 \ snapshot restore /backup/snapshot.db
Las entradas para
--name
,--initial-advertise-peer-urls
y--initial-cluster
se pueden encontrar en el archivo de manifiestoetcd.yaml
que se movió al directorio/backup
.Asegúrate de que se haya vuelto a crear
/var/lib/etcd
y que se cree un miembro nuevo en/var/lib/etcd/member
.Cambia el propietario del directorio
/var/lib/etcd/member
a2003
. A partir de la versión1.10.0
de Anthos, el contenedoretcd
se ejecuta como usuario no raíz con UID y GID de2003
.sudo chown -R 2003:2003 /var/lib/etcd
Mueve los manifiestos de etcd y kube-apiserver de nuevo al directorio
/manifests
para que los Pods estáticos puedan reiniciarse.sudo mv /backup/etcd.yaml /etc/kubernetes/manifests/etcd.yaml sudo mv /backup/kube-apiserver.yaml /etc/kubernetes/manifests/kube-apiserver.yaml
Usa
etcdctl
para confirmar que el miembro agregado funciona de forma correcta.ETCDCTL_API=3 etcdctl --cert=/etc/kubernetes/pki/etcd/peer.crt \ --key=/etc/kubernetes/pki/etcd/peer.key \ --cacert=/etc/kubernetes/pki/etcd/ca.crt \ --endpoints=CONTROL_PLANE_IP:2379 \ endpoint health
Si restableces varios miembros con fallas, una vez que se hayan restablecido todos los miembros con fallas, ejecuta el comando con las direcciones IP del plano de control de todos los miembros restablecidos en el campo “--endpoints”.
Por ejemplo:
ETCDCTL_API=3 etcdctl --cert=/etc/kubernetes/pki/etcd/peer.crt \ --key=/etc/kubernetes/pki/etcd/peer.key \ --cacert=/etc/kubernetes/pki/etcd/ca.crt \ --endpoints=10.200.0.3:2379,10.200.0.4:2379,10.200.0.5:2379 \ endpoint health
Si se ejecuta de forma correcta para cada extremo, tu clúster debería funcionar bien.
¿Qué sigue?
- Más información sobre cómo borrar clústeres.