Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1
Questa pagina descrive come eseguire test di failover di database e cluster per ambienti altamente resilienti.
I test di failover per il tuo ambiente simulano un'interruzione completa di una zona in un centro dati. In questo scenario, potrebbero verificarsi contemporaneamente un'interruzione di servizio di un cluster e un'interruzione di servizio di un database. Eseguendo i due test di failover, puoi monitorare il modo in cui il tuo ambiente altamente resiliente esegue un failover e verificare in che modo questo influisce sulle DAG e sulle attività.
Prima di iniziare
Per eseguire test di failover, il tuo account deve disporre dei seguenti ruoli e autorizzazioni:
composer.environments.update
. Per un elenco dei ruoli con questa autorizzazione, consulta Controllo dell'accesso con IAM.Il ruolo Amministratore cluster Kubernetes Engine (
roles/container.clusterAdmin
) per eseguire comandikubectl
sul cluster dell'ambiente. Come alternativa, puoi eseguire il provisioning dei ruoli RBAC di Kubernetes direttamente in GKE.
Se utilizzi reti autorizzate, devi eseguire i comandi
kubectl
da una macchina che possa accedere all'endpoint del piano di controllo del cluster GKE. A seconda di come configurerai l'accesso all'endpoint del piano di controllo del tuo ambiente, puoi utilizzare diverse opzioni. Per ulteriori informazioni, consulta Eseguire comandi in un ambiente IP privato.
Verificare che l'ambiente sia integro
Assicurati di eseguire i test di failover del cluster del database e dell'ambiente solo su ambienti sani.
Per verificare che l'ambiente sia integro:
Nella console Google Cloud, vai alla pagina Ambienti.
Nell'elenco degli ambienti, fai clic sul nome dell'ambiente. Viene visualizzata la pagina Dettagli dell'ambiente.
Vai alla scheda Monitoraggio.
Assicurati che tutte le metriche di salute siano verdi.
Esegui un test di failover del database
Puoi eseguire un test di failover del database, che simula un'interruzione di servizio zonale, attivandolo con un comando Google Cloud CLI. Ad esempio, potresti volerlo fare per misurare il tempo necessario al database del tuo ambiente per passare a un'altra zona.
Per eseguire un test di failover del database per il tuo ambiente:
Assicurati che il tuo ambiente sia integro.
Ottieni la zona principale del database del tuo ambiente:
gcloud composer environments fetch-database-properties \ ENVIRONMENT_NAME \ --location LOCATION
Sostituisci quanto segue:
ENVIRONMENT_NAME
: il nome dell'ambiente Cloud Composer.LOCATION
: la regione in cui si trova l'ambiente.
Esempio:
gcloud composer environments fetch-database-properties \ example-environment \ --location us-central1
Avvia il test di failover del database:
gcloud composer environments database-failover \ ENVIRONMENT_NAME \ --location LOCATION
Sostituisci quanto segue:
ENVIRONMENT_NAME
: il nome dell'ambiente Cloud Composer.LOCATION
: la regione in cui si trova l'ambiente.
Esempio:
gcloud composer environments database-failover \ example-environment \ --location us-central1
Attendi il completamento del test di failover del database. L'operazione può richiedere fino a 3 minuti.
Verifica che la zona principale del database del tuo ambiente sia modificata:
gcloud composer environments fetch-database-properties \ ENVIRONMENT_NAME \ --location LOCATION
Controlla le metriche di salute del tuo ambiente per assicurarti che sia in buono stato.
Il database dell'ambiente diventa pronto per un altro failover quando la metrica dell'ambiente Database disponibile per il failover (
composer.googleapis.com/environment/database/available_for_failover
) diventaTrue
. Per ulteriori informazioni su come visualizzare le metriche del tuo ambiente in Cloud Monitoring, consulta Monitorare gli ambienti.
Esegui il test di failover del cluster dell'ambiente
Puoi eseguire un test di failover per il cluster del tuo ambiente, che simula un'interruzione di servizio zonale. Ad esempio, potresti volerlo fare per misurare il tempo necessario per il passaggio del tuo ambiente a un'altra zona.
Verificare che l'ambiente sia integro
Prima di iniziare il test, assicurati che l'ambiente sia in buono stato.
Configura le credenziali per il cluster del tuo ambiente
Per ottenere le credenziali del cluster:
Nella console Google Cloud, vai alla pagina Ambienti.
Nell'elenco degli ambienti, fai clic sul nome dell'ambiente. Viene visualizzata la pagina Dettagli dell'ambiente.
Vai alla scheda Configurazione dell'ambiente.
Fai clic su Visualizza i dettagli del cluster.
Fai clic su Connetti.
Copia ed esegui il comando Google Cloud CLI visualizzato.
Ad esempio:
gcloud container clusters get-credentials \ us-central1-exam-db23ee12-gke \ --region us-central1 \ --project example-project
Controllare il cluster dell'ambiente
Controlla le zone e i nodi in cui vengono eseguiti i carichi di lavoro nel cluster del tuo ambiente. Utilizzerai queste informazioni per simulare un'interruzione di servizio zonale in un secondo momento. Puoi anche eseguire nuovamente questi comandi durante l'esecuzione del test di failover per vedere come il cluster del tuo ambiente esegue il failover.
Controlla i nodi e le zone:
kubectl get nodes \ -o=custom-columns=NAME:.metadata.name,NODE:.metadata.labels.topology\\.gke\\.io/zone
Controlla i pod:
kubectl get pods --all-namespaces \ -o=custom-columns=NAME:.metadata.name,STATUS:.status.phase,NODE:.spec.nodeName \ --field-selector metadata.namespace!=kube-system
Visualizza informazioni più dettagliate sui pod:
kubectl get pods --all-namespaces -o wide \ --field-selector metadata.namespace!=kube-system
Nodi di scarico
Scegli una zona in cui vuoi simulare un'interruzione. Se esegui il test di failover del cluster insieme al test di failover del database, ti consigliamo di scegliere la zona principale dell'istanza Cloud SQL ad alta disponibilità del tuo ambiente.
Ad esempio, se l'istanza Cloud SQL principale viene eseguita in us-central1-a
, puoi simulare un'interruzione nell'intera zona us-central1-a
eseguendo prima il test di failover del database e poi il test di failover del cluster in us-central1-a
.
Il seguente comando simula la mancata disponibilità di un insieme di nodi in una zona specifica. Rimuove forzatamente i pod dai nodi nella zona specificata e impedisce la ripianificazione dei pod su questi nodi. Poiché non è possibile pianificare nuovi pod, vengono aggiunti nuovi nodi al cluster.
Questo comando non influisce sui carichi di lavoro eseguiti nello spazio dei nomi composer-system
. Potresti visualizzare messaggi di errore correlati nell'output del comando. Ciò
non influisce sul test di failover. I nodi esistenti nella zona selezionata
sono ancora contrassegnati come non pianificabili.
Per simulare un errore nella zona del cluster selezionata:
kubectl get nodes -o name -l "topology.gke.io/zone=ZONE" | \
xargs kubectl drain \
--ignore-daemonsets --delete-emptydir-data --force --disable-eviction
Sostituisci quanto segue:
ZONE
: la zona in cui vuoi simulare un errore della zona del cluster.
Controllare le metriche dell'ambiente

Nella console Google Cloud, vai alla pagina Ambienti.
Nell'elenco degli ambienti, fai clic sul nome dell'ambiente. Viene visualizzata la pagina Dettagli dell'ambiente.
Vai alla scheda Monitoraggio.
Verifica che le seguenti metriche siano "verdi" durante l'operazione di failover o che rimangano nello stato "rosso" per massimo alcuni minuti.
- Integrità dell'ambiente
- Heartbeat dello scheduler
- Integrità del server web
- Integrità del database
- Worker attivi
- Scheduler attivi
- Server web attivi
- Trigger attivi
Tieni presente che l'interruzione simulata è contrassegnata come "Operazione di manutenzione del cluster".
Non è necessario eseguire altre azioni per ripristinare la disponibilità al failover del cluster dell'ambiente dopo il test. Durante il test, il cluster dell'ambiente aggiunge automaticamente nuovi nodi che sostituiscono quelli interessati dall'interruzione simulata.