Comprendere l'impatto degli errori nei cluster Anthos su Bare Metal

I cluster Anthos su Bare Metal sono progettati per limitare l'ambito degli errori e dare priorità alle funzionalità essenziali per la continuità aziendale. Questo documento spiega in che modo la funzionalità dei tuoi cluster viene influenzata in caso di errore. Queste informazioni possono aiutarti a stabilire le priorità delle aree in cui risolvere eventuali problemi.

La funzionalità di base di Cluster Anthos on bare metal include le seguenti categorie:

Esegui carichi di lavoro: i carichi di lavoro esistenti possono continuare a essere eseguiti. Questo è il fattore più importante per mantenere la continuità aziendale. Anche se il cluster ha un problema, i carichi di lavoro esistenti potrebbero continuare a essere eseguiti senza interruzioni.
Gestione dei carichi di lavoro: puoi creare, aggiornare ed eliminare i carichi di lavoro. Questo è il secondo aspetto più importante per la scalabilità dei carichi di lavoro in caso di aumento del traffico, anche se il cluster ha un problema.
Gestire i cluster utente: puoi gestire i nodi, aggiornare, eseguire l'upgrade ed eliminare i cluster utente. Ciò è meno importante delle considerazioni sul ciclo di vita dell'applicazione. Se c'è capacità disponibile sui nodi esistenti, l'impossibilità di modificare i cluster utente non influisce sui carichi di lavoro degli utenti.
Gestisci i cluster di amministrazione: puoi aggiornare ed eseguire l'upgrade del cluster di amministrazione.
- Per i deployment che utilizzano cluster di amministrazione e utenti separati, questa è la considerazione meno importante perché il cluster di amministrazione non ospita carichi di lavoro degli utenti. Se il cluster di amministrazione presenta un problema, i carichi di lavoro delle applicazioni su altri cluster continuano a essere eseguiti senza interruzioni.
- Se utilizzi altri modelli di deployment, ad esempio ibrido o autonomo, il cluster di amministrazione esegue i carichi di lavoro delle applicazioni. Se il cluster di amministrazione ha un problema e il piano di controllo non è attivo, non puoi anche gestire i carichi di lavoro delle applicazioni o i componenti del cluster utente.

Le seguenti sezioni utilizzano queste categorie di funzionalità di base per descrivere l'impatto di tipi specifici di scenari di errore. Quando si verifica un'interruzione nell'ambito di uno scenario di errore, viene registrata anche la durata (ordine) dell'interruzione, ove possibile.

Errori dei nodi

Un nodo in Cluster Anthos on bare metal potrebbe smettere di funzionare o diventare non raggiungibile sulla rete. A seconda del pool di nodi e del cluster di cui fa parte la macchina in errore, esistono diverse modalità di errore.

Nodo piano di controllo

La seguente tabella illustra il comportamento dei nodi che fanno parte del piano di controllo nei cluster Anthos su Bare Metal:

	Esegui carichi di lavoro	Gestisci carichi di lavoro	Gestione dei cluster utente	Gestione dei cluster di amministrazione
Interruzione (durata)	Nessuna interruzione	Possibile interruzione (sconosciuta)	Possibile interruzione (sconosciuta)	Possibile interruzione (sconosciuta)
Spiegazione	-	Se l'errore del nodo interessa il singolo nodo del piano di controllo in un cluster utente a disponibilità elevata (HA) o se interessa non meno della metà dei nodi del piano di controllo in un cluster utente ad alta disponibilità, si verifica un'interruzione. Il quorum del piano di controllo del cluster utente è perso.	Se l'errore del nodo influisce sul nodo del piano di controllo in un cluster di amministrazione non ad alta disponibilità o se non interessa meno della metà dei nodi del piano di controllo in un cluster di amministrazione ad alta disponibilità, si verifica un'interruzione. Il quorum del piano di controllo del cluster di amministrazione viene perso.	Se l'errore del nodo influisce sul nodo del piano di controllo in un cluster di amministrazione non ad alta disponibilità o se non interessa meno della metà dei nodi del piano di controllo in un cluster di amministrazione ad alta disponibilità, si verifica un'interruzione. Il quorum del piano di controllo del cluster di amministrazione viene perso.
Recupero	-	Per scoprire di più, consulta l'articolo Come recuperare la perdita di quorum.	Per scoprire di più, consulta l'articolo Come recuperare la perdita di quorum.	Per scoprire di più, consulta l'articolo Come recuperare la perdita di quorum.
Prevenzione	-	Esegui il deployment dei cluster utente in modalità ad alta disponibilità per ridurre al minimo la possibilità di interruzioni.	Esegui il deployment dei cluster di amministrazione in modalità ad alta disponibilità per ridurre al minimo la possibilità di interruzioni.	Esegui il deployment dei cluster di amministrazione in modalità ad alta disponibilità per ridurre al minimo la possibilità di interruzioni.

Nodo bilanciatore del carico

La seguente tabella illustra il comportamento dei nodi che ospitano i bilanciatori del carico in Cluster Anthos su Bare Metal. Queste indicazioni si applicano solo ai bilanciatori del carico in bundle con la modalità di livello 2. Per il bilanciamento del carico manuale, consulta le modalità di errore dei bilanciatori del carico esterni:

	Esegui carichi di lavoro	Gestisci carichi di lavoro	Gestione dei cluster utente	Gestione dei cluster di amministrazione
Interruzione (durata)	Possibile interruzione (varia)	Possibile interruzione (varia)	Possibile interruzione (varia)	Possibile interruzione (varia)
Spiegazione	Se i carichi di lavoro esterni si basano sul bilanciatore del carico del piano dati per comunicare con i carichi di lavoro nel cluster e hai un solo nodo del bilanciatore del carico, si verifica un'interruzione.	L'indirizzo IP virtuale del piano di controllo del cluster utente si trova su un nodo del bilanciatore del carico. Se il pool di nodi del bilanciatore del carico del cluster utente non è ad alta disponibilità, si verifica un'interruzione.	L'indirizzo IP virtuale del piano di controllo del cluster di amministrazione si trova su un nodo del bilanciatore del carico. Se il pool di nodi del bilanciatore del carico del cluster di amministrazione non è ad alta disponibilità, si verifica un'interruzione.	L'indirizzo IP virtuale del piano di controllo del cluster di amministrazione si trova su un nodo del bilanciatore del carico. Se il pool di nodi del bilanciatore del carico del cluster di amministrazione non è ad alta disponibilità, si verifica un'interruzione.
Recupero	Se sono presenti più nodi del bilanciatore del carico, il failover di MetalLB avviene entro pochi secondi. In caso contrario, valuta la possibilità di eseguire il deployment di nodi aggiuntivi del bilanciatore del carico.	Se alta disponibilità, il failover è automatico ed è nell'ordine dei secondi. In caso contrario, valuta la possibilità di eseguire il deployment di nodi aggiuntivi del bilanciatore del carico	Se alta disponibilità, il failover è automatico ed è nell'ordine dei secondi. In caso contrario, valuta la possibilità di eseguire il deployment di nodi aggiuntivi del bilanciatore del carico.	Se alta disponibilità, il failover è automatico ed è nell'ordine dei secondi. In caso contrario, valuta la possibilità di eseguire il deployment di nodi aggiuntivi del bilanciatore del carico.
Prevenzione	Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei pool di nodi del bilanciatore del carico in modalità ad alta disponibilità.	Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei pool di nodi del bilanciatore del carico in modalità ad alta disponibilità.	Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei pool di nodi del bilanciatore del carico in modalità ad alta disponibilità.	Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei pool di nodi del bilanciatore del carico in modalità ad alta disponibilità.

Nodo worker

La seguente tabella illustra il comportamento dei nodi worker nei cluster Anthos su Bare Metal:

	Esegui carichi di lavoro	Gestisci carichi di lavoro	Gestione dei cluster utente	Gestione dei cluster di amministrazione
Interruzione (durata)	Possibile interruzione (ordine dei secondi)	Nessuna interruzione	Nessuna interruzione	Nessuna interruzione
Spiegazione	I `Pods` che vengono eseguiti sul nodo in errore vengono interrotti e vengono pianificati automaticamente su altri nodi integri con un timeout di rimozione predefinito di 5 minuti. Se le applicazioni utente hanno capacità di carico di lavoro di scorta e sono distribuite su più nodi, l'interruzione non è osservabile da client che implementano nuovi tentativi. `Pods` viene riavviato automaticamente sui nodi integri. Se il cluster non ha capacità disponibile, l'interruzione potrebbe durare fino all'aggiunta di nuovi nodi.	-	-	-
Recupero	Se il cluster non ha capacità di riserva, devi eseguire il deployment di più nodi distribuiti in più zone in errore e spostare i carichi di lavoro non riusciti nei nuovi nodi.	-	-	-
Prevenzione	Deployment di nodi distribuiti in più zone in errore. Esegui il deployment di carichi di lavoro con più repliche distribuite in più zone di errore per ridurre al minimo la possibilità di interruzioni.	-	-	-

Errore di archiviazione

L'archiviazione in Cluster Anthos on bare metal potrebbe smettere di funzionare o non essere raggiungibile sulla rete. Esistono diverse modalità di errore, a seconda dell'archiviazione non riuscita.

etcd

I contenuti di etcd potrebbero danneggiarsi a causa dello spegnimento non riuscito del nodo o dell'errore di archiviazione sottostante. La seguente tabella illustra il comportamento della funzionalità di base a causa di errori di etcd:

	Esegui carichi di lavoro	Gestisci carichi di lavoro	Gestione dei cluster utente	Gestione dei cluster di amministrazione
Interruzione (durata)	Nessuna interruzione	Possibile interruzione (sconosciuta)	Possibile interruzione (sconosciuta)	Possibile interruzione (sconosciuta)
Spiegazione	Se i carichi di lavoro esistenti non si basano sul piano di controllo di Kubernetes, continueranno a funzionare senza interruzioni.	Se `etcd` non riesce in un singolo cluster utente del piano di controllo o non meno della metà dei nodi del piano di controllo in un cluster utente ad alta disponibilità, si verifica un'interruzione. Il quorum del piano di controllo del cluster utente è perso.	In caso di errore di `etcd` su un singolo cluster di amministrazione del piano di controllo o su almeno la metà dei nodi del piano di controllo in un cluster di amministrazione ad alta disponibilità, si verifica un'interruzione. Il quorum del piano di controllo del cluster di amministrazione viene perso.	In caso di errore di `etcd` su un singolo cluster di amministrazione del piano di controllo o su almeno la metà dei nodi del piano di controllo in un cluster di amministrazione ad alta disponibilità, si verifica un'interruzione. Il quorum del piano di controllo del cluster di amministrazione viene perso.
Recupero	-	Per scoprire di più, consulta l'articolo Come recuperare la perdita di quorum.	Per scoprire di più, consulta l'articolo Come recuperare la perdita di quorum.	Per scoprire di più, consulta l'articolo Come recuperare la perdita di quorum.
Prevenzione	-	Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei cluster utente in modalità ad alta disponibilità.	Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei cluster di amministrazione in modalità ad alta disponibilità.	Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei cluster di amministrazione in modalità ad alta disponibilità.

Applicazione utente `PersistentVolume`

La seguente tabella illustra il comportamento della funzionalità di base a causa del guasto di un PersistentVolume:

	Esegui carichi di lavoro	Gestisci carichi di lavoro	Gestione dei cluster utente	Gestione dei cluster di amministrazione
Interruzione (durata)	Possibile interruzione (sconosciuta)	Nessuna interruzione	Nessuna interruzione	Nessuna interruzione
Spiegazione	I carichi di lavoro che utilizzano il `PersistentVolume are affected.` non riuscito	-	-	-
Recupero	-	-	-	-
Prevenzione	Per ridurre al minimo la possibilità di interruzioni, esegui il deployment del carico di lavoro utente in modalità ad alta disponibilità.	-	-	-

Disco danneggiato Fluent Bit

Il danneggiamento di un disco Fluent Bit non influisce sulle funzionalità principali, ma influisce sulla capacità di raccogliere e ispezionare i log su Google Cloud.

A volte l'evento SIGSEGV può essere osservato dai log di stackdriver-log-forwarder. Questo errore potrebbe essere causato dai log nel buffer danneggiati sul disco.

Fluent Bit dispone di un meccanismo che consente di filtrare i blocchi rotti. Questa funzionalità è disponibile nella versione con bit fluente (v1.8.3) utilizzata nei cluster Anthos su Bare Metal.

Su `LoadBalancer` IP

Se tutti gli indirizzi IP nei pool assegnati sono attualmente occupati, i nuovi servizi LoadBalancer non possono acquisire un indirizzo IP LoadBalancer. Questo scenario influisce sulla capacità dei client del servizio di comunicare con i servizi LoadBalancer.

Per ripristinare la situazione di esaurimento degli indirizzi IP, assegna più indirizzi IP al pool di indirizzi modificando la risorsa personalizzata del cluster.

Scadenza certificato

I certificati utilizzati nel funzionamento del cluster potrebbero scadere se non viene eseguito l'upgrade del cluster da un anno e non è stata eseguita la rotazione on demand.

	Esegui carichi di lavoro	Gestisci carichi di lavoro	Gestione dei cluster utente	Gestione dei cluster di amministrazione
Interruzione (durata)	Nessuna interruzione	Possibile interruzione (sconosciuta)	Possibile interruzione (sconosciuta)	Possibile interruzione (sconosciuta)
Spiegazione	Se i carichi di lavoro degli utenti non comunicano con i componenti del piano di controllo Kubernetes, non ci saranno interruzioni.	Se le autorità di certificazione per i cluster utente scadono, si verificherà un'interruzione.	Se le autorità di certificazione per i cluster di amministrazione scadono, si verificherà un'interruzione.	Se le autorità di certificazione per i cluster utente scadono, si verificherà un'interruzione.
Recupero	-	Segui i passaggi per attivare manualmente una rotazione dei certificati sul cluster utente. Durante la rotazione della CA, si verificheranno interruzioni.	Segui i passaggi per attivare manualmente una rotazione dei certificati sul cluster di amministrazione. Durante la rotazione della CA, si verificheranno interruzioni.	Segui i passaggi per attivare manualmente una rotazione dei certificati sul cluster di amministrazione. Durante la rotazione della CA, si verificheranno interruzioni.
Prevenzione	Durante la configurazione vengono monitorati per la scadenza dei certificati. Un esempio di metrica "kubelet_certificate_manager_server_expiration_seconds" è disponibile nell'elenco delle metriche.

Errori di upgrade

	Esegui carichi di lavoro	Gestisci carichi di lavoro	Gestione dei cluster utente	Gestione dei cluster di amministrazione
Interruzione (durata)	Nessuna interruzione	Nessuna interruzione	Possibile interruzione (sconosciuta)	Possibile interruzione (sconosciuta)
Spiegazione	Se l'upgrade non va a buon fine nel piano di controllo del cluster utente, non vi è alcuna interruzione dei carichi di lavoro esistenti. Se l'upgrade non riesce su un particolare nodo worker, i carichi di lavoro su quel nodo verranno svuotati e spostati in altri nodi integri se la capacità sui nodi integri è aggiuntiva.	L'upgrade verrà arrestato se l'upgrade di uno dei nodi del piano di controllo non riesce. Il cluster è ancora funzionante se l'upgrade non riesce se il cluster utente è ad alta disponibilità.	Se l'upgrade non va a buon fine nel piano di controllo del cluster di amministrazione, si verifica un'interruzione fino al termine dell'upgrade.	Se l'upgrade non va a buon fine nel piano di controllo del cluster di amministrazione, si verifica un'interruzione fino al termine dell'upgrade.
Recupero	-	-	È possibile riprovare a eseguire l'upgrade. Per ulteriori informazioni, scopri come diagnosticare i problemi di upgrade e riprendere.	È possibile riprovare a eseguire l'upgrade. Per ulteriori informazioni, scopri come diagnosticare i problemi di upgrade e riprendere.
Prevenzione	-	-	Per ulteriori informazioni, scopri come creare un backup prima dell'upgrade.	Per ulteriori informazioni, scopri come creare un backup prima dell'upgrade.

Passaggi successivi

Per ulteriori informazioni sui problemi noti del prodotto e sulle soluzioni alternative, consulta Problemi noti di Anthos clusters on bare metal.

Comprendere l'impatto degli errori nei cluster Anthos su Bare Metal

Errori dei nodi

Nodo piano di controllo

Nodo bilanciatore del carico

Nodo worker

Errore di archiviazione

etcd

Applicazione utente PersistentVolume

Disco danneggiato Fluent Bit

Su LoadBalancer IP

Scadenza certificato

Errori di upgrade

Passaggi successivi

Applicazione utente `PersistentVolume`

Su `LoadBalancer` IP