Google Distributed Cloud è progettato per limitare l'ambito degli errori e per dare priorità alle funzionalità fondamentali per la continuità aziendale. Questo documento spiega in che modo la funzionalità dei cluster viene influenzata in caso di errore. Queste informazioni possono aiutarti a dare la priorità alle aree da risolvere in caso di problemi.
Se hai bisogno di ulteriore aiuto, contatta l'assistenza clienti Google Cloud.Le funzionalità di base di Google Distributed Cloud includono le seguenti categorie:
- Esegui carichi di lavoro: i carichi di lavoro esistenti possono continuare a essere eseguiti. Questa è la considerazione più importante per mantenere la continuità aziendale. Anche se il cluster ha un problema, i carichi di lavoro esistenti potrebbero continuare a essere eseguiti senza interruzioni.
- Gestione dei carichi di lavoro: puoi creare, aggiornare ed eliminare i carichi di lavoro. Questa è la seconda considerazione più importante per scalare i carichi di lavoro quando il traffico aumenta, anche se il cluster ha un problema.
- Gestire i cluster utente: puoi gestire i nodi, aggiornare, eseguire l'upgrade e eliminare i cluster utente. Questo aspetto è meno importante delle considerazioni sul ciclo di vita dell'applicazione. Se è disponibile capacità sui nodi esistenti, l'incapacità di modificare i cluster utente non influisce sui carichi di lavoro utente.
- Gestire i cluster di amministrazione: puoi aggiornare ed eseguire l'upgrade del cluster di amministrazione.
- Per i deployment che utilizzano cluster di amministrazione e utenti separati, questa è la considerazione meno importante, perché il cluster di amministrazione non ospita alcun carico di lavoro dell'utente. Se il cluster di amministrazione ha un problema, i carichi di lavoro delle applicazioni su altri cluster continuano a essere eseguiti senza interruzioni.
- Se utilizzi altri modelli di deployment, ad esempio ibridi o autonomi, il cluster di amministrazione esegue i carichi di lavoro delle applicazioni. Se il cluster di amministrazione ha un problema e il piano di controllo non è attivo, non potrai inoltre gestire i carichi di lavoro delle applicazioni o i componenti del cluster utente.
Le sezioni seguenti utilizzano queste categorie di funzionalità di base per descrivere l'impatto di tipi specifici di scenari di errore. In caso di interruzione nell'ambito di uno scenario di errore, se possibile viene indicata anche la durata (ordine) dell'interruzione.
Errori del nodo
Un nodo in Google Distributed Cloud potrebbe smettere di funzionare o diventare non raggiungibile sulla rete. A seconda del pool di nodi e del cluster di cui fa parte la macchina in errore, sono disponibili diverse modalità di errore.
Nodo piano di controllo
La seguente tabella illustra il comportamento dei nodi che fanno parte del piano di controllo in Google Distributed Cloud:
Esegui carichi di lavoro | Gestione dei carichi di lavoro | Gestione dei cluster utente | Gestione dei cluster di amministrazione | |
---|---|---|---|---|
Interruzione (durata) | Nessuna interruzione | Possibile interruzione (sconosciuta) | Possibile interruzione (sconosciuta) | Possibile interruzione (sconosciuta) |
Spiegazione | — | Se l'errore del nodo interessa il singolo nodo del piano di controllo in un cluster utente non ad alta disponibilità o se interessa almeno la metà dei nodi del piano di controllo in un cluster utente ad alta disponibilità, si verifica un'interruzione. Il quorum del piano di controllo del cluster utente è andato perduto. | Se l'errore del nodo interessa il singolo nodo del piano di controllo in un cluster di amministrazione non ad alta disponibilità o se interessa almeno la metà dei nodi del piano di controllo in un cluster di amministrazione ad alta disponibilità, si verifica un'interruzione. Il quorum del piano di controllo del cluster di amministrazione è andato perduto. | Se l'errore del nodo interessa il singolo nodo del piano di controllo in un cluster di amministrazione non ad alta disponibilità o se interessa almeno la metà dei nodi del piano di controllo in un cluster di amministrazione ad alta disponibilità, si verifica un'interruzione. Il quorum del piano di controllo del cluster di amministrazione è andato perduto. |
Recupero | — | Per ulteriori informazioni, consulta Come ripristinare la perdita del quorum. | Per ulteriori informazioni, consulta Come ripristinare la perdita del quorum. | Per ulteriori informazioni, consulta Come ripristinare la perdita del quorum. |
Prevenzione | — | Esegui il deployment dei cluster utente in modalità ad alta disponibilità per ridurre al minimo la possibilità di interruzioni. | Esegui il deployment dei cluster di amministrazione in modalità ad alta disponibilità per ridurre al minimo la possibilità di interruzioni. | Esegui il deployment dei cluster di amministrazione in modalità ad alta disponibilità per ridurre al minimo la possibilità di interruzioni. |
Nodo del bilanciatore del carico
La seguente tabella illustra il comportamento dei nodi che ospitano i bilanciatori del carico in Google Distributed Cloud. Queste indicazioni si applicano solo ai bilanciatori del carico in bundle con modalità di livello 2. Per il bilanciamento del carico manuale, consulta le modalità di errore dei bilanciatori del carico esterni:
Esegui carichi di lavoro | Gestione dei carichi di lavoro | Gestione dei cluster utente | Gestione dei cluster di amministrazione | |
---|---|---|---|---|
Interruzione (durata) | Possibile interruzione (varia) | Possibile interruzione (varia) | Possibile interruzione (varia) | Possibile interruzione (varia) |
Spiegazione | Se i carichi di lavoro esterni si basano sul bilanciatore del carico del piano dati per comunicare con i carichi di lavoro nel cluster e hai un solo nodo del bilanciatore del carico, si verifica un'interruzione. | L'indirizzo IP virtuale del piano di controllo del cluster utente risiede su un nodo del bilanciatore del carico. Se il pool di nodi del bilanciatore del carico del cluster utente non è ad alta disponibilità, si verifica un'interruzione. | L'indirizzo IP virtuale del piano di controllo del cluster di amministrazione risiede su un nodo del bilanciatore del carico. Se il pool di nodi del bilanciatore del carico del cluster di amministrazione non è ad alta disponibilità, si verifica un'interruzione. | L'indirizzo IP virtuale del piano di controllo del cluster di amministrazione risiede su un nodo del bilanciatore del carico. Se il pool di nodi del bilanciatore del carico del cluster di amministrazione non è ad alta disponibilità, si verifica un'interruzione. |
Recupero | Se sono presenti più nodi del bilanciatore del carico, il failover di MetalLB avviene entro pochi secondi. In caso contrario, valuta la possibilità di eseguire il deployment di nodi del bilanciatore del carico aggiuntivi. |
In caso di alta disponibilità, il failover è automatico nell'ordine dei secondi. Se non ad alta disponibilità, valuta la possibilità di eseguire il deployment di nodi del bilanciatore del carico aggiuntivi |
In caso di alta disponibilità, il failover è automatico nell'ordine dei secondi. In caso contrario, valuta la possibilità di eseguire il deployment di nodi del bilanciatore del carico aggiuntivi. |
In caso di alta disponibilità, il failover è automatico nell'ordine dei secondi. In caso contrario, valuta la possibilità di eseguire il deployment di nodi del bilanciatore del carico aggiuntivi. |
Prevenzione | Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei pool di nodi del bilanciatore del carico in modalità ad alta disponibilità. | Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei pool di nodi del bilanciatore del carico in modalità ad alta disponibilità. | Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei pool di nodi del bilanciatore del carico in modalità ad alta disponibilità. | Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei pool di nodi del bilanciatore del carico in modalità ad alta disponibilità. |
Nodo worker
La seguente tabella illustra il comportamento dei nodi worker in Google Distributed Cloud:
Esegui carichi di lavoro | Gestione dei carichi di lavoro | Gestione dei cluster utente | Gestione dei cluster di amministrazione | |
---|---|---|---|---|
Interruzione (durata) | Possibile interruzione (ordine di secondi) | Nessuna interruzione | Nessuna interruzione | Nessuna interruzione |
Spiegazione | I Se le applicazioni utente hanno una capacità di riserva per i carichi di lavoro e sono distribuite su più nodi, l'interruzione non è osservabile dai client che implementano nuovi tentativi.
|
— | — | — |
Recupero | Se il cluster non ha capacità di riserva, devi eseguire il deployment di più nodi distribuiti in più zone di errore e spostare i carichi di lavoro non riusciti sui nuovi nodi. | — | — | — |
Prevenzione | Esegui il deployment di nodi distribuiti in più zone di errore. Esegui il deployment di carichi di lavoro con più repliche distribuite su più zone di errore per ridurre al minimo la possibilità di interruzioni. |
— | — | — |
Errore di archiviazione
Lo spazio di archiviazione in Google Distributed Cloud potrebbe smettere di funzionare o non essere raggiungibile sulla rete. A seconda dell'archiviazione in errore, esistono diverse modalità di errore.
etcd
I contenuti delle directory /var/lib/etcd
e /var/lib/etcd-events
potrebbero
diventare danneggiati in caso di spegnimento non corretto del nodo o
un errore sottostante di archiviazione. La seguente tabella illustra il comportamento della funzionalità di base a causa degli errori di etcd
:
Esegui carichi di lavoro | Gestione dei carichi di lavoro | Gestione dei cluster utente | Gestione dei cluster di amministrazione | |
---|---|---|---|---|
Interruzione (durata) | Nessuna interruzione | Possibile interruzione (sconosciuta) | Possibile interruzione (sconosciuta) | Possibile interruzione (sconosciuta) |
Spiegazione | Se i carichi di lavoro esistenti non si basano sul piano di controllo Kubernetes, continueranno a funzionare senza interruzioni. | Se etcd si verifica in errore su un singolo cluster utente del piano di controllo o su almeno la metà dei nodi del piano di controllo in un cluster utente ad alta disponibilità, si verifica un'interruzione. Il quorum del piano di controllo del cluster utente è andato perduto. |
Se etcd si verifica in errore nel cluster di amministrazione di un singolo piano di controllo o in almeno la metà dei nodi del piano di controllo in un cluster di amministrazione ad alta disponibilità, si verifica un'interruzione. Il quorum del piano di controllo del cluster di amministrazione è andato perduto. |
Se etcd si verifica in errore nel cluster di amministrazione di un singolo piano di controllo o in almeno la metà dei nodi del piano di controllo in un cluster di amministrazione ad alta disponibilità, si verifica un'interruzione. Il quorum del piano di controllo del cluster di amministrazione è andato perduto. |
Recupero | — | Per ulteriori informazioni, consulta Come ripristinare la perdita del quorum. | Per ulteriori informazioni, consulta Come ripristinare la perdita del quorum. | Per ulteriori informazioni, consulta Come ripristinare la perdita del quorum. |
Prevenzione | — | Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei cluster utente in modalità ad alta disponibilità. | Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei cluster di amministrazione in modalità ad alta disponibilità. | Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei cluster di amministrazione in modalità ad alta disponibilità. |
Applicazione utente PersistentVolume
La seguente tabella illustra il comportamento della funzionalità di base a causa del
errore di un PersistentVolume
:
Esegui carichi di lavoro | Gestione dei carichi di lavoro | Gestione dei cluster utente | Gestione dei cluster di amministrazione | |
---|---|---|---|---|
Interruzione (durata) | Possibile interruzione (sconosciuta) | Nessuna interruzione | Nessuna interruzione | Nessuna interruzione |
Spiegazione | I carichi di lavoro che utilizzano l'istanza PersistentVolume non riuscita |
— | — | — |
Recupero | — | — | — | — |
Prevenzione | Per ridurre al minimo la possibilità di interruzioni, esegui il deployment del carico di lavoro dell'utente in modalità ad alta disponibilità. | — | — | — |
Disco danneggiato in bit Fluent
Il danneggiamento di un disco a bit Fluent non influisce sulle funzionalità di base, ma sulla capacità di raccogliere e ispezionare i log su Google Cloud.
A volte l'evento SIGSEGV
può essere osservato dai log di
stackdriver-log-forwarder
. Questo errore potrebbe essere causato da log danneggiati nel buffer sul disco.
Fluent Bit dispone di un meccanismo per filtrare e rilasciare i blocchi rotti. Questa funzionalità è disponibile nella versione fluent-bit (v1.8.3) utilizzata in Google Distributed Cloud.
Su LoadBalancer
IP
Se tutti gli indirizzi IP nei pool assegnati sono attualmente occupati, i servizi LoadBalancer
appena creati non possono acquisire un indirizzo IP LoadBalancer
. Questo
scenario influisce sulla capacità dei client del servizio di comunicare con i
servizi LoadBalancer
.
Per risolvere il problema dall'esaurimento degli indirizzi IP, assegna altri indirizzi IP al pool di indirizzi modificando la risorsa personalizzata del cluster.
Scadenza del certificato
Google Distributed Cloud genera un'autorità di certificazione (CA) autofirmata durante il processo di installazione del cluster. La CA ha una scadenza di 10 anni ed è responsabile della generazione dei certificati, che scadono dopo un anno. Ruota regolarmente i certificati per evitare tempi di inattività del cluster. Puoi ruotare i certificati effettuando l'upgrade del cluster, che è il metodo consigliato. Se non riesci a eseguire l'upgrade del cluster, puoi eseguire una rotazione CA on demand. Per ulteriori informazioni sui certificati cluster, consulta Certificati e requisiti PKI nella documentazione Kubernetes.
Se i certificati del cluster sono scaduti, devono essere rinnovati manualmente.
Esegui carichi di lavoro | Gestione dei carichi di lavoro | Gestione dei cluster utente | Gestione dei cluster di amministrazione | |
---|---|---|---|---|
Interruzione (durata) | Nessuna interruzione | Possibile interruzione (sconosciuta) | Possibile interruzione (sconosciuta) | Possibile interruzione (sconosciuta) |
Spiegazione | Se i carichi di lavoro degli utenti non comunicano con i componenti del piano di controllo Kubernetes, non si verificano interruzioni. | Se le autorità di certificazione per i cluster utente scadono, si verificherà un'interruzione. | Se le autorità di certificazione per i cluster di amministrazione scadono, si verificherà un'interruzione. | Se le autorità di certificazione per i cluster utente scadono, si verifica un'interruzione. |
Recupero | — | Segui i passaggi per rinnovare manualmente i certificati nel cluster utente. |
Segui i passaggi per rinnovare manualmente i certificati nel cluster utente. |
Segui i passaggi per rinnovare manualmente i certificati nel cluster utente. |
Prevenzione | La configurazione monitora la scadenza del certificato. Una metrica di esempio kubelet_certificate_manager_server_expiration_seconds è disponibile nell'elenco delle metriche. |
Errori di upgrade
Esegui carichi di lavoro | Gestione dei carichi di lavoro | Gestione dei cluster utente | Gestione dei cluster di amministrazione | |
---|---|---|---|---|
Interruzione (durata) | Nessuna interruzione | Nessuna interruzione | Possibile interruzione (sconosciuta) | Possibile interruzione (sconosciuta) |
Spiegazione | Se l'upgrade non va a buon fine sul piano di controllo del cluster utente, NON si verificano interruzioni dei carichi di lavoro esistenti. Se l'upgrade non riesce su un determinato nodo worker, i carichi di lavoro su quel nodo verranno svuotati e spostati su altri nodi integri, se c'è capacità aggiuntiva sui nodi integri. |
L'upgrade verrà interrotto se non riesce a eseguire l'upgrade di uno dei nodi del piano di controllo. Il cluster è ancora funzionante se l'upgrade non va a buon fine se il cluster utente è ad alta disponibilità. | Se l'upgrade non va a buon fine sul piano di controllo del cluster di amministrazione, l'interruzione subisce un'interruzione fino al termine dell'upgrade. | Se l'upgrade non va a buon fine sul piano di controllo del cluster di amministrazione, l'interruzione subisce un'interruzione fino al termine dell'upgrade. |
Recupero | — | — | È possibile eseguire l'upgrade. Per ulteriori informazioni, scopri come diagnosticare e riprendere l'upgrade. | È possibile eseguire l'upgrade. Per ulteriori informazioni, scopri come diagnosticare e riprendere l'upgrade. |
Prevenzione | — | — | Per ulteriori informazioni, scopri come creare un backup prima di eseguire l'upgrade. | Per ulteriori informazioni, scopri come creare un backup prima di eseguire l'upgrade. |
Passaggi successivi
Per ulteriori informazioni sui problemi noti del prodotto e sulle soluzioni alternative, consulta Problemi noti di Google Distributed Cloud.
- Se hai bisogno di ulteriore aiuto, contatta l'assistenza clienti Google Cloud.