Comprendi l'impatto degli errori in Google Distributed Cloud

Google Distributed Cloud è progettato per limitare l’ambito degli errori e dare priorità una funzionalità essenziale per la continuità aziendale. Questo documento spiega come la funzionalità dei cluster ne influisce in caso di errore. Questo informazioni possono aiutarti a dare la priorità alle aree da risolvere in caso di problemi.

Se hai bisogno di ulteriore assistenza, contatta Assistenza clienti Google Cloud.

Le funzionalità di base di Google Distributed Cloud includono le seguenti categorie:

  • Esegui carichi di lavoro: i carichi di lavoro esistenti possono continuare a essere eseguiti. Questo è il livello un'importante considerazione per mantenere la continuità aziendale. Anche se il tuo cluster ha un problema, i carichi di lavoro esistenti potrebbero continuare a essere eseguiti senza un'interruzione del servizio.
  • Gestione dei carichi di lavoro: puoi creare, aggiornare ed eliminare i carichi di lavoro. Questo è la seconda considerazione più importante per scalare i carichi di lavoro quando il traffico aumenta, anche se il cluster ha un problema.
  • Gestire i cluster utente: puoi gestire i nodi, eseguire l'aggiornamento, eseguire l'upgrade e l'eliminazione cluster utente. Questo aspetto è meno importante del ciclo di vita dell'applicazione. diverse considerazioni. Se è disponibile capacità sui nodi esistenti, l'impossibilità di modificare i cluster utente non influisce sui carichi di lavoro degli utenti.
  • Gestire i cluster di amministrazione: puoi aggiornare ed eseguire l'upgrade del cluster di amministrazione.
    • Per i deployment che utilizzano cluster di amministrazione e utenti separati, questo è il valore minimo considerazione importante perché il cluster di amministrazione non ospita carichi di lavoro con scale out impegnativi. Se il cluster di amministrazione ha un problema, le applicazioni su altri cluster continuano a essere eseguite senza interruzioni.
    • Se utilizzi altri modelli di deployment, ad esempio ibrido o autonomo, l'amministratore dei carichi di lavoro delle applicazioni. Se il cluster di amministrazione ha un problema se il piano di controllo non è attivo, non puoi nemmeno gestire i carichi di lavoro componenti del cluster utente.

Le sezioni seguenti utilizzano queste categorie di funzionalità di base per descrivere l'impatto di tipi specifici di scenari di errore. In caso di interruzione, parte di uno scenario di errore, anche la durata (ordine) dell'interruzione è ove possibile.

Errori del nodo

Un nodo in Google Distributed Cloud potrebbe smettere di funzionare o diventare irraggiungibile sul in ogni rete. A seconda del pool di nodi e del cluster di cui fa parte la macchina in errore esistono diverse modalità di errore.

Nodo piano di controllo

La seguente tabella illustra il comportamento dei nodi che fanno parte del gruppo di controllo in Google Distributed Cloud:

Esegui carichi di lavoro Gestione dei carichi di lavoro Gestione dei cluster utente Gestione dei cluster di amministrazione
Interruzione (durata) Nessuna interruzione Possibile interruzione (sconosciuta) Possibile interruzione (sconosciuta) Possibile interruzione (sconosciuta)
Spiegazione Se l'errore del nodo interessa il singolo nodo del piano di controllo in una ad alta disponibilità o se interessa non meno di dei nodi del piano di controllo in un cluster utente ad alta disponibilità, e un'interruzione del servizio. Il quorum del piano di controllo del cluster utente è andato perduto. Se l'errore del nodo interessa il singolo nodo del piano di controllo in una piattaforma non ad alta disponibilità di amministrazione di Google o se interessa almeno la metà del piano di controllo di nodi in un cluster di amministrazione ad alta disponibilità, si verifica un'interruzione. Il piano di controllo viene perso il quorum del cluster di amministrazione. Se l'errore del nodo interessa il singolo nodo del piano di controllo in una piattaforma non ad alta disponibilità di amministrazione di Google o se interessa almeno la metà del piano di controllo di nodi in un cluster di amministrazione ad alta disponibilità, si verifica un'interruzione. Il piano di controllo viene perso il quorum del cluster di amministrazione.
Recupero Per ulteriori informazioni, consulta Come ripristinare la perdita del quorum. Per ulteriori informazioni, consulta Come ripristinare la perdita del quorum. Per ulteriori informazioni, consulta Come ripristinare la perdita del quorum.
Prevenzione Esegui il deployment dei cluster utente in modalità ad alta disponibilità per ridurre al minimo la possibilità e un'interruzione del servizio. Esegui il deployment dei cluster di amministrazione in modalità ad alta disponibilità per ridurre al minimo la possibilità e un'interruzione del servizio. Esegui il deployment dei cluster di amministrazione in modalità ad alta disponibilità per ridurre al minimo la possibilità e un'interruzione del servizio.

Nodo del bilanciatore del carico

La seguente tabella illustra il comportamento dei nodi che ospitano i bilanciatori del carico in Google Distributed Cloud. Queste indicazioni si applicano solo ai bilanciatori del carico in bundle con modalità livello 2. Per il bilanciamento del carico manuale, consulta le modalità di errore dei bilanciatori del carico esterni:

Esegui carichi di lavoro Gestione dei carichi di lavoro Gestione dei cluster utente Gestione dei cluster di amministrazione
Interruzione (durata) Possibile interruzione (varia) Possibile interruzione (varia) Possibile interruzione (varia) Possibile interruzione (varia)
Spiegazione Se i carichi di lavoro esterni si basano sul bilanciatore del carico del piano dati per comunicare con i carichi di lavoro nel cluster e avere un solo si è verificata un'interruzione. L'indirizzo IP virtuale del piano di controllo del cluster utente si trova su a un nodo del bilanciatore del carico. Se il pool di nodi del bilanciatore del carico dell'utente un cluster non è ad alta disponibilità, si verifica un'interruzione. L'indirizzo IP virtuale del piano di controllo del cluster di amministrazione si trova su a un nodo del bilanciatore del carico. Se il pool di nodi del bilanciatore del carico dell'amministratore un cluster non è ad alta disponibilità, si verifica un'interruzione. L'indirizzo IP virtuale del piano di controllo del cluster di amministrazione si trova su a un nodo del bilanciatore del carico. Se il pool di nodi del bilanciatore del carico dell'amministratore un cluster non è ad alta disponibilità, si verifica un'interruzione.
Recupero

Se sono presenti più nodi del bilanciatore del carico, Il failover di MetalLB avviene entro pochi secondi.

Se non ad alta disponibilità, valuta la possibilità di eseguire il deployment di nodi aggiuntivi del bilanciatore del carico.

In caso di alta disponibilità, il failover è automatico nell'ordine dei secondi.

Se non ad alta disponibilità, valuta la possibilità di eseguire il deployment di nodi del bilanciatore del carico aggiuntivi

In caso di alta disponibilità, il failover è automatico nell'ordine dei secondi.

Se non ad alta disponibilità, valuta la possibilità di eseguire il deployment di nodi aggiuntivi del bilanciatore del carico.

In caso di alta disponibilità, il failover è automatico nell'ordine dei secondi.

Se non ad alta disponibilità, valuta la possibilità di eseguire il deployment di nodi aggiuntivi del bilanciatore del carico.

Prevenzione Per ridurre al minimo la possibilità di interruzione, esegui il deployment del bilanciatore del carico di nodi in modalità ad alta disponibilità. Per ridurre al minimo la possibilità di interruzione, esegui il deployment del bilanciatore del carico di nodi in modalità ad alta disponibilità. Per ridurre al minimo la possibilità di interruzione, esegui il deployment del bilanciatore del carico di nodi in modalità ad alta disponibilità. Per ridurre al minimo la possibilità di interruzione, esegui il deployment del bilanciatore del carico di nodi in modalità ad alta disponibilità.

Nodo worker

La seguente tabella illustra il comportamento dei nodi worker in Google Distributed Cloud:

Esegui carichi di lavoro Gestione dei carichi di lavoro Gestione dei cluster utente Gestione dei cluster di amministrazione
Interruzione (durata) Possibile interruzione (ordine di secondi) Nessuna interruzione Nessuna interruzione Nessuna interruzione
Spiegazione

Pods in esecuzione sul nodo con errore è interrotto, e sono riprogrammata automaticamente altri nodi integri con un timeout di eliminazione predefinito pari a 5 minuti.

Se le applicazioni utente hanno una capacità di carico di lavoro di riserva e sono distribuite su più nodi, l'interruzione non è osservabile dai client che e implementare di nuovo i nuovi tentativi.

Pods viene riavviato automaticamente in stato integro nodi.

Se il cluster non ha capacità di riserva, l'interruzione potrebbe durare fino all'aggiunta di nuovi nodi al cluster.

Recupero Se il cluster non ha capacità di riserva, devi eseguire il deployment nodi distribuiti in più zone di errore e spostano i carichi di lavoro non riusciti i nuovi nodi.
Prevenzione

Esegui il deployment di nodi distribuiti in più zone di errore.

Esegui il deployment di carichi di lavoro con più repliche distribuite su più le zone di errore per ridurre al minimo la possibilità di interruzioni.

Errore di archiviazione

Lo spazio di archiviazione in Google Distributed Cloud potrebbe smettere di funzionare o non essere raggiungibile sul in ogni rete. A seconda della capacità di archiviazione non funzionante, esistono in modalità di errore.

etcd

I contenuti delle directory /var/lib/etcd e /var/lib/etcd-events potrebbero si danneggiano in caso di interruzione non corretta del nodo o un errore di archiviazione sottostante. La seguente tabella illustra il comportamento funzionalità di base a causa di etcd errori:

Esegui carichi di lavoro Gestione dei carichi di lavoro Gestione dei cluster utente Gestione dei cluster di amministrazione
Interruzione (durata) Nessuna interruzione Possibile interruzione (sconosciuta) Possibile interruzione (sconosciuta) Possibile interruzione (sconosciuta)
Spiegazione Se i carichi di lavoro esistenti non si basano sul piano di controllo Kubernetes, continuano a funzionare senza interruzioni. Se etcd non riesce su un singolo cluster utente del piano di controllo, oppure non supera la metà dei nodi del piano di controllo in un utente si verifica un'interruzione. Il quorum del piano di controllo dell'utente viene perso. Se etcd non riesce su un cluster di amministrazione di un singolo piano di controllo, oppure non supera la metà dei nodi del piano di controllo in un amministratore ad alta disponibilità si verifica un'interruzione. Il quorum del piano di controllo dell'amministratore viene perso. Se etcd non riesce su un cluster di amministrazione di un singolo piano di controllo, oppure non supera la metà dei nodi del piano di controllo in un amministratore ad alta disponibilità si verifica un'interruzione. Il quorum del piano di controllo dell'amministratore viene perso.
Recupero Per ulteriori informazioni, consulta Come ripristinare la perdita del quorum. Per ulteriori informazioni, consulta Come ripristinare la perdita del quorum. Per ulteriori informazioni, consulta Come ripristinare la perdita del quorum.
Prevenzione Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei cluster utente ad alta disponibilità . Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei cluster di amministrazione nell'alta disponibilità . Per ridurre al minimo la possibilità di interruzioni, esegui il deployment dei cluster di amministrazione nell'alta disponibilità .

Applicazione utente PersistentVolume

La seguente tabella illustra il comportamento della funzionalità di base a causa della errore di PersistentVolume:

Esegui carichi di lavoro Gestione dei carichi di lavoro Gestione dei cluster utente Gestione dei cluster di amministrazione
Interruzione (durata) Possibile interruzione (sconosciuta) Nessuna interruzione Nessuna interruzione Nessuna interruzione
Spiegazione I carichi di lavoro che utilizzano l'istanza PersistentVolume are affected. non riuscita
Recupero
Prevenzione Per ridurre al minimo la possibilità di interruzioni, esegui il deployment del carico di lavoro dell'utente in modalità ad alta disponibilità.

Disco danneggiato in bit Fluent

Il danneggiamento di un disco bit Fluent non influisce sulle funzionalità di base, ma influisce sulla capacità di raccogliere e ispezionare i log su Google Cloud.

A volte l'evento SIGSEGV può essere osservato nei log di stackdriver-log-forwarder. Questo errore potrebbe essere causato dall'errore i log inseriti nel buffer sul disco.

Fluent Bit dispone di un meccanismo per filtrare e rilasciare i blocchi rotti. Questo è disponibile nella versione fluent-bit (v1.8.3) usata in Google Distributed Cloud.

Su LoadBalancer IP

Se tutti gli indirizzi IP nei pool assegnati sono attualmente occupati, i servizi LoadBalancer creati non possono acquisire un indirizzo IP LoadBalancer. Questo influenza la capacità dei client del servizio di comunicare LoadBalancer servizi.

Per ripristinare i dati dopo l'esaurimento dell'indirizzo IP, assegnare altri indirizzi IP al pool di indirizzi modificando la risorsa personalizzata del cluster.

Scadenza del certificato

Google Distributed Cloud genera un'autorità di certificazione autofirmata (CA) durante il processo di installazione del cluster. La CA ha una scadenza di 10 anni ed è responsabile per la generazione di certificati, che scadono dopo un anno. Ruota i certificati regolarmente, per evitare tempi di inattività del cluster. Puoi ruotare i certificati per eseguire l'upgrade del cluster, operazione consigliata . Se non riesci a eseguire l'upgrade del cluster, puoi eseguire una rotazione di CA on demand. Per ulteriori informazioni sui certificati cluster, consulta Certificati e requisiti PKI nella documentazione di Kubernetes.

Se i certificati del cluster sono scaduti, devono essere rinnovato manualmente.

Esegui carichi di lavoro Gestione dei carichi di lavoro Gestione dei cluster utente Gestione dei cluster di amministrazione
Interruzione (durata) Nessuna interruzione Possibile interruzione (sconosciuta) Possibile interruzione (sconosciuta) Possibile interruzione (sconosciuta)
Spiegazione Se i carichi di lavoro degli utenti non comunicano con il piano di controllo Kubernetes non ci saranno interruzioni. Se le autorità di certificazione per i cluster utente scadono, sarà un'interruzione del servizio. Se le autorità di certificazione per i cluster di amministrazione scadono, potrebbe rappresentare un'interruzione. Se le autorità di certificazione per i cluster utente scadono, è e un'interruzione del servizio.
Recupero

Segui la procedura per rinnovare manualmente i certificati su per il cluster utente.

Segui la procedura per rinnovare manualmente i certificati su per il cluster utente.

Segui la procedura per rinnovare manualmente i certificati su per il cluster utente.

Prevenzione La configurazione monitora la scadenza del certificato. Esempio la metrica kubelet_certificate_manager_server_expiration_seconds può disponibile nell'elenco delle metriche.

Errori di upgrade

Esegui carichi di lavoro Gestione dei carichi di lavoro Gestione dei cluster utente Gestione dei cluster di amministrazione
Interruzione (durata) Nessuna interruzione Nessuna interruzione Possibile interruzione (sconosciuta) Possibile interruzione (sconosciuta)
Spiegazione

Se l'upgrade non va a buon fine sul piano di controllo del cluster utente, delle interruzioni ai carichi di lavoro esistenti.

Se l'upgrade non riesce su un determinato nodo worker, i carichi di lavoro il nodo verrà svuotato e spostato in altri nodi integri se c'è una capacità aggiuntiva sui nodi integri.

L'upgrade verrà interrotto se uno dei nodi del piano di controllo non riesce upgrade. Il cluster è ancora funzionante se l'upgrade non va a buon fine il cluster utente è ad alta disponibilità. Se l'upgrade non va a buon fine sul piano di controllo del cluster di amministrazione, un'interruzione del servizio fino al termine dell'upgrade. Se l'upgrade non va a buon fine sul piano di controllo del cluster di amministrazione, un'interruzione del servizio fino al termine dell'upgrade.
Recupero È possibile eseguire l'upgrade. Per ulteriori informazioni, scopri come diagnosticare i problemi di upgrade e riprendi. È possibile eseguire l'upgrade. Per ulteriori informazioni, scopri come diagnosticare i problemi di upgrade e riprendi.
Prevenzione Per ulteriori informazioni, scopri come creare un backup prima di eseguire l'upgrade. Per ulteriori informazioni, scopri come creare un backup prima di eseguire l'upgrade.

Passaggi successivi