Risolvere i problemi di GKE


Questa pagina elenca le pagine per la risoluzione dei problemi comuni che potresti riscontrare durante l'utilizzo di Google Kubernetes Engine (GKE). Questa pagina è rivolta ad amministratori e architetti, specialisti della sicurezza, specialisti di networking o specialisti di archiviazione che risolvono i problemi relativi alle configurazioni GKE. Per scoprire di più sui ruoli GKE, consulta Ruoli e attività comuni degli utenti GKE.

Se non hai mai risolto problemi in GKE o per una panoramica di alto livello di strumenti e tecniche fondamentali, inizia con Introduzione alla risoluzione dei problemi.

Per diagnosticare e risolvere i problemi che riscontri nelle varie fasi di lavoro con la tua infrastruttura GKE, consulta le seguenti sezioni:

Questa pagina fornisce anche l'accesso ad argomenti più generali per la risoluzione dei problemi:

Per risolvere i problemi di networking di GKE, consulta Risolvi i problemi di networking di GKE nella documentazione sul networking di GKE.

Introduzione alla risoluzione dei problemi

Argomento Descrizione
Introduzione alla risoluzione dei problemi di GKE Inizia a risolvere i problemi di GKE scoprendo il processo complessivo e i concetti fondamentali.
Controllare lo stato e gli incidenti del servizio Scopri come controllare lo stato di GKE e dei servizi Google Cloud correlati per escludere problemi della piattaforma.
Valuta l'integrità del cluster e del workload nella console Google Cloud Scopri come utilizzare la console Google Cloud per esaminare e risolvere i problemi di GKE.
Esamina lo stato di un cluster con kubectl Esplora i comandi e le tecniche comuni di kubectl per diagnosticare i problemi nei cluster e nei workload.
Eseguire analisi storiche con Cloud Logging Scopri come utilizzare in modo efficace Cloud Logging per trovare le cause principali dei problemi in GKE.
Esegui il monitoraggio proattivo con Cloud Monitoring Utilizza le dashboard e le metriche di Cloud Monitoring per identificare, diagnosticare e risolvere i problemi di GKE.
Accelerare la diagnosi con Gemini Cloud Assist Scopri come Gemini può aiutarti a diagnosticare e risolvere i problemi di GKE.
Per riassumere: scenario di risoluzione dei problemi di esempio Segui un esempio passo passo di risoluzione dei problemi di uno scenario comune in GKE.

Configurazione del cluster

Argomento Descrizione
Creazione del cluster Risolvere i problemi relativi alla creazione di cluster.
Cluster Autopilot Diagnostica e risolvi i problemi dei cluster GKE Autopilot, inclusi la creazione del cluster, l'eliminazione dello spazio dei nomi, lo scaling e i problemi relativi ai workload.
Strumento a riga di comando kubectl Risolvi i problemi dello strumento a riga di comando kubectl in GKE, inclusi i problemi di autenticazione e autorizzazione. Questa pagina include anche consigli su come risolvere i problemi del proxy Konnectivity per verificare se è la causa dell'interruzione della risposta ai comandi kubectl logs, attach, exec o port-forward.
Pool di nodi standard Risolvi i problemi relativi ai node pool GKE Standard, inclusi problemi di creazione pool di nodi, provisioning best-effort, metadati dell'istanza danneggiati e migrazione dei carichi di lavoro a nuovi node pool.
Registrazione del nodo Risolvi i problemi che si verificano durante l'aggiunta di nodi al tuo cluster GKE Standard, ad esempio errori di registrazione dei nodi e prerequisiti mancanti per la registrazione corretta dei nodi.
Runtime container Risolvi i problemi relativi ai runtime dei container in GKE, inclusi i problemi relativi a containerd e dockershim e i registri privati.

Archiviazione

Argomento Descrizione
Spazio di archiviazione Risolvi i problemi di archiviazione, inclusi quelli relativi ai dischi permanenti regionali, alle prestazioni del disco e all'espansione del volume.

Sicurezza del cluster

Argomento Descrizione
Autenticazione Risolvi i problemi di autenticazione in GKE, inclusi quelli relativi a RBAC, Workload Identity Federation for GKE e al server di metadati GKE.
Service account Risolvi i problemi relativi ai service account, incluso il ripristino del service account predefinito e l'abilitazione del account di servizio predefinito di Compute Engine.
Secret a livello di applicazione Risolvi i problemi che possono verificarsi durante la configurazione della crittografia dei secret a livello di applicazione, inclusi aggiornamenti non riusciti ed errori in cui non riesci a utilizzare una chiave Cloud KMS o in cui la versione della chiave Cloud KMS è stata eliminata.

L'autorità di certificazione radice del cluster scadrà a breve

Argomento Descrizione
Scadenza dell'autorità di certificazione (CA) radice Se l'autorità di certificazione (CA) radice del tuo cluster sta per scadere, scopri come eseguire una rotazione delle credenziali per evitare che le normali operazioni del cluster vengano interrotte.

Workload

Argomento Descrizione
Workload di cui è stato eseguito il deployment Risolvi gli errori per i carichi di lavoro in esecuzione in un cluster GKE, inclusi PodUnschedulable. Leggi la sezione PodUnschedulable per suggerimenti su errori come MatchNodeSelector e Does not have minimum availability.
Estrazioni di immagini Risolvi i problemi relativi ai pull delle immagini. Scopri le cause di stati come ImagePullBackOff e ErrImagePull e come risolverli correggendo problemi comuni come l'autenticazione e la connettività di rete.
Eventi CrashLoopBackOff Risolvi i problemi relativi agli eventi CrashLoopBackOff in GKE. Diagnostica problemi come esaurimento delle risorse, errori di configurazione delle app e errori del probe di attività.
Eventi OOM Risolvi i problemi relativi agli eventi di esaurimento della memoria (OOM) di Kubernetes. Identificare le cause, distinguere i tipi di eventi e applicare soluzioni efficaci per gli errori OOM a livello di container e nodo.
Workload ARM Risolvi i problemi relativi ai workload ARM, incluso l'arresto anomalo dei pod sui nodi ARM.
TPU Risolvi i problemi relativi alle TPU, inclusi quelli relativi a quota, provisioning automatico dei nodi, configurazione e pianificazione dei workload.
GPU Risolvi i problemi relativi alle GPU, inclusi quelli relativi all'installazione dei driver GPU, agli errori dei plug-in del dispositivo e alle immagini dei container.

Gestione dei cluster

Argomento Descrizione
Upgrade dei cluster Risolvi i problemi di upgrade del cluster e dei nodi GKE, inclusi upgrade lunghi o incompleti, upgrade automatici imprevisti, errori e problemi post-upgrade.
Webhook Scopri come risolvere i problemi e garantire la stabilità del piano di controllo del cluster quando utilizzi i webhook di controllo dell'ammissione.
Spazio dei nomi bloccato nello stato Terminating Risolvi i problemi relativi agli spazi dei nomi bloccati nello stato Terminating identificando e rimuovendo i componenti non integri che bloccano l'eliminazione.
Operazioni simultanee Risolvi i problemi relativi alle operazioni simultanee imparando a identificare questi errori e a risolverli attendendo il completamento delle operazioni.

Monitoraggio

Argomento Descrizione
Metriche di sistema Risolvi i problemi relativi alla mancata visualizzazione delle metriche di sistema in Cloud Monitoring.
Dashboard di Monitoring Risolvi i problemi relativi alle dashboard di monitoraggio, inclusi quelli relativi all'attivazione del monitoraggio, alle risorse Kubernetes mancanti e alle autorizzazioni.
Logging Risolvi i problemi di logging, inclusi quelli relativi all'attivazione del logging, ai log mancanti e alle quote.

Errori 4xx

Argomento Descrizione
Errori 4xx Risolvi alcuni degli errori 400, 401, 403 e 404 che potresti riscontrare quando utilizzi GKE. Questa pagina include anche informazioni su come risolvere i problemi relativi agli errori di autorizzazioni di modifica mancanti nell'account.

Problemi noti

Argomento Descrizione
Problemi noti Identifica e risolvi i problemi noti che potrebbero influire sul tuo utilizzo di GKE.

Passaggi successivi