Valuta l'integrità del cluster e del workload nella console Google Cloud


Quando devi controllare rapidamente l'integrità dei cluster e dei carichi di lavoro di Google Kubernetes Engine (GKE), può essere difficile sapere da dove iniziare. La visualizzazione dello stato dei tuoi cluster e workload nella console Google Cloud ti aiuta a valutare rapidamente lo stato del tuo ambiente. L'integrità del cluster si riferisce all'integrità dell'infrastruttura GKE sottostante, come nodi e rete, mentre l'integrità del workload si riferisce allo stato e alle prestazioni delle tue app in esecuzione sul cluster.

Utilizza questa pagina per scoprire come navigare nelle pagine dei cluster e dei carichi di lavoro Kubernetes per ottenere una panoramica di alto livello, identificare potenziali problemi (come nodi sotto pressione delle risorse o pod non riusciti) e visualizzare in dettaglio risorse specifiche per ulteriori informazioni.

Queste informazioni sono importanti per gli amministratori e gli operatori della piattaforma che sono responsabili della manutenzione della stabilità del cluster e devono eseguire controlli rapidi dello stato e delle risorse. È anche essenziale per gli sviluppatori di applicazioni che devono comprendere lo stato di runtime dei loro deployment e analizzare gli errori. Per maggiori informazioni sui ruoli comuni e sulle attività di esempio a cui facciamo riferimento nei contenuti di Google Cloud , consulta Ruoli e attività comuni degli utenti GKE.

Per fornire un quadro completo dello stato della tua app, la console Google Cloud ti offre anche l'accesso a potenti strumenti di logging e monitoraggio, che ti consentono di esaminare la causa principale dei guasti passati e prevenirne proattivamente di futuri. Per saperne di più su questi strumenti, consulta Eseguire analisi storiche con Cloud Logging e Eseguire il monitoraggio proattivo con Cloud Monitoring.

Trovare i problemi del cluster

La pagina Cluster Kubernetes fornisce una panoramica dell'integrità dei tuoi cluster. Per identificare i problemi relativi a uno dei tuoi cluster, inizia da questa pagina.

Ecco alcuni esempi di come puoi utilizzare questa pagina per la risoluzione dei problemi:

  • Per suggerimenti su come migliorare l'integrità del cluster, la strategia di upgrade e l'ottimizzazione dei costi, fai clic su Visualizza consigli.
  • Per identificare i cluster non integri, esamina la colonna Stato. Qualsiasi cluster che non ha un segno di spunta verde richiede attenzione.
  • Per visualizzare i potenziali problemi, controlla la colonna Notifiche. Fai clic su uno dei messaggi di notifica per ulteriori informazioni.

Esaminare un cluster specifico

Dopo aver rilevato un problema con un cluster, esplora la pagina Dettagli del cluster per informazioni approfondite che ti aiutano a risolvere i problemi del cluster e a comprenderne la configurazione.

Per andare alla pagina Dettagli di un cluster:

  1. Vai alla pagina Cluster Kubernetes.

    Vai ai cluster Kubernetes

  2. Esamina la colonna Nome e fai clic sul nome del cluster che vuoi esaminare.

Ecco alcuni esempi di come utilizzare la pagina Dettagli del cluster per risolvere i problemi del cluster:

  • Per i controlli di integrità generali, prova le seguenti opzioni:

    • Per visualizzare le dashboard a livello di cluster, vai alla scheda Osservabilità. Per impostazione predefinita, GKE abilita Cloud Monitoring quando crei un cluster. Quando Cloud Monitoring è abilitato, GKE configura automaticamente le dashboard in questa pagina. Ecco alcune delle visualizzazioni che potresti trovare più utili per la risoluzione dei problemi:

      • Panoramica: visualizza un riepilogo generale dell'integrità, dell'utilizzo delle risorse e degli eventi chiave del cluster. Questa dashboard ti aiuta a valutare rapidamente lo stato generale del cluster e a identificare potenziali problemi.
      • Metriche sul traffico: visualizza le metriche di networking basate sui nodi per gli insight sul traffico tra i workload Kubernetes.
      • Stato del carico di lavoro: visualizza lo stato di deployment, pod e container. Identifica le istanze non integre o con errori e rileva i vincoli delle risorse.
      • Piano di controllo: visualizza l'integrità e le prestazioni del piano di controllo. Questa dashboard ti consente di monitorare le metriche chiave di componenti come kube-apiserver e etcd, identificare i colli di bottiglia delle prestazioni e rilevare i guasti dei componenti.

    • Per visualizzare gli errori recenti delle app, vai alla scheda Errori app. Le informazioni in questa scheda possono aiutarti a dare la priorità agli errori e a risolverli mostrando il numero di occorrenze, quando è apparso per la prima volta un errore e quando si è verificato l'ultima volta.

      Per esaminare ulteriormente un errore, fai clic sul messaggio di errore per visualizzare un report dettagliato, inclusi i link ai log pertinenti.

  • Se stai risolvendo problemi dopo un recente upgrade o modifica, controlla la sezione Nozioni di base sui cluster nella scheda Dettagli del cluster. Verifica che la versione elencata nel campo Versione sia quella che ti aspetti. Per ulteriori approfondimenti, fai clic su Mostra cronologia degli upgrade nella sezione Upgrade.

  • Se utilizzi un cluster Standard e i tuoi pod sono bloccati nello stato Pending o sospetti che i nodi siano sovraccarichi, controlla la scheda Nodi. La scheda Nodi non è disponibile per i cluster Autopilot perché GKE gestisce i nodi per te.

    • Nella sezione Pool di nodi, verifica che la scalabilità automatica sia configurata correttamente e che il tipo di macchina sia appropriato per i tuoi carichi di lavoro.
    • Nella sezione Nodi, cerca i nodi con uno stato diverso da Ready. Lo stato NotReady indica un problema con il nodo stesso, ad esempio la pressione delle risorse o un problema con kubelet (kubelet è l'agente che viene eseguito su ogni nodo per gestire i container).

Trovare problemi relativi ai workload

Quando sospetti che si sia verificato un problema con un'app specifica, ad esempio un deployment non riuscito, vai alla pagina Workload nella console Google Cloud . Questa pagina fornisce una visualizzazione centralizzata di tutte le app eseguite nei cluster.

Ecco alcuni esempi di come puoi utilizzare questa pagina per la risoluzione dei problemi:

  • Per identificare i carichi di lavoro non integri, esamina la colonna Stato. Qualsiasi carico di lavoro che non ha un segno di spunta verde richiede attenzione.
  • Se un'app non risponde, controlla la colonna Pod. Ad esempio, uno stato come 1/3 significa che è in esecuzione solo una delle tre repliche dell'app, il che indica un problema.

Esaminare un workload specifico

Dopo aver identificato un workload problematico dalla panoramica, esplora la pagina Dettagli del workload per iniziare a isolare la causa principale.

Per andare alla pagina Dettagli di un workload:

  1. Vai alla pagina Workload.

    Vai a Carichi di lavoro

  2. Visualizza la colonna Nome e fai clic sul nome del workload che vuoi esaminare.

Ecco alcuni esempi di come utilizzare la pagina Dettagli del workload per risolvere i problemi relativi ai workload:

  • Per controllare la configurazione del workload, utilizza le schede Panoramica e Dettagli del workload. Puoi utilizzare queste informazioni per verificare eventi come se è stato eseguito il deployment del tag immagine container corretto o controllare le richieste e i limiti delle risorse del workload.

  • Per trovare il nome di un pod specifico che genera arresti anomali, vai alla sezione Pod gestiti. Queste informazioni potrebbero servirti per i comandi kubectl. Questa sezione elenca tutti i pod controllati dal workload, insieme ai relativi stati.

  • Per visualizzare una cronologia delle modifiche recenti a un workload, vai alla scheda Cronologia delle revisioni. Se noti problemi di prestazioni dopo un nuovo Deployment, utilizza questa sezione per identificare la revisione attiva. A questo punto, puoi confrontare le configurazioni della revisione attuale con quelle precedenti per individuare l'origine del problema. Se questa scheda non è visibile, il carico di lavoro è di un tipo che non utilizza le revisioni o non ha ancora ricevuto aggiornamenti.

  • Se un deployment sembra non essere riuscito, vai alla scheda Eventi. Questa pagina è spesso la fonte di informazioni più preziosa perché mostra gli eventi a livello di Kubernetes.

  • Per esaminare i log dell'app, fai clic sulla scheda Log. Questa pagina ti aiuta a capire cosa succede all'interno del tuo cluster. Qui puoi trovare messaggi di errore e analisi dello stack che possono aiutarti a diagnosticare i problemi.

  • Per verificare esattamente cosa è stato eseguito il deployment, visualizza la scheda YAML. Questa pagina mostra il manifest YAML live per il workload così come esiste nel cluster. Queste informazioni sono utili per trovare eventuali discrepanze rispetto ai manifest controllati dall'origine. Se visualizzi il manifest YAML di un singolo pod, questa scheda mostra anche lo stato del pod, che fornisce informazioni sugli errori a livello di pod.

Passaggi successivi