Questo principio del pilastro dell'affidabilità del Google Cloud Architecture Framework fornisce consigli per aiutarti a identificare in modo proattivo le aree in cui potrebbero verificarsi errori e malfunzionamenti.
Questo principio è pertinente all'area di attenzione dell'osservazione dell'affidabilità.
Panoramica dei principi
Per mantenere e migliorare l'affidabilità dei tuoi workload in Google Cloud, devi implementare un'osservabilità efficace utilizzando metriche, log e tracce.
- Le metriche sono misurazioni numeriche delle attività che vuoi monitorare per la tua applicazione a intervalli di tempo specifici. Ad esempio, potresti voler monitorare metriche tecniche come tasso di richieste e la percentuale di errori, che possono essere utilizzate come indicatori del livello del servizio (SLI). Potresti anche dover monitorare le metriche aziendali specifiche dell'applicazione, come gli ordini effettuati e i pagamenti ricevuti.
- I log sono record con timestamp di eventi distinti che si verificano all'interno di un'applicazione o di un sistema. L'evento potrebbe essere un fallimento, un errore o una variazione di stato. I log potrebbero includere metriche e puoi anche utilizzarli per gli SLI.
- Una traccia rappresenta il percorso di un singolo utente o transazione attraverso un numero di applicazioni separate o i componenti di un'applicazione. Ad esempio, questi componenti potrebbero essere microservizi. Le tracce ti aiutano a monitorare i componenti utilizzati nei percorsi, i colli di bottiglia esistenti e la durata dei percorsi.
Metriche, log e tracce ti aiutano a monitorare il sistema in modo continuo. Il monitoraggio completo ti aiuta a scoprire dove e perché si sono verificati errori. Puoi anche rilevare potenziali errori prima che si verifichino.
Consigli
Per rilevare in modo efficiente i potenziali errori, prendi in considerazione i consigli riportati nelle seguenti sezioni.
Ottenere informazioni complete
Per monitorare metriche chiave come tempi di risposta e percentuali di errore, utilizza Cloud Monitoring e Cloud Logging. Questi strumenti ti aiutano anche ad assicurarti che le metriche soddisfino in modo coerente le esigenze del tuo carico di lavoro.
Per prendere decisioni basate sui dati, analizza le metriche dei servizi predefiniti per comprendere le dipendenze dei componenti e il loro impatto sul rendimento complessivo del carico di lavoro.
Per personalizzare la tua strategia di monitoraggio, crea e pubblica le tue metriche utilizzando il Google Cloud SDK.
Esegui la risoluzione dei problemi in modo proattivo
Implementa una gestione degli errori affidabile e abilita il logging in tutti i componenti del tuo carico di lavoro in Google Cloud. Attiva i log come log di accesso a Cloud Storage e log di flusso VPC.
Quando configuri la registrazione, tieni conto dei costi associati. Per controllare i costi di registrazione, puoi configurare i filtri di esclusione sui sink di log per escludere la memorizzazione di determinati log.
Ottimizza l'utilizzo delle risorse
Monitora il consumo della CPU, le metriche di I/O di rete e le metriche di I/O del disco per rilevare le risorse sottodimensionate e sovradimensionate in servizi come GKE, Compute Engine e Dataproc. Per un elenco completo dei servizi supportati, consulta Panoramica di Cloud Monitoring.
Assegnare priorità agli avvisi
Per gli avvisi, concentrati sulle metriche critiche, imposta soglie appropriate per ridurre al minimo la fatica da avviso e assicurarti risposte tempestive a problemi significativi. Questo approccio mirato consente di mantenere in modo proattivo l'affidabilità del carico di lavoro. Per ulteriori informazioni, consulta la panoramica degli avvisi.