Creazione di avvisi efficienti

Last reviewed 2023-07-20 UTC

Questo documento nel framework dell'architettura Google Cloud fornisce principi operativi per creare avvisi che ti aiutano a eseguire servizi affidabili. Quante più informazioni hai sulle prestazioni del tuo servizio, tanto più informate saranno le tue decisioni in caso di problemi. Progetta gli avvisi per un rilevamento rapido e accurato di tutti i problemi di sistema che incidono sull'utente e riduci al minimo i falsi positivi.

Ottimizza il ritardo di avviso

Esiste un equilibrio tra gli avvisi inviati troppo presto, che stressano il team operativo, e quelli inviati troppo tardi, causando lunghe interruzioni del servizio. Ottimizza il ritardo degli avvisi prima che il sistema di monitoraggio comunichi agli utenti un problema per ridurre al minimo i tempi di rilevamento e massimizzare il segnale rispetto al rumore. Utilizza il tasso di consumo del budget di errore per ricavare la configurazione ottimale degli avvisi.

Definisci gli avvisi in base ai sintomi non alle cause

Attiva avvisi in base all'impatto diretto sull'esperienza utente. La non conformità agli SLO globali o per cliente indica un impatto diretto. Non avvisare ogni possibile causa principale di un errore, soprattutto se l'impatto è limitato a una singola replica. Un sistema distribuito ben progettato si ripristina senza problemi dai guasti a una replica singola.

Avvisa in base ai valori anomali anziché alle medie

Quando monitori la latenza, definisci gli SLO e imposta avvisi (scegli due su tre) per la latenza al 90°, 95° o 99° percentile, non per la latenza media o al 50° percentile. Valori di latenza medi o mediani buoni possono nascondere valori inaccettabilmente elevati al 90° percentile o oltre che causano esperienze utente molto negative. Dovresti quindi applicare questo principio di avviso sui valori outlier quando monitori la latenza per qualsiasi operazione critica, come un'interazione richiesta-risposta con un server web, il completamento batch in una pipeline di elaborazione dati o un'operazione di lettura o scrittura su un servizio di archiviazione.