Puoi creare criteri di avviso per gli obiettivi del livello di servizio (SLO) per farti sapere se corri il rischio di violare uno SLO. Seleziona lo SLO che vuoi monitorare, quindi configura un criterio di avviso per monitorare lo SLO. La condizione è generalmente espressa selezionando un valore di soglia che costituisce una violazione e un periodo per il quale la violazione è consentita. Se la soglia viene superata per un periodo superiore a quello consentito, viene attivato il criterio di avviso.
In questa pagina vengono descritti gli avvisi relativi alla burn rate del budget di errore. Non tratta in dettaglio i criteri di avviso, presupponendo che tu conosca già i concetti di base delle condizioni e dei canali di notifica.
Per informazioni generali sui criteri di avviso e su come crearli, consulta Utilizzo dei criteri di avviso.
Per i passaggi specifici della creazione di un criterio di avviso basato su SLO, vedi quanto segue:
- Creazione di un criterio di avviso mediante la console Google Cloud.
- Creazione di un criterio di avviso mediante l'API Cloud Monitoring.
Percentuale di esaurimento del budget di errore
Il budget di errore per un periodo di conformità è (1 - obiettivo SLO) × (eventi idonei nel periodo di conformità). Se l'obiettivo SLO è del 95%, è accettabile per il 5% degli eventi misurati dallo SLI prima di perdere l'obiettivo SLO.
La percentuale di burn rate indica la velocità con cui stai consumando il budget di errore per un periodo di conformità. La percentuale di burn rate dipende dal numero di eventi idonei e dal numero di eventi di errore ricevuti nel periodo di conformità. Ad esempio, se non si verificano eventi di errore, il budget di errore non viene consumato e la burn rate è pari a zero. Per un esempio che illustra come calcolare il tempo di inattività massimo per un servizio supponendo che tutte le richieste non vadano a buon fine, consulta la sezione burn rate SLO.
La metrica del tasso di burn rate è normalizzata in modo che una frequenza di burn rate superiore a uno indica che, se il tasso di errore misurato è sostenuto per qualsiasi periodo di conformità futuro, il servizio sarà fuori dallo SLO per quel periodo. Per maggiori informazioni, consulta Budget di errore.
La metrica del tasso di burnout viene recuperata dal selettore delle serie temporali
select_slo_burn_rate
. Un criterio di avviso per il tasso di burnout ti avvisa quando il budget di errore viene consumato più velocemente di una soglia da te definita, misurata nel periodo di conformità dell'avviso. Esistono altri selettori di serie temporali; consulta Recupero dei dati dello SLO per ulteriori informazioni.
Puoi creare criteri di avviso che utilizzano alcuni di questi altri selettori di serie temporali, ma devi crearli utilizzando l'API Cloud Monitoring.
Panoramica della creazione di un criterio di avviso su uno SLO
La creazione di un criterio di avviso per uno SLO è simile alla creazione di un criterio di avviso per le metriche. Questa sezione passa in rassegna i passaggi generali per la creazione di un criterio di avviso.
Per creare un criterio di avviso per uno SLO, segui questi passaggi:
Identifica lo SLO su cui vuoi basare il criterio di avviso.
Crea una condizione per il criterio di avviso che utilizza lo SLO scelto. Nella condizione devi specificare un selettore di serie temporali da utilizzare per recuperare i dati dello SLO. Devi specificare anche una durata, una soglia e un confronto che determinano quando lo SLO non è conforme.
Ad esempio, se utilizzi il selettore delle serie temporali per la burn rate, i dati recuperati riflettono la burn rate del budget di errore per lo SLO scelto.
In questa condizione devi anche specificare la soglia e la durata delle violazioni dello SLO prima di attivare un avviso. Ad esempio, vuoi che la frequenza di burn rate sia superiore a quella desiderata per un determinato periodo prima di attivare un avviso. Il valore di "importo superiore a" è la soglia della condizione, mentre il valore di "un periodo" è la durata della condizione.
Identifica o crea un canale di notifica da utilizzare nel criterio di avviso.
Fornisci la documentazione che spiega agli utenti cosa ha attivato il criterio di avviso.
Per informazioni generali sui criteri di avviso e su come crearli, consulta Utilizzo dei criteri di avviso.
Criteri di avviso e periodi di riferimento
Quando recuperi i dati dello SLO per un criterio di avviso, devi specificare un identificatore per lo SLO e un periodo di riferimento. Il periodo di riferimento determina quanto indietro nel tempo recuperare i dati. Fondamentalmente, il periodo di riferimento viene utilizzato anche come periodo di conformità per calcolare il budget di prestazioni e di errore dello SLO.
Al momento non è possibile basare gli avvisi sul tasso di consumo del budget di errore di uno SLO utilizzando un periodo di conformità superiore alle 24 ore. In molti casi, per rilevare le interruzioni e favorire la risposta operativa a breve termine è sufficiente approssimare il periodo di conformità a lungo termine (ad es. 28 o 30 giorni) con una inferiore alle 24 ore.
Periodi di conformità più brevi consentono un rilevamento più rapido dei problemi, ma tieni presente che grandi cambiamenti nel traffico e nei tassi di errore nel corso della giornata potrebbero comportare avvisi estremamente sensibili durante i periodi di traffico ridotto. Valuta la possibilità di utilizzare una soglia di burn rate notevolmente superiore a 1 per ridurre la sensibilità agli avvisi durante questi periodi.
Tipi di avvisi relativi al budget di errore
Quando imposti criteri di avviso per monitorare il budget di errore, ti consigliamo di configurare due criteri di avviso correlati:
Avviso di bruciatura rapida, che ti avvisa in caso di un cambiamento improvviso e significativo nel consumo che, se non corretto, esaurirà il budget di errore molto presto. "Con questo ritmo, esauriamo il budget di errore dell'intero mese in due giorni!"
Per un avviso di interruzione rapida, utilizza un periodo di riferimento più breve in modo da ricevere una notifica rapida se si è verificata e si è verificata una condizione potenzialmente disastrosa, anche se breve. Se è davvero disastroso, non vuoi aspettare a lungo per accorgertene.
La soglia per il tasso di consumo per il quale invii avvisi qui è molto più elevata rispetto alla soglia di riferimento ideale per il periodo di riferimento.
Avviso di bruciatura lenta, che ti avvisa di un tasso di consumo che, se non modificato, esaurisce il budget di errore prima della fine del periodo di conformità. Questo tipo di condizione è meno urgente di una condizione a combustione rapida. "Stiamo leggermente superando i traguardi che vorremmo a questo punto del mese, ma non stiamo ancora soffrendo di grossi guai."
Per un avviso di combustione lenta, utilizza un periodo di riferimento più lungo per attenuare le variazioni dei consumi a breve termine.
La soglia per la quale generi un avviso in caso di combustione lenta è più alta del rendimento ideale per il periodo di riferimento, ma non significativamente più alta. Un criterio basato su un periodo di riferimento più breve con una soglia alta potrebbe generare troppi avvisi, anche se i livelli di consumo a più lungo termine escono. Tuttavia, se il consumo rimane anche un po' troppo elevato per un periodo più lungo, alla fine verrà consumato tutto il budget di errore.
Passaggi successivi
- Per creare un criterio di avviso basato su SLO utilizzando la console Google Cloud, consulta Creazione di un criterio di avviso (console Google Cloud).
- Per creare un criterio di avviso basato su SLO utilizzando l'API Monitoring, consulta Creazione di un criterio di avviso (API).