Il monitoraggio dei servizi e l'API SLO ti aiutano a gestire i tuoi servizi come Google gestisce i propri servizi. I concetti principali del monitoraggio dei servizi includono quanto segue:
- Selezione delle metriche che fungono da indicatori del livello del servizio (SLI).
- Utilizzo degli SLI per impostare gli obiettivi del livello di servizio (SLO) per i valori SLI.
- Utilizzare il budget di errore implicito nello SLO per ridurre il rischio nel tuo servizio.
Questa pagina introduce questi concetti e descrive alcune delle cose da considerare quando si progetta un SLO. Le altre pagine di questa sezione mettono in pratica questi concetti.
Terminologia
Il monitoraggio dei servizi ha una serie di concetti fondamentali, che vengono introdotti di seguito:
- Indicatore del livello del servizio (SLI): una misurazione delle prestazioni.
- Obiettivo del livello di servizio (SLO): un'affermazione delle prestazioni desiderate.
- Budget di errore: inizia da 1 - SLO e diminuisce man mano che il rendimento effettivo non raggiunge lo SLO.
Indicatori del livello del servizio
Cloud Monitoring raccoglie le metriche che misurano le prestazioni dell'infrastruttura di servizio. Esempi di metriche del rendimento includono:
- Conteggio richieste: ad esempio, il numero di richieste HTTP al minuto che generano risposte 2xx o 5xx.
- Latenze di risposta: ad esempio, la latenza per le risposte HTTP 2xx.
Le metriche di rendimento vengono identificate automaticamente in base a un insieme di tipi di servizio noti: Cloud Service Mesh, Istio su Google Kubernetes Engine e App Engine. Puoi anche definire il tuo tipo di servizio e selezionare le metriche di rendimento.
Le metriche delle prestazioni sono la base degli SLI per il tuo servizio. Un SLI descrive le prestazioni di un aspetto del tuo servizio. Per i servizi su Cloud Service Mesh, Istio su Google Kubernetes Engine e App Engine, gli indicatori SLI utili sono già noti. Ad esempio, se il tuo servizio ha metriche di conteggio delle richieste o latenze di risposta, gli indicatori del livello del servizio (SLI) standard possono essere derivati da queste metriche creando rapporti come segue:
- Uno SLI di disponibilità è il rapporto tra il numero di risposte riuscite e il numero di tutte le risposte.
- Un SLI latenza è il rapporto tra il numero di chiamate al di sotto di una soglia di latenza e il numero di tutte le chiamate.
Puoi anche configurare indicatori SLI specifici per il servizio per un'altra misura di cosa significa "buon rendimento". Questi indicatori SLI rientrano generalmente in due categorie:
- SLI basati su richieste, in cui un servizio viene determinato come "idoneo" contando le unità di servizio atomiche, ad esempio il numero di richieste HTTP riuscite.
- SLI basati su finestre, in cui un servizio viene determinato come "idoneo" contando il numero di periodi di tempo o finestre durante i quali il rendimento soddisfa un criterio di idoneità, ad esempio la latenza di risposta inferiore a una determinata soglia.
Questi SLI sono descritti in modo più dettagliato nella sezione Conformità negli SLO basati su richieste e finestre.
Per esempi di creazione di SLI per i servizi selezionati, vedi Creazione di SLI dalle metriche.
Obiettivi del livello di servizio
Uno SLO è un valore target per un SLI, misurato in un determinato periodo di tempo. Il servizio determina gli SLI disponibili e tu specifichi gli SLO in base agli SLI. Lo SLO definisce ciò che viene considerato un buon servizio. Puoi creare fino a 500 SLO per ogni servizio in Cloud Monitoring.
Uno SLO è basato sui seguenti tipi di informazioni:
- Uno SLI, che misura le prestazioni del servizio.
- Un obiettivo di prestazioni, che specifica il livello di prestazioni desiderato
- Un periodo di tempo, chiamato periodo di conformità, per misurare il modo in cui lo SLI si confronta con l'obiettivo di prestazioni.
Ad esempio, potresti avere requisiti come questi:
- La latenza può superare i 300 ms solo nel 5% delle richieste in un periodo continuativo di 30 giorni.
- Il sistema deve avere una disponibilità del 99% misurata su una settimana di calendario.
Requisiti come questi possono fornire la base per gli SLO. Per indicazioni su come impostare SLO efficaci, consulta Progettazione e utilizzo degli SLO.
Le modifiche alla conformità SLO possono anche indicare l'inizio di errori. Il monitoraggio di queste modifiche potrebbe darti un preavviso sufficiente per risolvere un problema prima che si propaghi. Pertanto, i criteri di avviso vengono generalmente utilizzati per monitorare la conformità agli SLO. Per ulteriori informazioni, vedi Avvisi relativi al budget di errore.
Uno SLO utile ha come target un valore inferiore al 100%, perché determina il budget di errore. Gli SLO vengono in genere descritti come un "numero di nove": 99% (2 nove), 99,9% (3 nove) e così via. Il valore più alto che puoi impostare è 99,9%, ma puoi utilizzare qualsiasi valore inferiore appropriato per il tuo servizio.
Budget di errore
Uno SLO specifica il grado di rendimento di un servizio durante un periodo di conformità. Ciò che rimane nel periodo di conformità diventa il budget di errore. Il budget di errore quantifica la misura in cui un servizio può non raggiungere le prestazioni previste durante il periodo di conformità e soddisfare comunque lo SLO.
I budget di errore ti consentono di monitorare il numero di singoli eventi errati (come le richieste) che possono verificarsi durante il resto del periodo di conformità prima di violare lo SLO. Puoi utilizzare il budget di errore per gestire le attività di manutenzione come il deployment di nuove versioni. Se il budget di errore è quasi esaurito, l'esecuzione di azioni rischiose come l'invio di nuovi aggiornamenti potrebbe comportare la violazione di un SLO.
Il budget di errore per un periodo di conformità è (1 − obiettivo SLO) × (eventi idonei nel periodo di conformità). Ad esempio, se il tuo SLO prevede che l'85% delle richieste sia buono in un periodo cumulativo di 7 giorni, il budget di errore consente che il 15% di queste richieste sia scadente. Se, ad esempio, hai ricevuto 60.480 richieste nell'ultima settimana, il tuo budget di errore è il 15% di questo totale, ovvero 9072 richieste che possono essere errate. Se hai riscontrato più errori di questo, il tuo servizio non ha rispettato l'SLO per il periodo di conformità di 7 giorni.
Progettazione e utilizzo degli SLO
Quali sono le caratteristiche di un buon SLO? Quali aspetti bisogna considerare per fare le scelte? Questa sezione fornisce una panoramica di alcuni dei concetti generali alla base della progettazione e dell'utilizzo degli SLO. Questo argomento è trattato in modo molto più dettagliato in Site Reliability Engineering: How Google Runs Production Systems, nel capitolo sugli SLO.
Gli SLO definiscono le prestazioni target che pretendi dal tuo servizio. In generale, gli SLO non devono essere superiori a quanto necessario o significativo. Se i tuoi utenti non riescono a distinguere tra una disponibilità del 99% e una disponibilità del 99,9% del tuo servizio, utilizza il valore inferiore come SLO. Il valore più alto è più costoso da raggiungere e non farà alcuna differenza per i tuoi utenti. Un servizio che deve soddisfare un obiettivo SLO del 100% non ha un budget di errore. Impostare un SLO di questo tipo è una pratica sconsigliata.
Gli SLO sono in genere più rigorosi degli impegni pubblici o contrattuali. Vuoi che uno SLO sia più rigoroso di un impegno pubblico. In questo modo, se si verifica un evento che causa la violazione dello SLO, ne sei a conoscenza e risolvi il problema prima che causi la violazione di un impegno o di un contratto. La violazione di un impegno o di un contratto può avere implicazioni reputazionali, finanziarie o legali. Uno SLO fa parte di un sistema di avviso preventivo per evitare che ciò accada.
Periodi di conformità
Esistono due tipi di periodi di conformità per gli SLO:
- Periodi basati sul calendario (da data a data)
- Periodi di rotazione (da n giorni fa a oggi, dove n varia da 1 a 30 giorni)
Periodi di conformità basati sul calendario
I periodi di conformità possono essere impostati su periodi di calendario come una settimana o un mese.
Il periodo di conformità e il budget di errore vengono reimpostati in base ai limiti del calendario noti.
Per i valori possibili, vedi CalendarPeriod
.
Con un periodo di calendario, ottieni un punteggio di rendimento alla fine del periodo. Misurato rispetto alla soglia di rendimento, il punteggio di rendimento ti consente di sapere se il tuo servizio era conforme o meno. Quando utilizzi un periodo di calendario, ricevi una valutazione della conformità solo una volta per ogni periodo di conformità, anche se visualizzi il rendimento durante tutto il periodo. Tuttavia, il punteggio di fine periodo fornisce un valore di facile lettura che corrisponde facilmente ai periodi di fatturazione dei clienti (se hai clienti paganti esterni).
Come i mesi di un calendario, i periodi di conformità mensili variano in base al numero di giorni che coprono.
Periodi di conformità basati su finestre temporali continue
Puoi anche misurare la conformità in un periodo cumulativo, in modo da valutare sempre, ad esempio, gli ultimi 30 giorni. Con un periodo cumulativo, i dati meno recenti del calcolo precedente vengono esclusi dal calcolo attuale e sostituiti con nuovi dati.
Con una finestra mobile, ottieni più misurazioni della conformità, ovvero una misurazione della conformità per gli ultimi 30 giorni, anziché una al mese. I servizi possono passare dalla conformità alla non conformità man mano che lo stato SLO cambia giornalmente, quando i vecchi punti dati vengono eliminati e ne vengono aggiunti di nuovi.
Conformità negli SLO basati su richiesta e su finestre
La conformità di un SLO dipende da due fattori:
- Come viene determinato il periodo di conformità. Questa determinazione è discussa in Periodi di conformità.
- Il tipo di SLO. Esistono due tipi di SLO:
- SLO basati sulle richieste
- SLO basati su finestre
Conformità è il rapporto tra eventi validi ed eventi totali, misurato nel periodo di conformità. Il tipo di SLO determina cosa costituisce un "evento".
Se il tuo SLO è del 99,9%, lo rispetti se la conformità è almeno del 99,9%. Il valore massimo è 100%.
SLO basati sulle richieste
Uno SLO basato sulle richieste si basa su un SLI definito come il rapporto tra il numero di richieste valide e il numero totale di richieste. Uno SLO basato sulle richieste viene raggiunto quando il rapporto soddisfa o supera l'obiettivo per il periodo di conformità.
Ad esempio, considera questo SLO basato sulle richieste: "La latenza è inferiore a 100 ms per almeno il 95% delle richieste". Una richiesta valida è una richiesta con un tempo di risposta inferiore a 100 ms, quindi la misura di conformità è la frazione di richieste con tempi di risposta inferiori a 100 ms. Il servizio è conforme se questa frazione è almeno 0,95.
Gli SLO basati sulle richieste ti danno un'idea della percentuale di lavoro che il tuo servizio ha svolto correttamente durante l'intero periodo di conformità, indipendentemente da come è stato distribuito il carico durante il periodo di conformità.
SLO basati su finestre
Uno SLO basato su finestre si basa su un SLI definito come il rapporto tra il numero di intervalli di misurazione che soddisfano un determinato criterio di idoneità e il numero totale di intervalli. Uno SLO basato su una finestra viene raggiunto quando il rapporto soddisfa o supera l'obiettivo per il periodo di conformità.
Ad esempio, considera questo SLO: "La metrica di latenza del 95° percentile è inferiore a 100 ms per almeno il 99% delle finestre di 10 minuti". Un buon periodo di misurazione è un intervallo di 10 minuti in cui il 95% delle richieste ha una latenza inferiore a 100 ms. La misura di conformità è la frazione di questi buoni periodi. Il servizio è conforme se questa frazione è almeno 0,99.
Per un altro esempio, supponiamo di configurare il periodo di conformità in modo che sia di 30 giorni consecutivi, l'intervallo di misurazione in modo che sia di un minuto e l'obiettivo SLO in modo che sia del 99%. Per soddisfare questo SLO, il tuo servizio deve avere 42.768 intervalli "buoni" su 43.200 minuti (il 99% del numero di minuti in 30 giorni).
Uno SLO basato su finestre ti dà un'idea della percentuale di tempo in cui i tuoi clienti hanno riscontrato che il servizio funziona bene o male. Questo tipo di SLO può nascondere gli effetti del comportamento "a raffica": un intervallo di misurazione che non ha superato nessuna delle chiamate viene conteggiato ai fini della SLO tanto quanto un intervallo di misurazione che ha avuto un errore di troppo. Inoltre, gli intervalli con un numero ridotto di chiamate vengono conteggiati ai fini dell'SLO tanto quanto un intervallo di misurazione con un'attività intensa.
Traiettoria dei budget di errore
Il budget di errore è la differenza tra il 100% di servizio idoneo e lo SLO, ovvero il livello di servizio idoneo desiderato. La differenza tra questi due valori è il margine di manovra.
In generale, un budget di errore inizia come valore massimo e diminuisce nel tempo, attivando una violazione dello SLO quando il budget di errore scende sotto lo zero.
Esistono alcune eccezioni degne di nota a questo schema:
Se hai uno SLO basato sulle richieste misurato in un periodo di conformità del calendario e l'attività del servizio è aumentata nel periodo di conformità, il budget di errore rimanente può effettivamente aumentare.
Com'è possibile? Il sistema SLO non può sapere in anticipo quanta attività avrà il servizio in ogni periodo di conformità, quindi estrapola un valore probabile. Questo valore è il rapporto tra le chiamate fino al momento attuale e il tempo trascorso dall'inizio del periodo di conformità, moltiplicato per la durata del periodo di conformità.
Man mano che il tasso di attività aumenta, aumenta anche il traffico previsto per il periodo e, di conseguenza, il budget di errore aumenta.
Se misuri un SLO in un periodo di conformità mobile, ti trovi sempre alla fine di un periodo di conformità. Anziché partire da zero, i vecchi punti dati vengono eliminati continuamente e vengono aggiunti continuamente nuovi punti dati.
Se un periodo di conformità scadente esce dalla finestra di conformità e se il periodo attuale, che lo sostituisce, è conforme, il budget di errore aumenta. In qualsiasi momento, un budget di errore ≥ 0 indica una finestra SLO mobile conforme, mentre un budget di errore < 0 indica una finestra SLO mobile non conforme.
Monitoraggio del budget di errore
Puoi creare criteri di avviso per avvisarti che il budget di errore viene consumato a una velocità superiore a quella desiderata. Per ulteriori informazioni, consulta Avvisi relativi al budget di errore.
Passaggi successivi
- Microservizi descrive i microservizi e come utilizzare la console Google Cloud per configurarli, visualizzarli e gestirli.
- Avvisi sulla velocità di consumo descrive come monitorare gli SLI in modo da ricevere avvisi in caso di possibili problemi.
- Utilizzo dell'API SLO mostra come utilizzare l'API SLO, un sottoinsieme dell'API Cloud Monitoring, per creare servizi, SLO e strutture correlate.