Concetti relativi al monitoraggio dei servizi

Il monitoraggio dei servizi e l'API SLO ti aiutano a gestire i tuoi servizi, ad esempio Google gestisce i propri servizi. Le nozioni di base del monitoraggio dei servizi includono quanto segue:

  • Selezione di metriche che fungono da indicatori del livello del servizio (SLI).
  • Utilizzo degli SLI per impostare gli obiettivi del livello di servizio (SLO) per i valori SLI.
  • Utilizzare il budget di errore implicito nello SLO per ridurre i rischi completamente gestito di Google Cloud.

Questa pagina introduce questi concetti e descrive alcuni degli aspetti da considerare durante la progettazione di uno SLO. Nelle altre pagine della sezione questi concetti in pratica.

Terminologia

Il monitoraggio dei servizi ha un insieme di concetti fondamentali, che vengono introdotti di seguito:

  • Indicatore del livello del servizio (SLI): una misura delle prestazioni.
  • Obiettivo del livello di servizio (SLO): una dichiarazione delle prestazioni desiderate.
  • Budget di errore: inizia da 1 - SLO e diminuisce man mano che il rendimento effettivo non raggiunge lo SLO.

Indicatori del livello del servizio

Cloud Monitoring raccoglie le metriche che misurano le prestazioni l'infrastruttura dei servizi. Ecco alcuni esempi di metriche sul rendimento:

  • Conteggio delle richieste: ad esempio, il numero di richieste HTTP al minuto che generano risposte 2xx o 5xx.
  • Latenze di risposta: ad esempio, la latenza per le risposte HTTP 2xx.

Le metriche delle prestazioni vengono identificate automaticamente in base a un insieme tipi di servizi noti: Cloud Service Mesh, Istio su Google Kubernetes Engine e App Engine. Puoi anche definire un tipo di servizio personalizzato e seleziona le relative metriche sul rendimento.

Le metriche relative alle prestazioni sono la base degli SLI per il tuo servizio. Uno SLI descrive le prestazioni di un aspetto del tuo servizio. Per i servizi su Cloud Service Mesh, Istio su Google Kubernetes Engine e App Engine, sono già noti SLI utili. Ad esempio, se il tuo servizio ha metriche relative al numero di richieste o alle latenze di risposta, gli indicatori di livello del servizio (SLI) standard possono essere ricavati da queste metriche creando i seguenti rapporti:

  • Uno SLI di disponibilità è il rapporto tra il numero di risposte positive al numero di tutte le risposte.
  • Uno SLI di latenza è il rapporto tra il numero di chiamate indicato di seguito una soglia di latenza per il numero di tutte le chiamate.

Puoi anche configurare SLI specifici per servizio per misurare in altro modo il "buon rendimento". Questi SLI generalmente rientrano due categorie:

  • SLI basati su richiesta, dove un buon servizio viene misurato conteggiando il conteggio delle come il numero di richieste HTTP riuscite.
  • SLI basati su Windows, dove un buon servizio viene misurato contando il numero di periodi di tempo, o finestre, durante i quali il rendimento è vantaggioso come la latenza di risposta al di sotto di una determinata soglia.

Questi SLI sono descritti in maggiore dettaglio in Conformità negli SLO basati su richieste e finestre.

Per esempi di creazione di SLI per i servizi selezionati, consulta Creazione di SLI dalle metriche.

Obiettivi del livello di servizio

Uno SLO è un valore target per un SLI, misurato in un determinato periodo di tempo. Il servizio determina gli SLI disponibili e tu specifichi gli SLO in base agli SLI. Lo SLO definisce quali elementi sono considerati buoni completamente gestito di Google Cloud. Puoi creare fino a 500 SLO per ogni servizio in Cloud Monitoring.

Uno SLO è basato sui seguenti tipi di informazioni:

  • Uno SLI, che misura le prestazioni del servizio.
  • Un obiettivo di prestazioni, che specifica il livello di prestazioni desiderato
  • Un periodo di tempo, chiamato periodo di conformità, per misurare il modo in cui lo SLI a confronto con l'obiettivo di rendimento.

Ad esempio, potresti avere requisiti come questi:

  • La latenza può superare i 300 ms solo nel 5% delle richieste in un periodo continuativo di 30 giorni.
  • Il sistema deve avere una disponibilità del 99% misurata in una settimana di calendario.

Requisiti come questi possono rappresentare la base per gli SLO. Per indicazioni su come impostare SLO efficaci, consulta Progettazione e utilizzo degli SLO.

Le modifiche alla conformità agli SLO possono anche indicare l'insorgenza di errori. Monitoraggio queste modifiche potrebbero darti avvisi sufficienti per poter risolvere un problema prima precipita. Pertanto, i criteri di avviso vengono generalmente utilizzati per monitorare la conformità allo SLO. Per saperne di più, consulta Avvisi sul budget di errore.

Uno SLO utile ha come target meno del 100%, perché lo SLO determina l'errore budget. Gli SLO sono generalmente descritti come un "numero di nove": 99% (2 nove), 99,9% (3 nove) e così via. Il valore massimo che puoi impostare è 99,9%, ma puoi utilizzare qualsiasi valore inferiore appropriato per il tuo servizio.

Budget di errore

Uno SLO specifica il grado di esecuzione di un servizio durante periodo di conformità. Ciò che rimane nel periodo di conformità diventa la budget di errore. Il budget di errore quantifica la misura in cui un servizio può non raggiungere le prestazioni previste durante il periodo di conformità e soddisfare comunque lo SLO.

I budget di errore consentono di monitorare quanti singoli eventi non validi (come le richieste) possono verificarsi nel resto del periodo di conformità prima che l'Utente violano lo SLO. Puoi utilizzare il budget di errore per gestire le attività di manutenzione come il deployment di nuove versioni. Se il budget di errore sta per esaurirsi, quindi intraprendere azioni rischiose come l'invio di nuovi aggiornamenti potrebbe comportare che viola uno SLO.

Il budget di errore per un periodo di conformità è (1 - obiettivo SLO) × (eventi idonei nel periodo di conformità). Ad esempio, se il tuo SLO è dell'85% di richieste sia soddisfacenti in un periodo continuativo di 7 giorni, il budget di errore il 15% di queste richieste è male. Se hai ricevuto, ad esempio, 60.480 richieste nella la settimana scorsa, il budget di errore è pari al 15% di questo totale, ovvero 9072 richieste possono essere scadenti. Se hai segnalato un numero maggiore di errori, il servizio non era disponibile dello SLO per il periodo di conformità di 7 giorni.

progettazione e utilizzo degli SLO

Quali sono le caratteristiche di un buon SLO? Quali aspetti devono essere presi in considerazione per fare delle scelte? Questa sezione fornisce una panoramica di alcuni dei concetti generali alla base la progettazione e l'uso degli SLO. Questo argomento viene trattato in modo molto più dettagliato in Site Reliability Engineering: in che modo Google gestisce la produzione Systems, nel capitolo sugli SLO.

Gli SLO definiscono le prestazioni target che vuoi ottenere dal tuo servizio. In generale, gli SLO non dovrebbero essere più elevati del necessario o significativi. Se i tuoi utenti non riescono a distinguere la differenza tra la disponibilità del 99% e la disponibilità del 99,9% del tuo servizio, utilizza il valore più basso come SLO. Il valore più elevato è più costoso da soddisfare e non farà alcuna differenza per i tuoi utenti. Un servizio che deve raggiungere un obiettivo SLO del 100% non ha budget di errore. Impostare uno SLO di questo tipo non è una pratica valida.

Gli SLO sono in genere più stringenti degli impegni pubblici o contrattuali. Vuoi che uno SLO sia più rigido di un impegno pubblico. In questo modo, se si verifica un evento che causa la violazione dello SLO, puoi essere a conoscenza del problema e risolverlo prima che causi una violazione di un impegno o di un contratto. La violazione di un impegno o di un contratto può avere implicazioni per la reputazione, per i risvolti finanziari o per quelli legali. Uno SLO fa parte di un sistema di avviso preventivo per evitare che ciò accada.

Periodi di conformità

Esistono due tipi di periodi di conformità per gli SLO:

  • Periodi basati sul calendario (da data a data)
  • Periodi di tempo (da n giorni fa a oggi, dove n va da 1 a 30 giorni)

Periodi di conformità basati su calendario

I periodi di conformità possono essere impostati su periodi di calendario come una settimana o un mese. Il periodo di conformità e il budget di errore vengono reimpostati su limiti di calendario noti. Per i valori possibili, vedi CalendarPeriod.

Con un periodo di calendario, ottieni un punteggio di rendimento alla fine di questo periodo. Misurato in base alla soglia di rendimento, il punteggio del rendimento ti consente per capire se il servizio è stato conforme. Quando utilizzi un periodo di calendario, ricevi una valutazione della conformità una sola volta per ogni periodo di conformità, anche se visualizzi il rendimento durante tutto il periodo. Ma alla fine del periodo offre un valore di facile lettura che corrisponde facilmente al tuo i periodi di fatturazione per i clienti (se hai clienti paganti esterni).

Come i mesi di un calendario, i periodi di conformità mensili variano nel numero di giorni che coprono.

Periodi di conformità a rotazione basati su finestre

Puoi anche misurare la conformità in un periodo continuativo, in modo da valutando sempre, ad esempio, gli ultimi 30 giorni. Con un periodo cumulativo, i dati più vecchi del calcolo precedente vengono esclusi dal calcolo attuale e sostituiti da nuovi dati.

Con una finestra temporale continua, ottieni più misurazioni di conformità; cioè ottieni una misura di conformità relativa agli ultimi 30 giorni, anziché uno ogni mese. I servizi possono passare dalla conformità alla mancata conformità poiché lo stato dello SLO cambia ogni giorno, man mano che i vecchi punti dati vengono eliminati e se ne aggiungono di nuovi.

Conformità negli SLO basati su richieste e finestre

La determinazione della conformità di un SLO dipende da due fattori:

  • Come viene determinato il periodo di conformità. Questa determinazione è discussa in Periodi di conformità.
  • Il tipo di SLO. Esistono due tipi di SLO:
    • SLO basate sulle richieste
    • SLO basati su Windows

La conformità è il rapporto tra eventi validi ed eventi totali, misurato durante il periodo di conformità. Il tipo di SLO determina costituisce un "evento".

Se il tuo SLO è del 99,9%, significa che lo soddisfi se la tua conformità è pari a almeno il 99,9%. Il valore massimo è 100%.

SLO basate sulle richieste

Uno SLO basato sulle richieste si basa su uno SLI definito come il rapporto tra il numero di richieste valide e il numero totale di richieste. Uno SLO basato su richiesta viene soddisfatto quando tale rapporto soddisfa o supera l'obiettivo di il periodo di conformità.

Considera ad esempio questo SLO basato sulle richieste: "La latenza è inferiore a 100 ms per almeno il 95% delle richieste". Una richiesta valida è quella con una risposta inferiore a 100 ms, quindi la misura della conformità è la frazione di richieste con tempi di risposta inferiori a 100 ms. Il servizio è conforme se questa frazione è almeno 0,95.

Gli SLO basati su richiesta ti danno un'idea della percentuale di lavoro offerta dal tuo servizio ha funzionato correttamente durante l'intero periodo di conformità, indipendentemente da come distribuiti in tutto il periodo di conformità.

SLO basati su Windows

Uno SLO basato su finestre si basa su uno SLI definito come il rapporto tra il numero di intervalli di misurazione che soddisfano un criterio di idoneità e il numero totale di intervalli. Uno SLO basato su finestre viene raggiunto quando tale rapporto è uguale o superiore a l'obiettivo per il periodo di conformità.

Ad esempio, considera questa SLO: "La metrica della latenza del percentile 95 è inferiore a 100 ms per almeno il 99% delle finestre di 10 minuti". Un buon periodo di misurazione è un intervallo di 10 minuti in cui il 95% delle richieste ha una latenza inferiore a 100 ms. La misura della conformità è la frazione di questi periodi buoni. Il servizio è conforme se questa frazione è di almeno 0,99.

Un altro esempio: supponiamo di configurare il periodo di conformità in modo che sia un periodo di 30 giorni consecutivi, l'intervallo di misurazione in modo che sia di un minuto e l'obiettivo SLO in modo che sia pari al 99%. Per soddisfare questo SLO, il servizio deve avere 42.768 "buoni" intervalli di 43.200 minuti (il 99% del numero di minuti in 30 giorni).

Uno SLO basato su Windows ti dà un'idea della percentuale di tempo in cui i clienti hanno trovato il servizio funzionante bene o male. Questo tipo di SLO può nascondere gli effetti di un comportamento "bursty": l'intervallo di misurazione che non ha superato tutte le chiamate viene conteggiato ai fini del calcolo SLO tanto quanto un intervallo di misurazione con un errore di troppo. Inoltre, gli intervalli con un numero basso di chiamate vengono conteggiati ai fini dello SLO tanto quanto intervallo di misurazione con attività intensa.

Previsione dei budget di errore

Il budget di errore è la differenza tra un buon servizio al 100% e il tuo SLO, il livello desiderato di buon servizio. La differenza tra i due è la possibilità di manovra.

In generale, un budget di errore inizia come valore massimo e diminuisce nel tempo, che attivano una violazione dello SLO quando il budget di errore scende al di sotto di 0.

Esistono un paio di eccezioni degne di nota a questo modello:

  • Se disponi di uno SLO basato su richiesta misurato in un periodo di conformità del calendario, e il servizio ha aumentato l'attività nel periodo di conformità, il budget di errore rimanente può effettivamente aumentare.

    Come è possibile? Il sistema SLO non può sapere in anticipo quanto sarà intensa l'attività del servizio in ogni periodo di conformità, quindi estrapola un valore probabile. Questo valore è il rapporto tra le chiamate fino al attuale rispetto al tempo trascorso dall'inizio del processo di conformità moltiplicato per la durata del periodo di conformità.

    Con l'aumento del tasso di attività, aumenta anche il traffico previsto per il periodo, con conseguente aumento del budget di errore.

  • Se stai misurando uno SLO in un periodo di conformità in sequenza, in modo efficace sempre al termine di un periodo di conformità. Anziché iniziare da zero, i vecchi punti dati vengono eliminati continuamente e vengono aggiunti nuovi punti dati.

    Se un periodo di scarsa conformità non rientra nella finestra di conformità e se il momento attuale, che lo sostituisce, è conforme, il budget di errore aumenta. In qualsiasi momento, un budget di errore ≥ 0 indica una finestra di SLO dinamico conforme e un budget di errore < 0 indica una finestra di SLO dinamico non conforme.

Monitoraggio del budget di errore

Puoi creare criteri di avviso per avvisarti che il budget di errore è consumato a una velocità superiore a quella desiderata. Vedi Avvisi sugli errori budget per ulteriori informazioni.

Passaggi successivi

  • Microservizi descrive i microservizi e come utilizzare la console Google Cloud per configurarli, visualizzarli e gestirli.
  • Nella sezione Avvisi sul tasso di combustione viene descritto come monitorare gli SLI in modo da essere avvisati di possibili problemi.
  • L'utilizzo dell'API SLO mostra come utilizzare l'API SLO, un sottoinsieme dell'API Cloud Monitoring, per creare servizi, SLO e strutture.