Concetti relativi al monitoraggio dei servizi

Il monitoraggio dei servizi e l'API SLO ti aiutano a gestire i tuoi servizi, ad esempio Google gestisce i propri servizi. Le nozioni fondamentali sul monitoraggio dei servizi includono le seguenti:

  • Selezione di metriche che fungono da indicatori del livello del servizio (SLI).
  • Utilizzare gli SLI per impostare gli obiettivi del livello del servizio (SLO) per i valori degli SLI.
  • Utilizzare il budget di errore implicito nello SLO per ridurre i rischi completamente gestito di Google Cloud.

Questa pagina introduce questi concetti e descrive alcuni degli aspetti da considerare durante la progettazione di uno SLO. Nelle altre pagine della sezione questi concetti in pratica.

Terminologia

Il monitoraggio dei servizi si basa su una serie di concetti fondamentali, che vengono introdotti di seguito:

  • Indicatore del livello del servizio (SLI): una misurazione delle prestazioni.
  • Obiettivo del livello di servizio (SLO): una dichiarazione delle prestazioni desiderate.
  • Budget di errore: inizia da 1 - SLO e diminuisce con il rendimento effettivo non riesce a comprendere lo SLO.

Indicatori del livello del servizio

Cloud Monitoring raccoglie le metriche che misurano le prestazioni l'infrastruttura dei servizi. Esempi di metriche sul rendimento includono seguenti:

  • Conteggio delle richieste: ad esempio, il numero di richieste HTTP al minuto che restituiscono risposte 2xx o 5xx.
  • Latenze di risposta, ad esempio la latenza delle risposte HTTP 2xx.

Le metriche delle prestazioni vengono identificate automaticamente in base a un insieme tipi di servizi noti: Cloud Service Mesh, Istio su Google Kubernetes Engine e App Engine. Puoi anche definire un tipo di servizio personalizzato e seleziona le relative metriche sul rendimento.

Le metriche delle prestazioni sono la base degli SLI per il tuo servizio. Uno SLI descrive le prestazioni di un aspetto del tuo servizio. Per i servizi su Cloud Service Mesh, Istio su Google Kubernetes Engine e App Engine, sono già noti degli SLI utili. Ad esempio, se il tuo servizio ha metriche relative al numero di richieste o alle latenze di risposta, gli indicatori del livello del servizio (SLI) standard possono essere ricavati da queste metriche creando rapporti come segue:

  • Uno SLI di disponibilità è il rapporto tra il numero di risposte positive al numero di tutte le risposte.
  • Uno SLI di latenza è il rapporto tra il numero di chiamate indicato di seguito una soglia di latenza per il numero di tutte le chiamate.

Puoi anche configurare SLI specifici per il servizio per altre misure il significato di "buone prestazioni". Questi SLI generalmente rientrano due categorie:

  • SLI basati su richiesta, dove un buon servizio viene misurato conteggiando il conteggio delle come il numero di richieste HTTP riuscite.
  • SLI basati su Windows, dove un buon servizio viene misurato contando il numero di periodi di tempo, o finestre, durante i quali il rendimento è vantaggioso come la latenza di risposta al di sotto di una determinata soglia.

Questi SLI sono descritti più dettagliatamente in Conformità negli SLO basati su richieste e finestre.

Per esempi di creazione di SLI per i servizi selezionati, consulta Creazione di SLI dalle metriche.

Obiettivi del livello di servizio

Uno SLO è un valore target per uno SLI, misurato per un determinato periodo di tempo. Il servizio determina gli SLI disponibili e puoi specificare gli SLO in base agli SLI. Lo SLO definisce quali elementi sono considerati buoni completamente gestito di Google Cloud. Puoi creare fino a 500 SLO per ogni servizio in Cloud Monitoring.

Uno SLO è basato sui seguenti tipi di informazioni:

  • Uno SLI, che misura le prestazioni del servizio.
  • Un obiettivo di prestazioni, che specifica il livello di prestazioni desiderato
  • Un periodo di tempo, chiamato periodo di conformità, per misurare il modo in cui lo SLI a confronto con l'obiettivo di rendimento.

Ad esempio, potresti avere requisiti come questi:

  • La latenza può superare i 300 ms solo nel 5% delle richieste su una Periodo di 30 giorni.
  • Il sistema deve avere una disponibilità del 99% misurata in una settimana di calendario.

Requisiti come questi possono rappresentare le basi per gli SLO. Consulta la sezione Progettazione e utilizzo SLO per istruzioni su come impostare buoni SLO.

Le modifiche alla conformità agli SLO possono anche indicare l'insorgenza di errori. Monitoraggio queste modifiche potrebbero darti avvisi sufficienti per poter risolvere un problema prima precipita. Pertanto, i criteri di avviso vengono generalmente utilizzati per monitorare la conformità agli SLO. Per saperne di più, consulta Avvisi sul budget di errore.

Uno SLO utile ha come target meno del 100%, perché lo SLO determina l'errore budget. Gli SLO sono generalmente descritti come un "numero di nove": 99% (2 nove), 99,9% (3 nove) e così via. Il valore massimo che puoi impostare è 99,9%, ma puoi utilizzare qualsiasi valore inferiore appropriato per il tuo servizio.

Budget di errore

Uno SLO specifica il grado di esecuzione di un servizio durante periodo di conformità. Ciò che rimane nel periodo di conformità diventa la budget di errore. Il budget di errore quantifica in che misura un servizio può non funzionare durante il periodo di conformità e soddisfare comunque lo SLO.

I budget di errore consentono di monitorare quanti singoli eventi non validi (come le richieste) possono verificarsi nel resto del periodo di conformità prima che l'Utente violano lo SLO. Puoi utilizzare il budget di errore per gestire più facilmente la manutenzione come il deployment di nuove versioni. Se il budget di errore sta per esaurirsi, quindi intraprendere azioni rischiose come l'invio di nuovi aggiornamenti potrebbe comportare che viola uno SLO.

Il budget di errore per un periodo di conformità è (1 - obiettivo SLO) × (eventi idonei nel periodo di conformità). Ad esempio, se il tuo SLO è dell'85% di richieste sia soddisfacenti in un periodo continuativo di 7 giorni, il budget di errore il 15% di queste richieste è male. Se hai ricevuto, ad esempio, 60.480 richieste nella la settimana scorsa, il budget di errore è pari al 15% di questo totale, ovvero 9072 richieste possono essere scadenti. Se hai segnalato un numero maggiore di errori, il servizio non era disponibile dello SLO per il periodo di conformità di 7 giorni.

progettazione e utilizzo degli SLO

Quali sono le caratteristiche di un buon SLO? Quali sono gli aspetti da considerare per fare una scelta? Questa sezione fornisce una panoramica di alcuni dei concetti generali alla base la progettazione e l'uso degli SLO. Questo argomento viene trattato in modo molto più dettagliato in Site Reliability Engineering: in che modo Google gestisce la produzione Systems, nel capitolo sugli SLO.

Gli SLO definiscono le prestazioni target che vuoi ottenere dal tuo servizio. In generale, gli SLO non dovrebbero essere più elevati del necessario o significativi. Se gli utenti non sono in grado di distinguere tra una disponibilità del 99% e Disponibilità del servizio del 99,9%, utilizza il valore inferiore come SLO. Più alto è è più costoso da soddisfare e non farà differenza i tuoi utenti. Un servizio necessario per raggiungere un obiettivo di SLO del 100% non ha budget di errore. Impostare uno SLO di questo tipo è una pratica negativa.

Gli SLO sono in genere più rigidi di quelli pubblici o contrattuali impegni. Vuoi che uno SLO sia più rigido di un impegno pubblico. In questo modo se accade qualcosa che causi una violazione dello SLO, si è a conoscenza risolvere il problema prima che causi la violazione di un impegno o di un contratto. La violazione di un impegno o di un contratto può avere rilevanza legale, finanziaria o relativa alla reputazione implicazioni. Uno SLO fa parte di un sistema di allarme anticipato per evitare in cui ciò che accade.

Periodi di conformità

Esistono due tipi di periodi di conformità per gli SLO:

  • Periodi basati sul calendario (dalla data a oggi)
  • Periodi di rotazione (da n giorni fa a oggi, dove n va da 1 a 30 giorni)

Periodi di conformità basati su calendario

I periodi di conformità possono essere impostati su periodi di calendario, ad esempio una settimana o un mese. Il periodo di conformità e il budget di errore vengono reimpostati su limiti di calendario noti. Per i valori possibili, vedi CalendarPeriod.

Con un periodo di calendario, ottieni un punteggio di rendimento alla fine di questo periodo. Misurato in base alla soglia di rendimento, il punteggio del rendimento ti consente per capire se il servizio è stato conforme. Quando utilizzi un calendario di conformità, ricevi una valutazione di conformità solo una volta per ogni periodo di conformità, anche se vedi il rendimento nell'arco dell'intero periodo. Ma alla fine del periodo offre un valore di facile lettura che corrisponde facilmente al tuo i periodi di fatturazione per i clienti (se hai clienti paganti esterni).

Come i mesi di un calendario, i periodi di conformità mensili variano nel numero di giorni che coprono.

Periodi di conformità a rotazione basati su finestre

Puoi anche misurare la conformità in un periodo continuativo, in modo da valutando sempre, ad esempio, gli ultimi 30 giorni. Con un periodo continuativo, i dati meno recenti nel calcolo precedente vengono eliminati da quelli calcolo e vengono sostituiti da nuovi dati.

Con una finestra temporale continua, ottieni più misurazioni di conformità; cioè ottieni una misura di conformità relativa agli ultimi 30 giorni, anziché uno ogni mese. La transizione dei servizi da conformità a non conformità e viceversa man mano che lo stato dello SLO cambia ogni giorno, man mano che i vecchi punti dati vengono eliminati e quelli nuovi aggiunto.

Conformità negli SLO basati su richieste e finestre

La conformità di uno SLO dipende da due fattori:

  • Come viene determinato il periodo di conformità. Questa determinazione viene discussa nei Periodi di conformità.
  • Il tipo di SLO. Esistono due tipi di SLO:
    • SLO basati su richiesta
    • SLO basati su Windows

La conformità è il rapporto tra gli eventi positivi e il totale degli eventi. misurati nel periodo di conformità. Il tipo di SLO determina costituisce un "evento".

Se il tuo SLO è del 99,9%, significa che lo soddisfi se la tua conformità è pari a almeno il 99,9%. Il valore massimo è 100%.

SLO basati su richiesta

Uno SLO basato su richiesta è basato su uno SLI definito come il rapporto tra il numero di richieste soddisfacenti e il numero totale di richieste. Uno SLO basato su richiesta viene soddisfatto quando tale rapporto soddisfa o supera l'obiettivo di il periodo di conformità.

Considera ad esempio questo SLO basato sulle richieste: "La latenza è inferiore a 100 ms per almeno il 95% delle richieste". Una richiesta valida è quella con una risposta inferiore a 100 ms, quindi la misura della conformità è la frazione di richieste con tempi di risposta inferiori a 100 ms. Il servizio è conforme se questa frazione è almeno 0,95.

Gli SLO basati su richiesta ti danno un'idea della percentuale di lavoro offerta dal tuo servizio ha funzionato correttamente durante l'intero periodo di conformità, indipendentemente da come sia stato distribuiti in tutto il periodo di conformità.

SLO basati su Windows

Uno SLO basato su Windows è basato su uno SLI definito come rapporto tra numero di intervalli di misurazione che soddisfa un determinato criterio di validità rispetto al totale il numero di intervalli. Uno SLO basato su finestre viene raggiunto quando tale rapporto è pari o superiore l'obiettivo per il periodo di conformità.

Considera ad esempio questo SLO: "La metrica di latenza al 95° percentile è meno di 100 ms per almeno il 99% di finestre di 10 minuti". Un buon di misurazione è un intervallo di 10 minuti in cui il 95% delle richieste hanno una latenza inferiore a 100 ms. La misura della conformità è la frazione di periodi così positivi. Il servizio è conforme se questa frazione è di almeno 0,99.

Per un altro esempio, supponiamo che tu configuri il periodo di conformità come un di 30 giorni, l'intervallo di misurazione essere un minuto e l'obiettivo SLO essere del 99%. Per soddisfare questo SLO, il servizio deve avere 42.768 "buoni" intervalli di 43.200 minuti (il 99% del numero di minuti in 30 giorni).

Uno SLO basato su Windows ti dà un'idea della percentuale di tempo in cui i clienti hanno trovato il servizio funzionante bene o male. Questo tipo di SLO può nascondere gli effetti di un comportamento "bursty": l'intervallo di misurazione che non ha superato tutte le chiamate viene conteggiato ai fini del calcolo SLO tanto quanto un intervallo di misurazione con un errore di troppo. Inoltre, gli intervalli con un numero basso di chiamate vengono conteggiati ai fini dello SLO tanto quanto intervallo di misurazione con attività intensa.

Previsione dei budget di errore

Il budget di errore è la differenza tra un buon servizio al 100% e il tuo SLO, il livello desiderato di buon servizio. La differenza è che spazio di manovra.

In generale, un budget di errore inizia come valore massimo e diminuisce nel tempo, che attivano una violazione dello SLO quando il budget di errore scende al di sotto di 0.

Esistono un paio di eccezioni degne di nota a questo modello:

  • Se disponi di uno SLO basato su richiesta misurato in un periodo di conformità del calendario, e il servizio ha aumentato l'attività nel periodo di conformità, il budget di errore rimanente può effettivamente aumentare.

    Com'è possibile? Il sistema SLO non può sapere in anticipo quanto l'attività che il servizio avrà in ciascun periodo di conformità, quindi la estrapola un valore probabile. Questo valore è il rapporto tra le chiamate fino al attuale rispetto al tempo trascorso dall'inizio del processo di conformità moltiplicato per la durata del periodo di conformità.

    Con l'aumento del tasso di attività, aumenta anche il traffico previsto per il periodo, e, di conseguenza, il budget di errore aumenta.

  • Se stai misurando uno SLO in un periodo di conformità in sequenza, in modo efficace sempre al termine di un periodo di conformità. Invece di iniziare da zero, i vecchi punti dati vengono continuamente eliminati e quelli nuovi vengono aggiunti continuamente.

    Se un periodo di scarsa conformità esce dalla finestra di conformità e se la soluzione attuale, sostituendola, è conforme, il budget di errore aumenta. In qualsiasi momento, un budget di errore ≥ 0 indica una sequenza di conversione finestra SLO e budget di errore < 0 indica una sequenza continua non conforme finestra SLO.

Monitoraggio del budget di errore

Puoi creare criteri di avviso per avvisarti che il budget di errore è consumato a una velocità superiore a quella desiderata. Vedi Avvisi sugli errori budget per ulteriori informazioni.

Passaggi successivi

  • Microservizi descrive i microservizi e come utilizzarli la console Google Cloud per configurare, visualizzare e gestire i microservizi.
  • Nella sezione Avvisi sul tasso di combustione viene descritto come monitorare gli SLI in modo da essere avvisati di possibili problemi.
  • L'utilizzo dell'API SLO mostra come utilizzare l'API SLO, un sottoinsieme dell'API Cloud Monitoring, per creare servizi, SLO e le nostre strutture.