Scegliere gli indicatori del livello del servizio (SLI)

Last reviewed 2024-03-29 UTC

Questo documento nel Framework dell'architettura Google Cloud descrive come scegliere gli indicatori del livello del servizio (SLI) appropriati per il tuo completamente gestito di Google Cloud. Questo documento si basa sui concetti definiti in Componenti degli SLO.

Le metriche sono necessarie per determinare se gli obiettivi del livello di servizio (SLO) sono vengono soddisfatte. Queste metriche vengono definite come SLI. Ogni SLI misura un aspetto specifico del servizio, come tempo di risposta, disponibilità o successo di conversione.

Gli SLO includono uno o più SLI e sono idealmente basati sui percorsi dell'utente critici (CUJ). I CUJ fanno riferimento a un insieme specifico di interazioni o percorsi dell'utente per raggiungere il suo obiettivo su un sito web. Considera un cliente che fa acquisti di e-commerce. Il cliente esegue l'accesso, cerca un prodotto e aggiunge l'articolo su un carrello, va alla pagina di pagamento e paga. I CUJ identificano diversi modi per aiutare gli utenti a completare le attività il più rapidamente possibile.

Quando scegli gli SLI, devi considerare le metriche appropriate il servizio, i vari tipi di metriche che puoi utilizzare, la qualità e il numero corretto di metriche necessarie.

Scegliere gli SLI appropriati per il tipo di servizio

Esistono molti tipi di servizi. Nella tabella seguente sono elencati i tipi di servizi più comuni e fornisce esempi di SLI per ciascuno. Alcuni SLI sono applicabili a più servizi di testo. Se uno SLI compare più di una volta nella tabella, solo il primo SLI un'istanza fornisce una definizione. Ricorda che gli SLI sono spesso espressi numero di "nove" nella metrica.

Tipo di servizio SLI tipici
Sistemi di distribuzione
  • Disponibilità: la percentuale del servizio utilizzabile. La disponibilità è definita come la frazione dei richieste divise per il numero totale di richieste ed espresse sotto forma di percentuale, come il 99,9%.
  • Latenza: la velocità con cui una determinata percentuale le richieste siano soddisfatte. Ad esempio, 99° percentile a 300 ms.
  • Qualità: in che misura i contenuti la risposta a una richiesta si discosta dal contenuto ideale della risposta. Ad esempio, una scala da 0% a 100%.
Sistemi di trattamento dati
  • Copertura: la quantità di dati elaborati, espressa come frazione. ad esempio 95%.
  • Correttezza: la frazione dei dati di output ritenuti corretti. Ad esempio, 99,99%.
  • Attualità: l'aggiornamento dei dati di origine o aggregati di output. Ad esempio, i dati sono stati aggiornati 20 minuti fa.
  • Velocità effettiva: quantità di dati elaborati. Ad esempio, 500 MiB o 1000 richieste al secondo.
Sistemi di archiviazione
  • Durabilità: la probabilità che i dati scritti nel sistema vengano a cui accedi in futuro. Ad esempio, 99,9999%.
  • Time to First Byte (TTFB), il tempo necessario per inviare e ricevere il primo byte di una pagina.
  • Disponibilità BLOB: il rapporto tra le richieste dei clienti che hanno restituito un risposta di errore non del server al numero totale di richieste dei clienti.
  • Velocità effettiva
  • Latenza
Sistemi di gestione delle richieste
  • Disponibilità
  • Latenza
  • Qualità
Sistemi di esecuzione pianificata
  • Disallineamento: la proporzione di esecuzioni che iniziano entro un accettabile per l'ora di inizio prevista.
  • Esecuzione: il tempo necessario per il completamento di un job. Per un dato dell'esecuzione, una modalità di errore comune prevede il superamento della durata effettivo programmata.

Valutare diversi tipi di metriche

Oltre a scegliere lo SLI appropriato per il tuo servizio, devi decidere lo tipo di metrica da utilizzare per il tuo SLI. Gli SLI elencati nella precedente sono generalmente uno dei seguenti tipi:

  • Contatore: questo tipo di metrica può aumentare, ma non diminuire. Per ad esempio il numero di errori che si sono verificati fino a un determinato punto di misurazione.
  • Indicatore: questo tipo di metrica può aumentare o diminuire. Ad esempio: il valore effettivo di una parte misurabile del sistema (come la lunghezza della coda).
  • Distribuzione (istogramma): il numero di eventi che vivono in una specifico segmento di misurazione per un determinato periodo di tempo. Ad esempio: misurazione del numero di richieste da 0 a 10 ms per il completamento, di quante di queste ultime 11-30 e quanti di loro impiegano 31-100 ms. Il risultato è un conteggio per ogni bucket quali [0-10: 50], [11-30: 220] e [31-100: 1103].

Per ulteriori informazioni su questi tipi, consulta Documentazione del progetto Prometheus e Tipi di valori e metriche in Cloud Monitoring.

Considerare la qualità della metrica

Non tutte le metriche sono utili. Oltre ad essere il rapporto tra eventi riusciti e eventi totali, devi stabilire se una metrica è uno SLI efficace per il tuo e alle esigenze aziendali. Per aiutarti a prendere questa decisione, considera quanto segue: caratteristiche di una buona metrica:

  • Le metriche sono direttamente correlate alla soddisfazione degli utenti. Gli utenti sono insoddisfatti quando non si comporta come previsto, ad esempio quando è lento, è impreciso o non funziona del tutto. Convalida qualsiasi SLO in base a queste metriche confrontando lo SLI con altri indicatori di felicità dell'utente. Questo confronto include dati come il numero di ticket di reclamo dei clienti, l'assistenza volume delle chiamate e sentiment sui social media. (Per ulteriori informazioni, vedi miglioramento continuo degli obiettivi SLO).

    Se la tua metrica non è in linea con questi altri indicatori dell'utente felicità, potrebbe non essere un buon SLI.

  • Il deterioramento della metrica è correlato alle interruzioni. Qualsiasi metrica la segnalazione di buoni risultati di servizio durante un'interruzione è chiaramente la metrica sbagliata per uno SLI. Al contrario, una metrica che sembra non funzionare correttamente durante il normale funzionamento anche problematico

  • La metrica offre un buon rapporto tra indicatori e rumore. Ignora qualsiasi metrica generando un numero elevato di falsi negativi o falsi positivi.

  • La metrica scala in modo monotonico e lineare in base alla soddisfazione del cliente. In poche parole, man mano che la metrica migliora, migliora anche la soddisfazione dei clienti.

Seleziona il numero corretto di metriche

Un singolo servizio può avere più SLI, soprattutto se viene eseguito diversi tipi di lavoro o servino tipi di utenti diversi. È meglio scegliere le metriche appropriate per ogni tipo.

Al contrario, alcuni servizi svolgono tipi di attività simili, che possono essere alla pari. Ad esempio, gli utenti che visualizzano pagine diverse del tuo sito (come il home page, sottocategorie ed elenco delle prime 10). Invece di sviluppare un modello SLI per ciascuna di queste azioni, combinarle in un'unica categoria SLI, ad esempio servizi di navigazione.

I tuoi utenti le aspettative non cambiano molto tra le azioni di un comportamento simile categoria. La loro felicità è quantificabile dalla risposta alla domanda: "Avrei visualizzare rapidamente una pagina intera di elementi?"

Utilizza il minor numero possibile di SLI per rappresentare con precisione le tolleranze del servizio. Come una guida generale, avere da due a sei SLI. Con un numero troppo basso di SLI, puoi perderti qualcosa di importante e indicatori. Troppi e il team di assistenza ha a disposizione troppi dati con pochi per offrire un ulteriore vantaggio. Gli SLI dovrebbero semplificare la comprensione dell'integrità della produzione e darti un senso di copertura, non sopraffarti (o deluderti).

Passaggi successivi