Questo documento nel Framework dell'architettura Google Cloud descrive come scegliere gli indicatori del livello del servizio (SLI) appropriati per il tuo completamente gestito di Google Cloud. Questo documento si basa sui concetti definiti in Componenti degli SLO.
Le metriche sono necessarie per determinare se gli obiettivi del livello di servizio (SLO) sono vengono soddisfatte. Queste metriche vengono definite come SLI. Ogni SLI misura un aspetto specifico del servizio, come tempo di risposta, disponibilità o successo di conversione.
Gli SLO includono uno o più SLI e sono idealmente basati sui percorsi dell'utente critici (CUJ). I CUJ fanno riferimento a un insieme specifico di interazioni o percorsi dell'utente per raggiungere il suo obiettivo su un sito web. Considera un cliente che fa acquisti di e-commerce. Il cliente esegue l'accesso, cerca un prodotto e aggiunge l'articolo su un carrello, va alla pagina di pagamento e paga. I CUJ identificano diversi modi per aiutare gli utenti a completare le attività il più rapidamente possibile.
Quando scegli gli SLI, devi considerare le metriche appropriate il servizio, i vari tipi di metriche che puoi utilizzare, la qualità e il numero corretto di metriche necessarie.
Scegliere gli SLI appropriati per il tipo di servizio
Esistono molti tipi di servizi. La tabella seguente elenca i tipi di servizi comuni e fornisce esempi di SLI per ciascuno. Alcuni SLI sono applicabili a più servizi di testo. Se un SLI compare più volte nella tabella, solo la prima istanza fornisce una definizione. Ricorda che gli SLI sono spesso espressi numero di "nove" nella metrica.
Tipo di servizio | SLI tipici |
---|---|
Sistemi di distribuzione |
|
Sistemi di elaborazione dati |
|
Sistemi di archiviazione |
|
Sistemi di gestione delle richieste |
|
Sistemi di esecuzione pianificata |
|
Valutare diversi tipi di metriche
Oltre a scegliere lo SLI appropriato per il tuo servizio, devi decidere lo tipo di metrica da utilizzare per il tuo SLI. Gli SLI elencati nella precedente sono generalmente uno dei seguenti tipi:
- Contatore: questo tipo di metrica può aumentare, ma non diminuire. Per ad esempio il numero di errori che si sono verificati fino a un determinato punto di misurazione.
- Indicatore: questo tipo di metrica può aumentare o diminuire. Ad esempio: il valore effettivo di una parte misurabile del sistema (come la lunghezza della coda).
- Distribuzione (istogramma): il numero di eventi che vivono in una specifico segmento di misurazione per un determinato periodo di tempo. Ad esempio: misurazione del numero di richieste da 0 a 10 ms per il completamento, di quante di queste ultime 11-30 e quanti di loro impiegano 31-100 ms. Il risultato è un conteggio per ogni bucket quali [0-10: 50], [11-30: 220] e [31-100: 1103].
Per ulteriori informazioni su questi tipi, consulta Documentazione del progetto Prometheus e Tipi di valori e metriche in Cloud Monitoring.
Considerare la qualità della metrica
Non tutte le metriche sono utili. Oltre ad essere il rapporto tra eventi riusciti e eventi totali, devi stabilire se una metrica è uno SLI efficace per il tuo e alle esigenze aziendali. Per aiutarti a prendere questa decisione, considera quanto segue: caratteristiche di una buona metrica:
Le metriche sono direttamente correlate alla soddisfazione degli utenti. Gli utenti sono insoddisfatti quando non si comporta come previsto, ad esempio quando è lento, è impreciso o non funziona del tutto. Convalida qualsiasi SLO in base a queste metriche confrontando lo SLI con altri indicatori di felicità dell'utente. Questo confronto include dati quali il numero di richieste inviate dai clienti, il volume delle chiamate all'assistenza e il sentiment sui social media. (Per ulteriori informazioni, vedi miglioramento continuo degli obiettivi SLO).
Se la tua metrica non è in linea con questi altri indicatori dell'utente felicità, potrebbe non essere un buon SLI.
Il deterioramento della metrica è correlato alle interruzioni. Qualsiasi metrica che riporti risultati di servizio positivi durante un'interruzione è chiaramente sbagliata per un SLI. Al contrario, una metrica che sembra non funzionare correttamente durante il normale funzionamento anche problematico
La metrica offre un buon rapporto tra indicatori e rumore. Ignora qualsiasi metrica generando un numero elevato di falsi negativi o falsi positivi.
La metrica varia in modo monotono e lineare in base alla soddisfazione del cliente. In poche parole, man mano che la metrica migliora, migliora anche la soddisfazione dei clienti.
Seleziona il numero corretto di metriche
Un singolo servizio può avere più SLI, soprattutto se viene eseguito diversi tipi di lavoro o servino tipi di utenti diversi. È meglio scegliere le metriche appropriate per ogni tipo.
Al contrario, alcuni servizi svolgono tipi di attività simili, che possono essere alla pari. Ad esempio, gli utenti che visualizzano pagine diverse del tuo sito (come il home page, sottocategorie ed elenco delle prime 10). Invece di sviluppare un modello SLI per ciascuna di queste azioni, combinarle in un'unica categoria SLI, ad esempio servizi di navigazione.
I tuoi utenti le aspettative non cambiano molto tra le azioni di un comportamento simile categoria. La loro felicità è quantificabile dalla risposta alla domanda: "Avrei visualizzare rapidamente una pagina intera di elementi?"
Utilizza il minor numero possibile di SLI per rappresentare con precisione le tolleranze del servizio. Come una guida generale, avere da due a sei SLI. Con un numero troppo basso di SLI, puoi perderti qualcosa di importante e indicatori. Troppi e il team di assistenza ha a disposizione troppi dati con pochi per offrire un ulteriore vantaggio. Gli SLI dovrebbero semplificare la comprensione dell'integrità della produzione e darti un senso di copertura, non sopraffarti (o deluderti).
Passaggi successivi
- Leggi Misurare gli SL0.
- Dai un'occhiata ad altre risorse SRE:
- Esplora altre categorie nella Framework dell'architettura.
- Per altre architetture di riferimento, diagrammi e best practice, esplora il Centro architetture cloud.