Questo documento nel Framework dell'architettura Google Cloud definisce i concetti chiave necessari per comprendere e creare il livello di servizio (SLO).
Fondamentalmente, gli SLO riflettono gli obiettivi di affidabilità del servizio che fornisci utenti. È importante includere gli input di tutti gli stakeholder critici quando nella definizione di questi obiettivi. Molti gruppi e livelli di gestione diversi hanno per il tuo servizio. Sono inclusi proprietari di attività, proprietari di prodotti, dirigenti, ingegneri, personale di supporto, operazioni, vendite ed eventuali altri team associati al tuo servizio.
Ci sono tanti modi per ottenere l'input delle parti interessate quanti gli obiettivi di affidabilità da scegliere. Il modo in cui scegli gli obiettivi a te e alla tua organizzazione in base ai requisiti, agli stakeholder fattori. Sebbene questo processo non rientri nell'ambito di questa guida, un approccio semplice è per creare un documento condiviso che descriva i tuoi SLO e come li hai sviluppati. Il tuo team può ripetere il documento man mano che implementa e continua a migliorare gli SLO nel tempo.
Le sezioni seguenti definiscono i vari componenti degli SLO.
Livello del servizio
Un livello di servizio è una misurazione del rendimento di un servizio previsto per l'utente. Questa metrica può essere descritta in termini di query felicità e misurata con vari metodi che dipendono dall'unicità caratteristiche del servizio, la sua base utenti e le aspettative degli utenti. In questo guida, il rendimento viene associato all'affidabilità del sistema.
Esempio di livello di servizio: i nostri utenti si aspettano che il servizio sia disponibile e veloce.
Indicatore del livello del servizio
Un indicatore del livello del servizio (SLI) è un indicatore della soddisfazione degli utenti misurati quantitativamente. Un indicatore è simile a una linea nel grafico che le modifiche nel tempo man mano che il servizio migliora o peggiora. Valutare un servizio livello, scegli un indicatore che rappresenti qualche aspetto della felicità dell'utente. La disponibilità è uno SLI comune.
SLI di esempio: il numero di richieste andate a buon fine negli ultimi 10 minuti diviso in base al numero di tutte le richieste valide nello stesso periodo di tempo.
Lo SLI nell'esempio è specifico e ben definito ed espresso come come valore numerico. Questo valore riflette la disponibilità del servizio. Monitorando costantemente questo SLI nel tempo, un team può determinare la disponibilità complessiva del proprio servizio.
Per ulteriori informazioni sulla scelta degli SLI, consulta l'articolo Scegliere gli SLI.
Obiettivo del livello di servizio
L'obiettivo del livello di servizio (SLO) è l'intervallo target che prevedi servizio da raggiungere, secondo quanto misurato dallo SLI. L'esempio seguente utilizza il tempo di risposta, ovvero la velocità del servizio, come SLI.
Esempio di SLO: la risposta del servizio è inferiore a 400 millisecondi (ms) per il 95% di tutte le richieste valide misurate in 14 giorni.
Nell'esempio SLO, lo SLI è il numero di richieste più veloci di 400 ms diviso il numero di richieste valide. Questa percentuale è monitorata su 14 giorni. L'obiettivo è soddisfare il 95% di tutte le richieste. Cioè, se il risultato finale (la percentuale di richieste che soddisfano i criteri) è superiore al 95%, hai soddisfatto lo SLO per il servizio.
Per riepilogare, l'SLI è una misura (ad esempio velocità, disponibilità e esito) del servizio. Lo SLO è l'aspettativa che una quantità specifica tali misurazioni (la percentuale) sono pari o superiori a un certo livello o intervallo. Qualsiasi valore al di sotto del livello previsto è negativo. Non hai fornito i tuoi dati agli utenti di un servizio affidabile in una specifica area delle prestazioni.
Per saperne di più sulla scelta degli SLO, consulta Scegliere gli SLO.
Accordo sul livello del servizio
L'accordo sul livello del servizio (SLA, Service Level Agreement) è il contratto tra te, il servizio il fornitore e i tuoi clienti. Elenca gli SLO promessi ai clienti e in ultima analisi. Lo SLA specifica anche cosa succede se uno SLO non viene soddisfatto. Uno SLO non funzionante può comportare un rimborso da parte del fornitore di servizi, fornendo servizi scontati o più importanti possono comportare un'azione legale o danni punitivi.
Questa guida non tratta in modo approfondito gli SLA. gli SLA vengono citati per aumentare la tua conoscenza di SLO, SLI e dell'utente.
Budget di errore
Il valore finale da comprendere quando si parla degli SLO è la percentuale o il numero di eventi negativi che il tuo servizio può sostenere prima di violare lo SLO. Questo numero, chiamato budget di errore, definisce il numero di errori rilevati dalla tua attività ci si può aspettare e tollerare.
Per dimostrarlo, utilizza la disponibilità come SLI (rappresentato da una percentuale). Tre o più "nove" nella percentuale indica la precisione con cui vuoi misurare lo SLI. In altre parole, il numero di "9" esprime la percentuale di disponibilità.
Considera che uno SLO di tre nove è del 99,9%. Sottraendo il valore dello SLO dal 100%, rimane un budget di errore dello 0,1%. Quando si parla di disponibilità, un budget dello 0,1% equivale a poco meno di nove ore all'anno durante le quali il servizio non è disponibile. L'aggiunta di altri nove riduce drasticamente il budget di errore. La disponibilità di Il 99,99% (quattro nove) consente un tempo di inattività del servizio inferiore a un'ora all'anno.
Questi tempi di inattività comprendono le richieste che non vanno a buon fine, i tempi di inattività del server per errore (arresto anomalo bug del software) o progettazione (upgrade o test), errori umani, incidenti e molte altri.
Passaggi successivi
- Leggi l'articolo Scegliere gli SLO.
- Esplora altre categorie nella Framework dell'architettura.
- Per altre architetture di riferimento, diagrammi e best practice, esplora il Centro architetture cloud.