Componenti degli obiettivi del livello di servizio

Questo documento nel framework dell'architettura Google Cloud definisce i concetti chiave necessari per comprendere e creare gli obiettivi del livello di servizio (SLO).

Essenzialmente, gli SLO riflettono gli obiettivi di affidabilità del servizio che fornisci agli utenti. È importante includere il contributo di tutti gli stakeholder critici al momento di definire questi obiettivi. Molti gruppi diversi e livelli di gestione hanno un profondo interesse nei confronti del tuo servizio. Sono inclusi proprietari di attività, proprietari di prodotti, dirigenti, ingegneri, personale di assistenza, operazioni, vendite e qualsiasi altro team associato al servizio.

Esistono tanti modi per ottenere input degli stakeholder quanti sono diversi obiettivi di affidabilità tra cui scegliere. La scelta definitiva degli scopi dipende da te e dalla tua organizzazione in base a requisiti, stakeholder e altri fattori. Sebbene questo processo non rientri nell'ambito di questa guida, un approccio semplice consiste nel creare un documento condiviso che descriva i tuoi SLO e come li hai sviluppati. Il tuo team può eseguire l'iterazione del documento mentre implementa e continua a migliorare gli SLO nel tempo.

Le sezioni seguenti definiscono i vari componenti degli SLO.

Livello del servizio

Un livello di servizio è una misurazione del livello di efficacia di un servizio per il lavoro previsto per l'utente. Questa metrica può essere descritta in termini di soddisfazione degli utenti e misurata con vari metodi che dipendono dalle caratteristiche uniche del servizio, dalla sua base utenti e dalle aspettative degli utenti. In questa guida, associamo le prestazioni all'affidabilità del sistema.

Esempio di livello di servizio: i nostri utenti si aspettano che il servizio sia disponibile e veloce.

Indicatore del livello del servizio

Un indicatore del livello del servizio (SLI) è un indicatore del livello di soddisfazione degli utenti che può essere misurato quantitativamente. Un indicatore è simile a una linea su un grafico che cambia nel tempo man mano che il servizio migliora o diminuisce. Per valutare un livello di servizio, scegli un indicatore che rappresenti alcuni aspetti della soddisfazione degli utenti. La disponibilità è uno SLI comune.

SLI di esempio: il numero di richieste riuscite negli ultimi 10 minuti, diviso per il numero di tutte le richieste valide nello stesso periodo di tempo.

Lo SLI nell'esempio è specifico e ben definito ed espresso come valore numerico. Questo valore riflette la disponibilità del servizio. Monitorando in modo coerente questo SLI nel tempo, un team può determinare la disponibilità complessiva del suo servizio.

Per ulteriori informazioni sulla scelta degli SLI, vedi Scegliere gli SLI.

Obiettivo del livello di servizio

L'obiettivo del livello di servizio (SLO) è l'intervallo target che il servizio dovrebbe raggiungere, in base alle misurazioni dello SLI. L'esempio seguente utilizza il tempo di risposta, o la velocità del servizio, come SLI.

SLO di esempio: la risposta del servizio è più veloce di 400 millisecondi (ms) per il 95% di tutte le richieste valide misurate in 14 giorni.

Nell'esempio SLO, lo SLI è il numero di richieste più veloce di 400 ms diviso per il numero di richieste valide. Questa percentuale viene monitorata nell'arco di 14 giorni. L'obiettivo è soddisfare il 95% di tutte le richieste. In altre parole, se il risultato finale (la percentuale di richieste che soddisfano i criteri) supera il 95%, significa che hai soddisfatto lo SLO per il servizio.

Per ricapitolare, lo SLI è una misurazione (ad esempio velocità, disponibilità e successo) del tuo servizio. Lo SLO è l'aspettativa che una quantità specifica di queste misurazioni (la percentuale) soddisfi o superi un determinato livello o intervallo. Qualsiasi valore al di sotto del livello previsto è negativo. Non hai fornito agli utenti un servizio affidabile in un'area specifica delle prestazioni.

Per saperne di più sulla scelta degli SLO, consulta Scegliere gli SLO.

Accordo sul livello del servizio

L'accordo sul livello del servizio (SLA) è il contratto tra te, il fornitore di servizi e i tuoi clienti. Elenca gli SLO promessi dai clienti e che si aspettano. Lo SLA specifica anche cosa succede se non viene soddisfatto uno SLO. Uno SLO non funzionante potrebbe comportare il rimborso del denaro da parte del fornitore di servizi, la fornitura di servizi scontati o l'utilizzo di servizi più importanti che potrebbero comportare azioni legali o danni punitivi.

Gli SLA (accordi sul livello del servizio) non sono trattati approfonditamente in questa guida. Vengono menzionati gli SLA (accordi sul livello del servizio) per migliorare la comprensione di SLO, SLI e utente.

Budget di errore

Il valore finale da comprendere quando si parla di SLO è la percentuale o il numero di eventi negativi che il servizio può resistere prima di violare lo SLO. Questo numero, chiamato budget di errore, definisce la quantità di errori che la tua azienda può aspettarsi e tollerare.

Per dimostrarlo, utilizza la disponibilità come SLI (rappresentato da una percentuale). Tre o più "nove" nella percentuale indicano la precisione con cui vuoi misurare lo SLI. In altre parole, il numero di "9" rappresenta la percentuale di disponibilità.

Consideriamo uno SLO di tre nove pari al 99,9%. La sottrazione del valore SLO dal 100% restituisce un budget di errore dello 0,1%. Quando si parla di disponibilità, un budget dello 0,1% è leggermente inferiore a nove ore l'anno durante le quali il servizio non è disponibile. L'aggiunta di altre nove riduce drasticamente il budget di errore. Una disponibilità del 99,99% (quattro nove) consente di evitare tempi di inattività del servizio inferiori a un'ora all'anno.

Questo tempo di inattività include richieste che non vanno a buon fine, tempi di inattività del server per errore (arresto anomalo o bug del software) o progettazione (upgrade o test), errori umani, incidenti e molto altro.

Passaggi successivi