Panoramica degli obiettivi del livello di servizio
Gli obiettivi del livello di servizio (SLO) sono uno strumento fondamentale del toolkit di monitoraggio dei servizi Google. Gli SLO possono fornirti un segnale conciso e a basso rumore relativo all'integrità complessiva dei tuoi servizi. Anthos Service Mesh ti consente di impostare gli SLO per i tuoi servizi, nonché di monitorare e creare avvisi sui tuoi servizi in termini di SLO.
Per monitorare l'integrità di un servizio, devi capire quali sono i comportamenti importanti per il servizio e come misurarli e valutarli. Un indicatore del livello del servizio (SLI) è una misura quantitativa di alcuni aspetti del servizio. Gli SLI tipici sono:
- Latenza: il tempo necessario per restituire una risposta a una richiesta, solitamente misurato in millisecondi (ms). In genere, la latenza viene presentata come aggregato. In altre parole, i dati non elaborati vengono raccolti in un determinato periodo di tempo e calcolati come percentili. Anthos Service Mesh mostra un grafico Latenza nella pagina Metriche per ciascuno dei tuoi servizi. Il grafico Latenza mostra la latenza nel tempo, utile per determinare una soglia o un limite superiore di latenza per un servizio.
- Disponibilità: la frazione di tempo in cui un servizio risponde correttamente. Questo in genere è presentato come un rapporto tra il numero di risposte riuscite e il numero totale di risposte. Il grafico del tasso di errori nella pagina Metriche può aiutarti a determinare la disponibilità di ciascun servizio.
Uno SLO è un valore target per un livello di servizio misurato da uno SLI. Uno SLO
può essere rappresentato come: SLI ≤ upper_bound
o SLI ≥ lower_bound
. Gli SLO sono obiettivi misurabili per le prestazioni in un determinato periodo di tempo. Ad esempio, per alcuni dei tuoi servizi potresti avere requisiti come quelli indicati di seguito:
- La latenza può superare i 300 ms solo nel 5% delle richieste in un periodo continuativo di 30 giorni.
- Il sistema deve avere una disponibilità del 99% misurata nell'arco di una settimana di calendario.
Nella pagina Salute puoi impostare e visualizzare gli SLO per i tuoi servizi in base ai relativi dati di telemetria. Potrai quindi creare avvisi in Cloud Monitoring per ricevere avvisi se un servizio non funziona come previsto.
Passaggi successivi
Scopri di più sugli SLO di Site Reliability Engineering di Google: