I servizi di dati di Google Cloud discussi in questa pagina includono quelli che elaborano i dati forniti e generano i risultati di questo trattamento, in risposta a una richiesta o in modo continuo. Anziché utilizzare la disponibilità e la latenza come SLI principali per questi servizi, le scelte più appropriate sono le seguenti:
- Accuratezza, una misura del numero di errori di elaborazione della pipeline.
- Aggiornamento, una misura della velocità di elaborazione dei dati.
Per ulteriori informazioni sulle pipeline di dati dal punto di vista dell'SRE, consulta Pipeline di elaborazione dei dati nel Workbook Site Reliability Engineering.
Per esprimere un SLI di correttezza basato su richiesta, utilizza la struttura
TimeSeriesRatio
per impostare un
rapporto tra gli elementi che hanno riscontrato problemi di elaborazione e tutti gli elementi elaborati.
Puoi decidere come filtrare la metrica utilizzando le relative etichette disponibili per ottenere la determinazione preferita di totali "problema" e "validi".
Un SLI relativo all'aggiornamento basato su richiesta viene espresso utilizzando una struttura DistributionCut
.
Dataflow
Dataflow è un servizio completamente gestito di analisi dei flussi di dati che riduce al minimo la latenza, i tempi di elaborazione e i costi. Puoi utilizzare Dataflow per elaborare i dati come stream o in batch utilizzando l'SDK Apache Beam.
Per ulteriori informazioni, consulta quanto segue:
- Documentazione di Dataflow.
- Elenco dei
dataflow.googleapis.com
tipi di metriche.
SLI di correttezza
Dataflow scrive i dati delle metriche in Cloud Monitoring utilizzando il tipo di risorsa monitorata dataflow_job
e il tipo di metrica job/element_count
, che conteggia il numero di elementi aggiunti alla raccolta fino a quel momento. La somma dell'etichetta della risorsa job_name
ti fornisce il numero di elementi da elaborare dal job.
Separatamente, puoi utilizzare il tipo di metrica
con il tipo di risorsa monitorata
logging.googleapis.com
/log_entry_countdataflow_job
per conteggiare il numero di errori
registrati da un determinato job utilizzando l'etichetta della metrica severity
.
Puoi utilizzare queste metriche per esprimere un SLI di correttezza basato su richiesta come una frazione di errori e di tutti gli elementi elaborati utilizzando una struttura TimeSeriesRatio
, come mostrato nell'esempio seguente:
"serviceLevelIndicator": {
"requestBased": {
"goodTotalRatio": {
"totalServiceFilter":
"metric.type=\"dataflow.googleapis.com/job/element_count\"
resource.type=\"dataflow_job\"
resource.label.\"job_name\"=\"my_job\"",
"badServiceFilter":
"metric.type=\"logging.googleapis.com/log_entry_count\"
resource.type=\"dataflow_job\"
resource.label.\"job_name\"=\"my_job\"
metric.label.\"severity\"=\"error\"",
}
}
}
SLI di aggiornamento
Dataflow scrive anche i dati delle metriche in Cloud Monitoring utilizzando il tipo di risorsa monitorata dataflow_job
e il tipo di metrica job/per_stage_system_lag
, che misura la durata massima attuale per la quale un elemento di dati è in fase di elaborazione o in attesa di elaborazione.
Puoi esprimere un SLI di aggiornamento utilizzando questa metrica con una struttura DistributionCut
.
Il seguente esempio di SLO prevede che l'elemento di dati più antico venga elaborato in meno di 100 secondi il 99% delle volte in un periodo di un'ora:
{
"serviceLevelIndicator": {
"requestBased": {
"distributionCut": {
"distributionFilter":
"metric.type=\"dataflow.googleapis.com/job/per_stage_system_lag\"
resource.type=\"dataflow_job\"
resource.label.\"job_name\"=\"my_job\"",
"range": {
"min": 0,
"max": 100
}
}
}
},
"goal": 0.99,
"rollingPeriod": "3600s",
"displayName": "99% data elements processed under 100 s"
}
Puoi anche esprimere un SLI di aggiornamento utilizzando una struttura
WindowsBasedSli
.
L'esempio di SLO seguente prevede che il 99% delle finestre di cinque minuti in un periodo di un giorno scorrevole non registri elementi elaborati in più di 100 secondi:
{
"displayName": "Dataflow - windowed freshness",
"serviceLevelIndicator": {
"windowsBased": {
"windowPeriod": "300s",
"metricMeanInRange": {
"timeSeries":
"metric.type=\"dataflow.googleapis.com/job/per_stage_system_lag\"
resource.type=\"dataflow_job\"
resource.label.\"job_name\"=\"my_job\"",
"range": {
"min": "0",
"max": "100"
}
}
}
},
"goal": 0.99,
"rollingPeriod": "86400s"
}
Tieni presente che, affinché una finestra sia considerata "buona", la metrica non può superare la
soglia specificata in range
in nessun momento durante la finestra di valutazione.
Dataproc
Dataproc fornisce un cluster creato appositamente e completamente gestito che può scalare automaticamente per supportare qualsiasi job di elaborazione di dati o analisi Hadoop o Spark.
Per ulteriori informazioni, consulta quanto segue:
- Documentazione di Dataproc.
- Elenco dei
dataproc.googleapis.com
tipi di metriche.
SLI di correttezza
Dataproc scrive i dati delle metriche in Cloud Monitoring utilizzando il tipo di risorsa monitorata cloud_dataproc_cluster
e i seguenti tipi di metriche:
-
cluster/job/submitted_count
, che conteggia il numero totale di job inviati. -
cluster/job/failed_count
, che conteggia il numero totale di job non riusciti.
Puoi utilizzare queste metriche per esprimere un SLI di correttezza basato su richiesta come rapporto,
TimeSeriesRatio
, tra i job non riusciti e tutti
i job inviati, come mostrato nell'esempio seguente:
"serviceLevelIndicator": {
"requestBased": {
"goodTotalRatio": {
"totalServiceFilter":
"metric.type=\"dataproc.googleapis.com/cluster/job/submitted_count\"
resource.type=\"cloud_dataproc_cluster\"
resource.label.\"cluster_name\"=\"my_cluster\"",
"badServiceFilter":
"metric.type=\"dataproc.googleapis.com/cluster/job/failed_count\"
resource.type=\"cloud_dataproc_cluster\"
resource.label.\"cluster_name\"=\"my_cluster\"",
}
}
}
SLI di aggiornamento
Dataproc scrive anche i dati delle metriche in Cloud Monitoring utilizzando il tipo di risorsa monitorata cloud_dataproc_cluster
e i seguenti tipi di metriche:
-
cluster/job/duration
, che misura il tempo di permanenza dei job negli stati di elaborazione. Puoi filtrare i dati dell'etichetta della metricastate
per identificare il tempo trascorso in stati specifici. Ad esempio, puoi creare un SLI che misura il tempo di permanenza dei job nello statoPENDING
per impostare un tempo di attesa massimo consentito prima dell'inizio dell'elaborazione del job. -
cluster/job/completion_time
, che misura il tempo di permanenza dei job nella metricacluster/job/completion_time
. Utilizza questa metrica quando il completamento del job è una metrica ben compresa o quando il volume di dati elaborati dai job in un cluster non varia, il che influisce sul tempo di elaborazione.
Puoi esprimere un SLI di aggiornamento utilizzando queste metriche con una struttura DistributionCut
, come mostrato negli esempi riportati di seguito.
L'esempio seguente di SLO utilizza cluster/job/duration
e si aspetta che il 99% dei job in "my_cluster" sia nello stato PENDING
per meno di 100 secondi in un periodo di 24 ore:
{
"serviceLevelIndicator": {
"requestBased": {
"distributionCut": {
"distributionFilter":
"metric.type=\"dataproc.googleapis.com/cluster/job/duration\"
resource.type=\"cloud_dataproc_cluster\"
resource.label.\"cluster_name\"=\"my_cluster\"
metric.label.\"state\"=\"PENDING\"",
"range": {
"min": 0,
"max": 100
}
}
}
},
"goal": 0.99,
"rollingPeriod": "86400s",
"displayName": "Dataproc pending jobs"
}
L'esempio seguente di SLO utilizza cluster/job/completion_time
e prevede che il 99% dei job in "my_cluster" venga completato in meno di 100 secondi in un periodo di 24 ore:
{
"serviceLevelIndicator": {
"requestBased": {
"distributionCut": {
"distributionFilter":
"metric.type=\"dataproc.googleapis.com/cluster/job/completion_time\"
resource.type=\"cloud_dataproc_cluster\"
resource.label.\"cluster_name\"=\"my_cluster\"",
"range": {
"min": 0,
"max": 100
}
}
}
},
"goal": 0.99,
"rollingPeriod": "86400s",
"displayName": "Dataproc completed jobs"
}