Layanan data Google Cloud yang dibahas di halaman ini mencakup layanan yang memproses data yang diberikan dan menghasilkan hasil pemrosesan tersebut, baik sebagai respons terhadap permintaan maupun secara berkelanjutan. Daripada menggunakan ketersediaan dan latensi sebagai SLI utama untuk layanan ini, pilihan yang lebih sesuai adalah berikut:
- Kebenaran, ukuran jumlah error pemrosesan yang terjadi pada pipeline.
- Keaktualan, ukuran seberapa cepat data diproses.
Untuk informasi lebih lanjut tentang pipeline data dari perspektif SRE, lihat Pipeline Pemrosesan Data di Workbook Site Reliability Engineering.
Anda menyatakan SLI kebenaran berbasis permintaan dengan menggunakan
struktur TimeSeriesRatio
untuk menyiapkan
rasio item yang mengalami masalah pemrosesan terhadap semua item yang diproses.
Anda dapat menentukan cara memfilter metrik menggunakan
label yang tersedia untuk mendapatkan total "masalah"
dan "valid" yang Anda inginkan.
Anda menyatakan SLI keaktualan berbasis permintaan menggunakan
struktur DistributionCut
.
Dataflow
Dataflow adalah layanan analisis streaming yang terkelola sepenuhnya yang meminimalkan latensi, waktu pemrosesan, dan biaya. Anda dapat menggunakan Dataflow untuk memproses data sebagai streaming atau dalam batch menggunakan Apache Beam SDK.
Untuk informasi tambahan, lihat referensi berikut:
- Dokumentasi untuk Dataflow.
- Daftar jenis metrik
dataflow.googleapis.com
.
SLI Ketepatan
Dataflow menulis data metrik ke Cloud Monitoring menggunakan jenis resource yang dimonitor dataflow_job
dan jenis metrik job/element_count
, yang menghitung jumlah elemen yang ditambahkan ke pcollection sejauh ini. Menjumlahkan seluruh label resource job_name
akan memberi Anda jumlah elemen yang akan diproses oleh tugas.
Secara terpisah, Anda dapat menggunakan jenis metrik
dengan jenis resource yang dimonitor logging.googleapis.com
/log_entry_countdataflow_job
untuk menghitung jumlah error yang dicatat ke dalam log oleh tugas tertentu, dengan menggunakan label metrik severity
.
Anda dapat menggunakan metrik ini untuk menyatakan SLI ketepatan berbasis permintaan sebagai
fraksi error dan semua elemen yang diproses menggunakan
struktur TimeSeriesRatio
, seperti yang ditunjukkan dalam
contoh berikut:
"serviceLevelIndicator": {
"requestBased": {
"goodTotalRatio": {
"totalServiceFilter":
"metric.type=\"dataflow.googleapis.com/job/element_count\"
resource.type=\"dataflow_job\"
resource.label.\"job_name\"=\"my_job\"",
"badServiceFilter":
"metric.type=\"logging.googleapis.com/log_entry_count\"
resource.type=\"dataflow_job\"
resource.label.\"job_name\"=\"my_job\"
metric.label.\"severity\"=\"error\"",
}
}
}
SLI Keaktualan
Dataflow juga menulis data metrik ke Cloud Monitoring menggunakan jenis resource yang dimonitor dataflow_job
dan jenis metrik job/per_stage_system_lag
, yang mengukur durasi maksimum saat ini saat item data telah diproses atau menunggu pemrosesan.
Anda dapat menyatakan SLI keaktualan menggunakan metrik ini dengan menggunakan
struktur DistributionCut
.
Contoh SLO berikut mengharapkan elemen data terlama diproses dalam waktu kurang dari 100 detik 99% dari waktu selama periode satu jam bergulir:
{
"serviceLevelIndicator": {
"requestBased": {
"distributionCut": {
"distributionFilter":
"metric.type=\"dataflow.googleapis.com/job/per_stage_system_lag\"
resource.type=\"dataflow_job\"
resource.label.\"job_name\"=\"my_job\"",
"range": {
"min": 0,
"max": 100
}
}
}
},
"goal": 0.99,
"rollingPeriod": "3600s",
"displayName": "99% data elements processed under 100 s"
}
Anda juga dapat menyatakan SLI keaktualan menggunakan
struktur WindowsBasedSli
.
Contoh SLO berikut memperkirakan bahwa 99% periode lima menit selama periode satu hari bergulir tidak akan melihat elemen (nol) yang diproses dalam lebih dari 100 detik:
{
"displayName": "Dataflow - windowed freshness",
"serviceLevelIndicator": {
"windowsBased": {
"windowPeriod": "300s",
"metricMeanInRange": {
"timeSeries":
"metric.type=\"dataflow.googleapis.com/job/per_stage_system_lag\"
resource.type=\"dataflow_job\"
resource.label.\"job_name\"=\"my_job\"",
"range": {
"min": "0",
"max": "100"
}
}
}
},
"goal": 0.99,
"rollingPeriod": "86400s"
}
Perhatikan bahwa, agar jendela dianggap "baik", metrik tidak boleh melebihi
nilai minimum yang ditentukan di range
kapan saja selama periode evaluasi.
Dataproc
Dataproc menyediakan cluster yang dibuat untuk tujuan khusus dan terkelola sepenuhnya yang dapat menskalakan secara otomatis untuk mendukung tugas pemrosesan data atau analisis Hadoop atau Spark.
Untuk informasi tambahan, lihat referensi berikut:
- Dokumentasi untuk Dataproc.
- Daftar jenis metrik
dataproc.googleapis.com
.
SLI Ketepatan
Dataproc menulis data metrik ke Cloud Monitoring menggunakan jenis resource yang dimonitor cloud_dataproc_cluster
dan jenis metrik berikut:
-
cluster/job/submitted_count
, yang menghitung jumlah total tugas yang dikirim. -
cluster/job/failed_count
, yang menghitung jumlah total tugas yang gagal.
Anda dapat menggunakan metrik ini untuk menyatakan SLI ketepatan berbasis permintaan sebagai rasio,
TimeSeriesRatio
, dari tugas yang gagal terhadap semua
tugas yang dikirim, seperti yang ditunjukkan dalam contoh berikut:
"serviceLevelIndicator": {
"requestBased": {
"goodTotalRatio": {
"totalServiceFilter":
"metric.type=\"dataproc.googleapis.com/cluster/job/submitted_count\"
resource.type=\"cloud_dataproc_cluster\"
resource.label.\"cluster_name\"=\"my_cluster\"",
"badServiceFilter":
"metric.type=\"dataproc.googleapis.com/cluster/job/failed_count\"
resource.type=\"cloud_dataproc_cluster\"
resource.label.\"cluster_name\"=\"my_cluster\"",
}
}
}
SLI Keaktualan
Dataproc juga menulis data metrik ke Cloud Monitoring menggunakan jenis resource yang dimonitor cloud_dataproc_cluster
dan jenis metrik berikut:
-
cluster/job/duration
, yang mengukur berapa lama tugas berada dalam status pemrosesan. Anda dapat memfilter data pada label metrikstate
untuk mengidentifikasi waktu yang dihabiskan dalam status tertentu. Misalnya, Anda dapat membuat SLI yang mengukur berapa lama tugas berada dalam statusPENDING
, untuk menetapkan waktu tunggu maksimum yang diizinkan sebelum tugas mulai diproses. -
cluster/job/completion_time
, yang mengukur berapa lama tugas berada dalam metrikcluster/job/completion_time
. Gunakan jika penyelesaian tugas adalah metrik yang dipahami dengan baik atau jika volume data yang diproses oleh tugas dalam cluster tidak bervariasi, yang akan memengaruhi waktu pemrosesan.
Anda dapat menyatakan SLI keaktualan menggunakan metrik ini dengan menggunakan
struktur DistributionCut
, seperti yang ditunjukkan dalam
contoh berikut.
Contoh SLO berikut menggunakan cluster/job/duration
dan mengharapkan bahwa
99% tugas di "my_cluster" berada dalam status PENDING
selama kurang dari 100 detik
selama periode 24 jam bergulir:
{
"serviceLevelIndicator": {
"requestBased": {
"distributionCut": {
"distributionFilter":
"metric.type=\"dataproc.googleapis.com/cluster/job/duration\"
resource.type=\"cloud_dataproc_cluster\"
resource.label.\"cluster_name\"=\"my_cluster\"
metric.label.\"state\"=\"PENDING\"",
"range": {
"min": 0,
"max": 100
}
}
}
},
"goal": 0.99,
"rollingPeriod": "86400s",
"displayName": "Dataproc pending jobs"
}
Contoh SLO berikut menggunakan cluster/job/completion_time
dan mengharapkan bahwa 99% tugas di "my_cluster" selesai dalam waktu kurang dari 100 detik selama periode 24 jam bergulir:
{
"serviceLevelIndicator": {
"requestBased": {
"distributionCut": {
"distributionFilter":
"metric.type=\"dataproc.googleapis.com/cluster/job/completion_time\"
resource.type=\"cloud_dataproc_cluster\"
resource.label.\"cluster_name\"=\"my_cluster\"",
"range": {
"min": 0,
"max": 100
}
}
}
},
"goal": 0.99,
"rollingPeriod": "86400s",
"displayName": "Dataproc completed jobs"
}