Dokumen dalam Framework Arsitektur Google Cloud ini mendefinisikan konsep utama yang diperlukan untuk memahami dan membuat tujuan tingkat layanan (SLO).
Pada intinya, SLO mencerminkan sasaran keandalan layanan yang Anda berikan kepada pengguna. Penting untuk menyertakan masukan dari semua pemangku kepentingan saat menentukan tujuan ini. Banyak grup dan tingkat pengelolaan yang berbeda memiliki kepentingan besar terhadap layanan Anda. Hal ini termasuk pemilik bisnis, pemilik produk, eksekutif, engineer, staf dukungan, operasi, penjualan, dan tim lain yang terkait dengan layanan Anda.
Ada banyak cara untuk mendapatkan masukan pemangku kepentingan karena ada berbagai tujuan keandalan yang harus dipilih. Bagaimana Anda pada akhirnya memilih tujuan bergantung pada Anda dan organisasi Anda berdasarkan persyaratan, pemangku kepentingan, dan faktor lainnya. Meskipun proses ini berada di luar cakupan panduan ini, pendekatan sederhananya adalah membuat dokumen bersama yang menjelaskan SLO dan cara Anda mengembangkannya. Tim Anda dapat melakukan iterasi pada dokumen saat mengimplementasikan dan terus meningkatkan SLO dari waktu ke waktu.
Bagian berikut menentukan berbagai komponen SLO.
Tingkat layanan
Tingkat layanan adalah pengukuran seberapa baik layanan melakukan pekerjaan yang diharapkannya untuk pengguna. Metrik ini dapat dijelaskan dalam hal kepuasan pengguna dan diukur dengan berbagai metode yang bergantung pada karakteristik unik layanan, basis penggunanya, dan ekspektasi pengguna. Dalam panduan ini, kami mengaitkan performa dengan keandalan sistem.
Contoh tingkat layanan: Pengguna kami mengharapkan layanan tersedia dan cepat.
Indikator tingkat layanan
Indikator tingkat layanan (SLI) adalah ukuran kebahagiaan pengguna yang dapat diukur secara kuantitatif. Indikator serupa dengan garis pada grafik yang berubah dari waktu ke waktu seiring peningkatan atau penurunan layanan. Untuk mengevaluasi tingkat layanan, pilih indikator yang mewakili beberapa aspek kebahagiaan pengguna. Ketersediaan adalah SLI yang umum.
Contoh SLI: Jumlah permintaan yang berhasil dalam 10 menit terakhir dibagi dengan jumlah semua permintaan yang valid dalam jangka waktu yang sama.
SLI dalam contoh ini spesifik dan didefinisikan dengan baik, serta dinyatakan sebagai nilai numerik. Nilai tersebut mencerminkan seberapa tersedia layanan. Dengan melacak SLI ini secara konsisten dari waktu ke waktu, tim dapat menentukan ketersediaan keseluruhan layanannya.
Untuk mengetahui informasi selengkapnya tentang cara memilih SLI, lihat Memilih SLI.
Tujuan tingkat layanan
Tujuan tingkat layanan (SLO) adalah rentang target yang Anda harapkan akan dicapai layanan seperti yang diukur oleh SLI. Contoh berikut menggunakan waktu respons atau kecepatan layanan sebagai SLI.
Contoh SLO: Respons layanan lebih cepat dari 400 milidetik (md) untuk 95% dari semua permintaan valid yang diukur selama 14 hari.
Pada contoh SLO, SLI adalah jumlah permintaan yang lebih cepat dari 400 milidetik yang dibagi jumlah permintaan yang valid. Persentase ini dilacak selama 14 hari. Tujuannya adalah untuk memenuhi 95% dari semua permintaan. Artinya, jika hasil akhir (persentase permintaan yang memenuhi kriteria) lebih dari 95%, berarti Anda memenuhi SLO untuk layanan tersebut.
Singkatnya, SLI adalah beberapa pengukuran (seperti kecepatan, ketersediaan, dan keberhasilan) layanan Anda. SLO adalah ekspektasi bahwa jumlah tertentu pengukuran tersebut (persentase) memenuhi atau melebihi tingkat atau rentang yang telah ditentukan. Jika berada di bawah tingkat yang diharapkan, hal itu buruk. Anda gagal memberikan layanan yang andal di area performa tertentu kepada pengguna.
Untuk mengetahui informasi selengkapnya tentang cara memilih SLO, lihat Memilih SLO.
Perjanjian tingkat layanan
Perjanjian tingkat layanan (SLA) adalah kontrak antara Anda, penyedia layanan, dan pelanggan. Bagian ini mencantumkan SLO yang dijanjikan pelanggan dan yang pada akhirnya diharapkan. SLA juga menentukan apa yang terjadi jika SLO tidak terpenuhi. SLO yang rusak dapat menyebabkan penyedia layanan mengembalikan dana, memberikan layanan berdiskon, atau dalam layanan yang lebih penting dapat mengakibatkan tindakan hukum atau ganti rugi hukum.
SLA tidak dibahas secara mendalam dalam panduan ini. SLA disebutkan untuk meningkatkan pemahaman Anda tentang SLO, SLI, dan pengguna.
Anggaran error
Nilai akhir yang harus dipahami saat mendiskusikan SLO adalah persentase atau jumlah peristiwa negatif yang dapat ditahan oleh layanan Anda sebelum melanggar SLO. Angka ini, yang disebut anggaran error, menentukan jumlah error yang dapat diperkirakan dan ditoleransi oleh bisnis Anda.
Untuk mendemonstrasikan, gunakan availability sebagai SLI (diwakili oleh persentase). Tiga atau lebih "sembilan" dalam persentase menunjukkan presisi yang ingin Anda ukur dengan SLI tersebut. Dengan kata lain, jumlah "9" menunjukkan persentase ketersediaan.
Pertimbangkan SLO tiga sembilan adalah 99,9%. Mengurangi nilai SLO dari 100%, membuat kita memiliki anggaran error 0,1%. Ketika membahas ketersediaan, anggaran 0,1% sedikit kurang dari sembilan jam per tahun saat layanan tidak tersedia. Menambahkan sembilan nilai lagi akan secara drastis mengurangi anggaran error. Ketersediaan sebesar 99,99% (empat sembilan) memungkinkan periode nonaktif layanan kurang dari satu jam dalam setahun.
Periode nonaktif tersebut mencakup permintaan yang gagal, periode nonaktif server karena kesalahan (bug error atau software) atau desain (upgrade atau pengujian), error manusia, kecelakaan, dan banyak lainnya.
Langkah selanjutnya
- Baca artikel Memilih SLO.
- Pelajari kategori lain di Framework Arsitektur.
- Untuk mengetahui lebih banyak tentang arsitektur referensi, diagram, dan praktik terbaik lainnya, jelajahi Pusat Arsitektur Cloud.