Dokumen dalam Framework Arsitektur Google Cloud ini menentukan konsep utama yang diperlukan untuk memahami dan membuat tujuan tingkat layanan (SLO).
Pada intinya, SLO mencerminkan sasaran keandalan layanan yang Anda berikan kepada pengguna. Penting untuk menyertakan input dari semua pemangku kepentingan penting saat menentukan tujuan ini. Banyak grup dan tingkat manajemen yang berbeda memiliki minat mendalam terhadap layanan Anda. Ini mencakup pemilik bisnis, pemilik produk, eksekutif, engineer, staf dukungan, operasi, penjualan, dan tim lainnya yang terkait dengan layanan Anda.
Ada banyak cara untuk mendapatkan input pemangku kepentingan karena ada berbagai tujuan keandalan yang dapat dipilih. Cara Anda memilih tujuan pada akhirnya tergantung pada Anda dan organisasi Anda berdasarkan persyaratan, pemangku kepentingan, dan faktor lainnya. Meskipun proses ini berada di luar cakupan panduan ini, pendekatan sederhananya adalah membuat dokumen bersama yang menjelaskan SLO Anda dan cara Anda mengembangkannya. Tim Anda dapat melakukan iterasi pada dokumen saat mengimplementasikan dan terus meningkatkan SLO dari waktu ke waktu.
Bagian berikut menentukan berbagai komponen SLO.
Tingkat layanan
Tingkat layanan adalah pengukuran seberapa baik layanan melakukan pekerjaan yang diharapkan pengguna. Metrik ini dapat dijelaskan dalam hal kepuasan pengguna dan diukur dengan berbagai metode yang bergantung pada karakteristik unik layanan, basis penggunanya, dan ekspektasi pengguna. Dalam panduan ini, kita mengaitkan performa dengan keandalan sistem.
Contoh tingkat layanan: Pengguna kami mengharapkan layanan tersedia dan cepat.
Indikator tingkat layanan
Indikator tingkat layanan (SLI) adalah ukuran kepuasan pengguna yang dapat diukur secara kuantitatif. Indikator mirip dengan garis pada grafik yang berubah dari waktu ke waktu seiring peningkatan atau penurunan layanan. Untuk mengevaluasi tingkat layanan, pilih indikator yang mewakili beberapa aspek kepuasan pengguna. Ketersediaan adalah SLI umum.
Contoh SLI: Jumlah permintaan yang berhasil dalam 10 menit terakhir dibagi dengan jumlah semua permintaan yang valid dalam jangka waktu yang sama.
SLI dalam contoh ini spesifik dan jelas, serta dinyatakan sebagai nilai numerik. Nilai tersebut mencerminkan ketersediaan layanan. Dengan melacak SLI ini secara konsisten dari waktu ke waktu, tim dapat menentukan ketersediaan layanannya secara keseluruhan.
Untuk informasi selengkapnya tentang cara memilih SLI, lihat Memilih SLI.
Tujuan tingkat layanan
Tujuan tingkat layanan (SLO) adalah rentang target yang Anda harapkan akan dicapai oleh layanan seperti yang diukur oleh SLI. Contoh berikut menggunakan waktu respons, atau kecepatan layanan, sebagai SLI.
Contoh SLO: Respons layanan lebih cepat dari 400 milidetik (md) untuk 95% dari semua permintaan valid yang diukur selama 14 hari.
Dalam contoh SLO, SLI adalah jumlah permintaan yang lebih cepat dari 400 md dibagi dengan jumlah permintaan valid. Persentase ini dilacak selama 14 hari. Tujuannya adalah memenuhi 95% dari semua permintaan. Artinya, jika hasil akhir (persentase permintaan yang memenuhi kriteria) lebih dari 95%, Anda telah memenuhi SLO untuk layanan tersebut.
Sebagai ringkasan, SLI adalah beberapa pengukuran (seperti kecepatan, ketersediaan, dan keberhasilan) layanan Anda. SLO adalah ekspektasi bahwa jumlah tertentu dari pengukuran tersebut (persentase) memenuhi atau melebihi beberapa tingkat atau rentang yang telah ditentukan. Apa pun yang berada di bawah tingkat yang diharapkan adalah buruk. Anda gagal memberikan layanan yang andal kepada pengguna di area performa tertentu.
Untuk informasi selengkapnya tentang cara memilih SLO, lihat Memilih SLO.
Perjanjian tingkat layanan
Perjanjian tingkat layanan (SLA) adalah kontrak antara Anda, penyedia layanan, dan pelanggan Anda. Dokumen ini mencantumkan SLO yang dijanjikan kepada pelanggan dan pada akhirnya akan diharapkan. SLA juga menentukan apa yang akan terjadi jika SLO tidak terpenuhi. SLO yang rusak dapat menyebabkan penyedia layanan mengembalikan dana, memberikan layanan dengan harga diskon, atau dalam layanan yang lebih penting dapat menyebabkan tindakan hukum atau ganti rugi hukuman.
SLA tidak dibahas secara mendalam dalam panduan ini. SLA disebutkan untuk meningkatkan pemahaman Anda tentang SLO, SLI, dan pengguna.
Anggaran error
Nilai akhir yang perlu dipahami saat membahas SLO adalah persentase atau jumlah peristiwa negatif yang dapat ditoleransi layanan Anda sebelum melanggar SLO. Angka ini, yang disebut anggaran error, menentukan jumlah error yang dapat terjadi dan ditoleransi oleh bisnis Anda.
Untuk menunjukkannya, gunakan ketersediaan sebagai SLI (diwakili oleh persentase). Tiga "sembilan" atau lebih dalam persentase menunjukkan presisi yang Anda inginkan untuk mengukur SLI tersebut. Dengan kata lain, jumlah "9" menyatakan persentase ketersediaan.
Pertimbangkan SLO tiga angka sembilan adalah 99,9%. Dengan mengurangi nilai SLO dari 100%, kita akan memiliki anggaran error sebesar 0,1%. Saat membahas ketersediaan, anggaran 0,1% adalah sedikit kurang dari sembilan jam per tahun saat layanan tidak tersedia. Menambahkan sembilan lagi akan mengurangi anggaran error secara drastis. Ketersediaan 99,99% (empat sembilan) memungkinkan periode nonaktif layanan kurang dari satu jam per tahun.
Waktu nonaktif tersebut mencakup permintaan yang gagal, waktu nonaktif server karena kesalahan (error atau bug software) atau desain (upgrade atau pengujian), error manusia, kecelakaan, dan banyak hal lainnya.
Langkah selanjutnya
- Baca Memilih SLO.
- Pelajari rekomendasi di pilar lain dari Framework Arsitektur.
- Untuk mengetahui lebih banyak tentang arsitektur referensi, diagram, dan praktik terbaik lainnya, jelajahi Pusat Arsitektur Cloud.