Halaman ini diterjemahkan oleh Cloud Translation API.

Mendeteksi potensi kegagalan menggunakan kemampuan observasi

Last reviewed 2024-12-30 UTC

Prinsip ini dalam pilar keandalan Google Cloud Framework yang Dirancang dengan Baik memberikan rekomendasi untuk membantu Anda secara proaktif mengidentifikasi area tempat terjadinya error dan kegagalan.

Prinsip ini relevan dengan pengamatan area fokus keandalan.

Ringkasan prinsip

Untuk mempertahankan dan meningkatkan keandalan workload Anda di Google Cloud, Anda perlu menerapkan kemampuan observasi yang efektif dengan menggunakan metrik, log, dan trace.

Metrik adalah pengukuran numerik aktivitas yang ingin Anda lacak untuk aplikasi Anda pada interval waktu tertentu. Misalnya, Anda mungkin ingin melacak metrik teknis seperti rasio permintaan dan rasio error, yang dapat digunakan sebagai indikator tingkat layanan (SLI). Anda mungkin juga perlu melacak metrik bisnis khusus aplikasi seperti pesanan yang dilakukan dan pembayaran yang diterima.
Log adalah catatan peristiwa diskrit yang diberi stempel waktu yang terjadi dalam aplikasi atau sistem. Peristiwa dapat berupa kegagalan, error, atau perubahan status. Log dapat mencakup metrik, dan Anda juga dapat menggunakan log untuk SLI.
Rekaman aktivitas merepresentasikan perjalanan satu pengguna atau transaksi melalui sejumlah aplikasi terpisah atau komponen aplikasi. Misalnya, komponen ini bisa berupa microservice. Rekaman aktivitas membantu Anda melacak komponen yang digunakan dalam perjalanan, lokasi terjadinya hambatan, dan durasi perjalanan.

Metrik, log, dan trace membantu Anda memantau sistem secara berkelanjutan. Pemantauan komprehensif membantu Anda mengetahui lokasi dan penyebab terjadinya error. Anda juga dapat mendeteksi potensi kegagalan sebelum terjadi error.

Rekomendasi

Untuk mendeteksi potensi kegagalan secara efisien, pertimbangkan rekomendasi di subbagian berikut.

Mendapatkan insight yang komprehensif

Untuk melacak metrik utama seperti waktu respons dan tingkat error, gunakan Cloud Monitoring dan Cloud Logging. Alat ini juga membantu Anda memastikan bahwa metrik secara konsisten memenuhi kebutuhan workload Anda.

Untuk membuat keputusan berbasis data, analisis metrik layanan default untuk memahami dependensi komponen dan dampaknya terhadap performa beban kerja secara keseluruhan.

Untuk menyesuaikan strategi pemantauan, buat dan publikasikan metrik Anda sendiri dengan menggunakan Google Cloud SDK.

Melakukan pemecahan masalah proaktif

Terapkan penanganan error yang andal dan aktifkan logging di semua komponen beban kerja Anda di Google Cloud. Aktifkan log seperti log akses Cloud Storage dan Log Alur VPC.

Saat mengonfigurasi logging, pertimbangkan biaya yang terkait. Untuk mengontrol biaya logging, Anda dapat mengonfigurasi filter pengecualian pada sink log untuk mengecualikan log tertentu agar tidak disimpan.

Mengoptimalkan pemanfaatan resource

Pantau konsumsi CPU, metrik I/O jaringan, dan metrik I/O disk untuk mendeteksi resource yang kurang dan terlalu banyak disediakan di layanan seperti GKE, Compute Engine, dan Dataproc. Untuk mengetahui daftar lengkap layanan yang didukung, lihat Ringkasan Cloud Monitoring.

Memprioritaskan pemberitahuan

Untuk pemberitahuan, berfokuslah pada metrik penting, tetapkan nilai minimum yang sesuai untuk meminimalkan kelelahan akibat pemberitahuan, dan pastikan respons tepat waktu terhadap masalah signifikan. Pendekatan yang ditargetkan ini memungkinkan Anda mempertahankan keandalan workload secara proaktif. Untuk mengetahui informasi selengkapnya, lihat Ringkasan pemberitahuan.

Sebelumnya

Memanfaatkan skalabilitas horizontal

Berikutnya

Desain untuk penurunan kualitas yang baik