Mendeteksi potensi kegagalan menggunakan kemampuan observasi

Last reviewed 2024-12-30 UTC

Prinsip ini dalam pilar keandalan Google Cloud Framework Arsitektur memberikan rekomendasi untuk membantu Anda secara proaktif mengidentifikasi area tempat error dan kegagalan dapat terjadi.

Prinsip ini relevan dengan area fokus observasi keandalan.

Untuk mempertahankan dan meningkatkan keandalan workload di Google Cloud, Anda perlu menerapkan kemampuan observasi yang efektif dengan menggunakan metrik, log, dan rekaman aktivitas.

  • Metrik adalah pengukuran numerik aktivitas yang ingin Anda lacak untuk aplikasi Anda pada interval waktu tertentu. Misalnya, Anda mungkin ingin melacak metrik teknis seperti rasio permintaan dan rasio error, yang dapat digunakan sebagai indikator tingkat layanan (SLI). Anda mungkin juga perlu melacak metrik bisnis khusus aplikasi seperti pesanan yang dilakukan dan pembayaran yang diterima.
  • Log adalah catatan peristiwa terpisah yang terjadi dalam aplikasi atau sistem dengan stempel waktu. Peristiwa tersebut dapat berupa kegagalan, error, atau perubahan status. Log mungkin menyertakan metrik, dan Anda juga dapat menggunakan log untuk SLI.
  • Rekaman aktivitas mewakili perjalanan satu pengguna atau transaksi melalui sejumlah aplikasi terpisah atau komponen aplikasi. Misalnya, komponen ini dapat berupa microservice. Rekaman aktivitas membantu Anda melacak komponen yang digunakan dalam perjalanan, lokasi bottleneck, dan berapa lama perjalanan berlangsung.

Metrik, log, dan trace membantu Anda memantau sistem secara terus-menerus. Pemantauan yang komprehensif membantu Anda mengetahui tempat dan penyebab terjadinya error. Anda juga dapat mendeteksi potensi kegagalan sebelum error terjadi.

Rekomendasi

Untuk mendeteksi potensi kegagalan secara efisien, pertimbangkan rekomendasi dalam subbagian berikut.

Mendapatkan insight yang komprehensif

Untuk melacak metrik utama seperti waktu respons dan rasio error, gunakan Cloud Monitoring dan Cloud Logging. Alat ini juga membantu Anda memastikan bahwa metrik secara konsisten memenuhi kebutuhan beban kerja Anda.

Untuk membuat keputusan berbasis data, analisis metrik layanan default guna memahami dependensi komponen dan dampaknya terhadap performa beban kerja secara keseluruhan.

Untuk menyesuaikan strategi pemantauan, buat dan publikasikan metrik Anda sendiri menggunakan Google Cloud SDK.

Melakukan pemecahan masalah proaktif

Terapkan penanganan error yang andal dan aktifkan logging di semua komponen beban kerja Anda di Google Cloud. Aktifkan log seperti log akses Cloud Storage dan Log Aliran VPC.

Saat Anda mengonfigurasi logging, pertimbangkan biaya terkait. Untuk mengontrol biaya logging, Anda dapat mengonfigurasi filter pengecualian di sink log untuk mengecualikan log tertentu agar tidak disimpan.

Mengoptimalkan penggunaan resource

Pantau penggunaan CPU, metrik I/O jaringan, dan metrik I/O disk untuk mendeteksi resource yang kurang dan berlebih dalam layanan seperti GKE, Compute Engine, dan Dataproc. Untuk mengetahui daftar lengkap layanan yang didukung, lihat ringkasan Cloud Monitoring.

Memprioritaskan pemberitahuan

Untuk pemberitahuan, fokuslah pada metrik penting, tetapkan nilai minimum yang sesuai untuk meminimalkan kejenuhan pemberitahuan, dan pastikan respons yang tepat waktu terhadap masalah yang signifikan. Pendekatan yang ditargetkan ini memungkinkan Anda mempertahankan keandalan workload secara proaktif. Untuk informasi selengkapnya, lihat Ringkasan pemberitahuan.