Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Pemberitahuan membantu Anda terus mendapatkan informasi tentang kondisi dan performa deployment
yang terisolasi dari internet. Notifikasi ini memberikan notifikasi tepat waktu saat kondisi tertentu terpenuhi, sehingga Anda dapat melakukan hal berikut:
Mengatasi masalah secara proaktif: Mendeteksi dan merespons masalah sebelum memengaruhi pengguna atau operasi bisnis.
Mengurangi periode nonaktif: Minimalkan gangguan layanan dengan mengambil tindakan korektif dengan cepat.
Pertahankan tingkat layanan: Pastikan aplikasi Anda memenuhi target performa dan ketersediaan.
Mendapatkan insight operasional: Identifikasi tren dan pola di lingkungan Anda untuk mengoptimalkan pemanfaatan dan performa resource.
Halaman ini memberikan ringkasan tentang pembuatan dan pengelolaan pemberitahuan di lingkungan perangkat dengan air gap Google Distributed Cloud (GDC). Panduan ini menjelaskan cara menggunakan data pemantauan untuk mengidentifikasi dan merespons peristiwa penting secara proaktif dalam aplikasi dan infrastruktur Anda.
Jenis kebijakan pemberitahuan
Kebijakan pemberitahuan berbasis metrik melacak data pemantauan dan memberi tahu orang tertentu
saat resource memenuhi kondisi yang telah ditetapkan sebelumnya. Misalnya, kebijakan
pemberitahuan yang memantau penggunaan CPU mesin virtual dapat mengirim
notifikasi saat peristiwa mengaktifkan kebijakan. Atau, kebijakan yang memantau cek uptime dapat memberi tahu tim pengembangan dan tim yang bertugas.
Di sisi lain, untuk memantau peristiwa berulang dalam log Anda dari waktu ke waktu, gunakan
metrik berbasis log untuk membuat kebijakan pemberitahuan. Metrik berbasis log menghasilkan data numerik dari data logging. Metrik berbasis log cocok jika Anda ingin melakukan salah satu hal berikut:
Hitung kemunculan pesan di log Anda, seperti peringatan atau error. Menerima
notifikasi saat jumlah peristiwa melampaui nilai minimum.
Amati tren dalam data Anda, seperti nilai latensi dalam log Anda. Menerima
notifikasi jika nilai berubah secara tidak dapat diterima.
Buat diagram untuk menampilkan data numerik yang diekstrak dari log Anda.
Di GDC, pemberitahuan dapat membuat halaman dan tiket untuk
error kritis. Halaman memerlukan perhatian segera dari operator, sedangkan
tiket tidak terlalu mendesak.
Komponen utama
Layanan pemberitahuan GDC menggunakan komponen berikut:
Prometheus: Sistem pemantauan open source yang banyak digunakan untuk mengumpulkan dan menyimpan metrik. Prometheus menyediakan bahasa kueri yang canggih (PromQL) untuk
menentukan aturan pemberitahuan.
Platform pemantauan: Layanan pemantauan terkelola yang mengumpulkan metrik
dari berbagai sumber, termasuk Prometheus. Layanan ini menawarkan fitur lanjutan seperti dasbor Grafana, metrik kustom, dan pemberitahuan.
Alertmanager: Komponen yang bertanggung jawab untuk menerima, memproses, dan merutekan pemberitahuan. Fitur ini mendukung pengelompokan, membisukan, dan menghambat pemberitahuan untuk mengurangi gangguan dan meningkatkan efisiensi.
Alur kerja pemberitahuan
GDC menyediakan framework pemberitahuan yang terintegrasi dengan berbagai alat dan layanan pemantauan. Alur kerja umum melibatkan tahap-tahap berikut:
Pengumpulan data: Gunakan alat seperti Prometheus dan Fluent Bit untuk mengumpulkan metrik dan log dari aplikasi, infrastruktur, dan Kubernetes Anda.
Monitoring: Simpan dan visualisasikan data yang dikumpulkan di dasbor Grafana.
Aturan pemberitahuan: Tetapkan aturan pemberitahuan berdasarkan kondisi tertentu, seperti
penggunaan CPU yang melebihi batas atau error aplikasi yang melebihi tingkat
tertentu.
Alertmanager: Alertmanager menerima pemberitahuan yang dipicu oleh aturan yang ditentukan dan menangani perutean dan penonaktifan notifikasi.
Notifikasi: Menerima pemberitahuan melalui berbagai saluran, seperti email, pesan, atau webhook.
Praktik terbaik
Saat menyiapkan pemberitahuan, pertimbangkan praktik terbaik berikut:
Tentukan pemberitahuan yang jelas dan dapat ditindaklanjuti: Pastikan pemberitahuan Anda memberikan informasi spesifik tentang masalah dan menyarankan tindakan yang sesuai.
Tetapkan tingkat keparahan yang sesuai: Kategorikan pemberitahuan berdasarkan dampak dan urgensinya untuk memprioritaskan upaya respons.
Hindari kelelahan merespons peringatan: Sesuaikan aturan peringatan Anda untuk meminimalkan positif palsu dan notifikasi yang tidak perlu.
Uji pemberitahuan Anda secara rutin: Pastikan pemberitahuan Anda dipicu dengan benar dan notifikasi dikirimkan seperti yang diharapkan.
Mendokumentasikan strategi pemberitahuan Anda: Mendokumentasikan aturan pemberitahuan, saluran
notifikasi, dan prosedur eskalasi Anda.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-09-04 UTC."],[],[],null,["# Alerting overview\n\nAlerts help you stay informed about the health and performance of your\nair-gapped deployments. They provide timely notifications when specific\nconditions are met, letting you do the following:\n\n- **Proactively address issues**: Detect and respond to problems before they impact users or business operations.\n- **Reduce downtime**: Minimize service disruptions by taking corrective action quickly.\n- **Maintain service levels**: Ensure your applications meet performance and availability targets.\n- **Gain operational insights**: Identify trends and patterns in your environment to optimize resource utilization and performance.\n\nThis page provides an overview of creating and managing alerts in\nGoogle Distributed Cloud (GDC) air-gapped appliance environments. It explains how to use monitoring\ndata to proactively identify and respond to critical events within your\napplications and infrastructure.\n\nAlerting policy types\n---------------------\n\nMetric-based alerting policies track monitoring data and notify specific people\nwhen a resource meets a pre-established condition. For example, an alerting\npolicy that monitors the CPU utilization of a virtual machine might send a\nnotification when an event activates the policy. Alternatively, a policy that\nmonitors an uptime check might notify on-call and development teams.\n\nOn the other hand, to monitor recurring events in your logs over time, use\nlog-based metrics to create alerting policies. Log-based metrics generate\nnumerical data from logging data. Log-based metrics are suitable when you want\nto do any of the following:\n\n- Count the message occurrences in your logs, like a warning or error. Receive a notification when the number of events crosses a threshold.\n- Observe trends in your data, like latency values in your logs. Receive a notification if the values change unacceptably.\n- Create charts to display the numeric data extracted from your logs.\n\nIn GDC, alerts can generate pages and tickets for\ncritical errors. Pages require immediate attention from an operator, while\ntickets are less urgent.\n\nKey components\n--------------\n\nThe GDC alerting service uses the following components:\n\n- **Prometheus**: An open-source monitoring system widely used for collecting and storing metrics. It provides a powerful query language (PromQL) for defining alert rules.\n- **Monitoring platform**: A managed monitoring service that collects metrics from various sources, including Prometheus. It offers advanced features like Grafana dashboards, custom metrics, and alerting.\n- **Alertmanager**: A component responsible for receiving, processing, and routing alerts. It supports grouping, silencing, and inhibiting alerts to reduce noise and improve efficiency.\n\nAlerting workflow\n-----------------\n\nGDC provides an alerting framework that integrates with\nvarious monitoring tools and services. The typical workflow involves the\nfollowing stages:\n\n1. **Data collection**: Use tools like Prometheus and Fluent Bit to collect metrics and logs from your applications, infrastructure, and Kubernetes.\n2. **Monitoring**: Store and visualize the collected data in Grafana dashboards.\n3. **Alerting rules**: Define alert rules based on specific conditions, such as CPU usage exceeding a threshold or application errors exceeding a certain rate.\n4. **Alertmanager**: Alertmanager receives alerts triggered by the defined rules and handles notification routing and silencing.\n5. **Notifications**: Receive alerts through various channels, such as email, messages, or webhooks.\n\nBest practices\n--------------\n\nWhen setting up alerts, consider the following best practices:\n\n- **Define clear and actionable alerts**: Ensure your alerts provide specific information about the issue and suggest appropriate actions.\n- **Set appropriate severity levels**: Categorize alerts based on their impact and urgency to prioritize response efforts.\n- **Avoid alert fatigue**: Fine-tune your alert rules to minimize false positives and unnecessary notifications.\n- **Test your alerts regularly**: Verify that your alerts are triggered correctly and notifications are delivered as expected.\n- **Document your alerting strategy**: Document your alert rules, notification channels, and escalation procedures."]]