Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Las alertas te ayudan a mantenerte al tanto del estado y el rendimiento de tus implementaciones aisladas. Proporcionan notificaciones oportunas cuando se cumplen condiciones específicas, lo que te permite hacer lo siguiente:
Aborda los problemas de forma proactiva: Detecta y responde a los problemas antes de que afecten a los usuarios o las operaciones comerciales.
Reduce el tiempo de inactividad: Minimiza las interrupciones del servicio tomando medidas correctivas rápidamente.
Mantén los niveles de servicio: Asegúrate de que tus aplicaciones cumplan con los objetivos de rendimiento y disponibilidad.
Obtén estadísticas operativas: Identifica tendencias y patrones en tu entorno para optimizar el uso y el rendimiento de los recursos.
En esta página, se proporciona una descripción general de la creación y administración de alertas en entornos de dispositivos aislados de Google Distributed Cloud (GDC). Se explica cómo usar los datos de supervisión para identificar de forma proactiva los eventos críticos en tus aplicaciones y tu infraestructura, y responder a ellos.
Tipos de políticas de alertas
Las políticas de alertas basadas en métricas hacen un seguimiento de los datos de supervisión y notifican a personas específicas cuando un recurso cumple con una condición preestablecida. Por ejemplo, una política de alertas que supervisa el uso de CPU de una máquina virtual puede enviar una notificación cuando un evento activa la política. Como alternativa, una política que supervisa una verificación de tiempo de actividad puede notificar a los equipos de desarrollo y de guardia.
Por otro lado, para supervisar eventos recurrentes en tus registros a lo largo del tiempo, usa métricas basadas en registros para crear políticas de alertas. Las métricas basadas en registros generan datos numéricos a partir de los datos de registro. Las métricas basadas en registros son adecuadas si deseas realizar alguna de las siguientes acciones:
Contar las apariciones de un mensaje en tus registros, como una advertencia o un error Recibe una notificación cuando la cantidad de eventos supere un umbral.
Observar las tendencias en tus datos, como los valores de latencia en tus registros Recibir una notificación si los valores cambian de forma inaceptable
Crear gráficos para mostrar los datos numéricos extraídos de tus registros.
En GDC, las alertas pueden generar páginas y tickets para errores críticos. Las páginas requieren la atención inmediata de un operador, mientras que los tickets son menos urgentes.
Componentes clave
El servicio de alertas de GDC usa los siguientes componentes:
Prometheus: Es un sistema de supervisión de código abierto que se usa ampliamente para recopilar y almacenar métricas. Proporciona un lenguaje de consulta potente (PromQL) para definir reglas de alertas.
Plataforma de supervisión: Es un servicio de supervisión administrado que recopila métricas de varias fuentes, incluido Prometheus. Ofrece funciones avanzadas, como paneles de Grafana, métricas personalizadas y alertas.
Alertmanager: Es un componente responsable de recibir, procesar y enrutar alertas. Admite el agrupamiento, el silenciamiento y la inhibición de alertas para reducir el ruido y mejorar la eficiencia.
Flujo de trabajo de alertas
GDC proporciona un framework de alertas que se integra con varias herramientas y servicios de supervisión. El flujo de trabajo típico incluye las siguientes etapas:
Recopilación de datos: Usa herramientas como Prometheus y Fluent Bit para recopilar métricas y registros de tus aplicaciones, infraestructura y Kubernetes.
Monitoring: Almacena y visualiza los datos recopilados en los paneles de Grafana.
Reglas de alerta: Define reglas de alerta basadas en condiciones específicas, como el uso de CPU que supera un umbral o los errores de la aplicación que superan una cierta tasa.
Alertmanager: Alertmanager recibe las alertas que activan las reglas definidas y controla el enrutamiento y el silenciamiento de las notificaciones.
Notificaciones: Recibe alertas a través de varios canales, como correos electrónicos, mensajes o webhooks.
Prácticas recomendadas
Cuando configures alertas, ten en cuenta las siguientes prácticas recomendadas:
Define alertas claras y prácticas: Asegúrate de que tus alertas proporcionen información específica sobre el problema y sugieran acciones adecuadas.
Establece niveles de gravedad adecuados: Categoriza las alertas según su impacto y urgencia para priorizar las acciones de respuesta.
Evita la fatiga por alertas: Ajusta las reglas de alertas para minimizar los falsos positivos y las notificaciones innecesarias.
Prueba tus alertas con regularidad: Verifica que tus alertas se activen correctamente y que las notificaciones se entreguen según lo esperado.
Documenta tu estrategia de alertas: Documenta tus reglas de alertas, canales de notificaciones y procedimientos de derivación.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[],[],null,["# Alerting overview\n\nAlerts help you stay informed about the health and performance of your\nair-gapped deployments. They provide timely notifications when specific\nconditions are met, letting you do the following:\n\n- **Proactively address issues**: Detect and respond to problems before they impact users or business operations.\n- **Reduce downtime**: Minimize service disruptions by taking corrective action quickly.\n- **Maintain service levels**: Ensure your applications meet performance and availability targets.\n- **Gain operational insights**: Identify trends and patterns in your environment to optimize resource utilization and performance.\n\nThis page provides an overview of creating and managing alerts in\nGoogle Distributed Cloud (GDC) air-gapped appliance environments. It explains how to use monitoring\ndata to proactively identify and respond to critical events within your\napplications and infrastructure.\n\nAlerting policy types\n---------------------\n\nMetric-based alerting policies track monitoring data and notify specific people\nwhen a resource meets a pre-established condition. For example, an alerting\npolicy that monitors the CPU utilization of a virtual machine might send a\nnotification when an event activates the policy. Alternatively, a policy that\nmonitors an uptime check might notify on-call and development teams.\n\nOn the other hand, to monitor recurring events in your logs over time, use\nlog-based metrics to create alerting policies. Log-based metrics generate\nnumerical data from logging data. Log-based metrics are suitable when you want\nto do any of the following:\n\n- Count the message occurrences in your logs, like a warning or error. Receive a notification when the number of events crosses a threshold.\n- Observe trends in your data, like latency values in your logs. Receive a notification if the values change unacceptably.\n- Create charts to display the numeric data extracted from your logs.\n\nIn GDC, alerts can generate pages and tickets for\ncritical errors. Pages require immediate attention from an operator, while\ntickets are less urgent.\n\nKey components\n--------------\n\nThe GDC alerting service uses the following components:\n\n- **Prometheus**: An open-source monitoring system widely used for collecting and storing metrics. It provides a powerful query language (PromQL) for defining alert rules.\n- **Monitoring platform**: A managed monitoring service that collects metrics from various sources, including Prometheus. It offers advanced features like Grafana dashboards, custom metrics, and alerting.\n- **Alertmanager**: A component responsible for receiving, processing, and routing alerts. It supports grouping, silencing, and inhibiting alerts to reduce noise and improve efficiency.\n\nAlerting workflow\n-----------------\n\nGDC provides an alerting framework that integrates with\nvarious monitoring tools and services. The typical workflow involves the\nfollowing stages:\n\n1. **Data collection**: Use tools like Prometheus and Fluent Bit to collect metrics and logs from your applications, infrastructure, and Kubernetes.\n2. **Monitoring**: Store and visualize the collected data in Grafana dashboards.\n3. **Alerting rules**: Define alert rules based on specific conditions, such as CPU usage exceeding a threshold or application errors exceeding a certain rate.\n4. **Alertmanager**: Alertmanager receives alerts triggered by the defined rules and handles notification routing and silencing.\n5. **Notifications**: Receive alerts through various channels, such as email, messages, or webhooks.\n\nBest practices\n--------------\n\nWhen setting up alerts, consider the following best practices:\n\n- **Define clear and actionable alerts**: Ensure your alerts provide specific information about the issue and suggest appropriate actions.\n- **Set appropriate severity levels**: Categorize alerts based on their impact and urgency to prioritize response efforts.\n- **Avoid alert fatigue**: Fine-tune your alert rules to minimize false positives and unnecessary notifications.\n- **Test your alerts regularly**: Verify that your alerts are triggered correctly and notifications are delivered as expected.\n- **Document your alerting strategy**: Document your alert rules, notification channels, and escalation procedures."]]