Tipos de políticas de alertas

Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

En este documento, se describen diferentes tipos de políticas de alertas basadas en métricas y se proporcionan ejemplos de JSON para estas políticas. Las políticas de alertas definen las condiciones que tienen en cuenta tres aspectos: algunas métricas se comportan de alguna manera durante cierto período. Por ejemplo, una política de alertas podría activarse cuando el valor de una métrica supera un umbral o cuando el valor cambia demasiado rápido.

Este contenido no se aplica a las políticas de alertas basadas en registros. Para obtener información sobre las políticas de alertas basadas en registros, que te notifican cuando aparece un mensaje en particular en tus registros, consulta Supervisar tus registros.

Para obtener información sobre la creación de políticas de alertas, consulta los siguientes documentos:

Condición de ausencia de la métrica

Una condición de ausencia de la métrica se activa cuando una serie temporal supervisada no tiene datos para un período de duración específico.

Las condiciones de ausencia de la métrica requieren al menos una medición correcta, una que recupere datos, dentro del período de duración máximo después de instalar o modificar la política. La ventana de duración máxima configurable es de 24 horas si usas Google Cloud Console y de 24.5 horas si usas la API de Cloud Monitoring.

Por ejemplo, supongamos que estableces el período de duración en una política de ausencia de la métrica en 30 minutos. La condición no se activará cuando el subsistema que escribe datos de métricas nunca haya escrito un dato. El subsistema debe generar al menos un dato y, luego, tener errores en generar datos adicionales durante 30 minutos.

Condición del umbral de la métrica

Una condición de umbral de métrica se activa cuando los valores de una métrica son mayores o menores que el umbral para un período de duración específico. Por ejemplo, una condición de límite de métrica podría activarse cuando el uso de CPU sea superior al 80% durante al menos 5 minutos.

Dentro de la clase de condiciones de límite de la métrica, hay patrones que se dividen en subcategorías generales:

  • Las condiciones de tasa de cambio se activan cuando los valores de una serie temporal aumentan o disminuyen en un porcentaje específico o más durante un período de duración.

    Cuando creas este tipo de condición, se aplica un cálculo de porcentaje de cambio a la serie temporal antes de la comparación con el umbral.

    La condición calcula el promedio de los valores de la métrica de los últimos 10 minutos, luego compara el resultado con el promedio de 10 minutos que se midió antes del período de duración. La ventana retrospectiva de 10 minutos que una condición de frecuencia de la métrica de cambio usó es un valor fijo, no puedes cambiarlo. Sin embargo, sí puedes especificar el período de duración cuando creas una condición.

  • Las condiciones de agregación de grupo se activan cuando una métrica medida en un grupo de recursos supera un umbral para un período de duración.

  • Las condiciones de verificación de tiempo de actividad se activan cuando una verificación de tiempo de actividad no responde correctamente a una solicitud enviada desde al menos dos ubicaciones geográficas.

  • Las condiciones del estado del proceso se activan cuando la cantidad de procesos que se ejecutan en una instancia de VM es superior o inferior a un límite. También puedes configurar estas condiciones para supervisar un grupo de instancias que coincidan con una convención de nombres.

    Este tipo de condición requiere que el agente de operaciones o el agente de supervisión se ejecuten en los recursos supervisados. Para obtener más información sobre los agentes, consulta Agentes de Google Cloud's operations suite.

  • Las condiciones de proporción de métrica se activan cuando la proporción de dos métricas excede un límite para un período de duración. Estas condiciones calculan la proporción de dos métricas, por ejemplo, la proporción de respuestas de error de HTTP a todas las respuestas HTTP.

    Si deseas obtener más información sobre las políticas basadas en proporciones, consulta Condiciones para alertar sobre proporciones.

Condición de la previsión

Una condición de previsión se activa cuando genera una previsión de que se infringirá el umbral en la próxima ventana de previsión. Una previsión predice si una serie temporal infringirá o no un límite dentro de una ventana de previsión, que es un período en el futuro. La ventana de previsión puede variar de 1 hora (3,600 segundos) a 7 días (604,800 segundos).

Puede usar la previsión cuando supervise la mayoría de las métricas. Sin embargo, cuando supervisas un recurso restringido, como una cuota, el espacio en disco o el uso de memoria, una condición de previsión puede notificarte antes de que se infrinja el límite. Esa capacidad te da más tiempo para responder a cómo se consume ese recurso restringido antes de que se infrinja el límite.

Para cada serie temporal que supervisa una condición de previsión, la condición crea una instancia de algoritmo de decisión. Después de que se entrena ese algoritmo, se genera una previsión cada vez que se evalúa la condición. Cada previsión es una predicción que sus series temporales infringirán, o no, el umbral dentro del período de previsión. Si una serie temporal supervisada tiene una frecuencia regular, el algoritmo de decisión para esa serie temporal incorpora el comportamiento periódico a sus previsiones.

Una condición de previsión se puede activar cuando ocurre una de las siguientes situaciones, o ambas:

  • Todos los valores de una serie temporal durante un período específico infringen el umbral.
  • Todas las previsiones para una serie temporal específica que se realizan en un período de duración predicen que las series temporales infringirán el umbral dentro del período de previsión.

El tiempo de entrenamiento inicial para un algoritmo de decisión es el doble de la duración del período de previsión. Por ejemplo, si el período de previsión es de una hora, se requieren dos horas de tiempo de entrenamiento. El algoritmo de decisión para cada serie temporal se entrena de forma independiente. Mientras se entrena un algoritmo de decisión, sus series temporales pueden activar la condición solo cuando los valores de la serie temporal infringen el límite para el período de duración especificado.

Después de que se completa el entrenamiento inicial, cada algoritmo de decisión se entrena de forma continua mediante datos que abarcan hasta seis veces la duración del período de previsión. Por ejemplo, cuando la ventana de previsión es de una hora, se usan las seis horas de datos más recientes durante el entrenamiento continuo.

Cuando configuras una condición de previsión y, luego, los datos dejan de llegar durante más de 10 minutos, la previsión se inhabilita y la condición opera como una condición de límite de la métrica.

La forma en que se crean y administran los incidentes para las alertas de previsión es lo mismo que las condiciones de límite de métricas y ausencia de métricas. Los incidentes se cierran de forma automática cuando la previsión predice que las series temporales no infringirán el umbral dentro del período de previsión.

Restricciones

  • Debes configurar la condición mediante los filtros de Monitoring. Si usas la interfaz basada en menús de Google Cloud Console, tus selecciones se convierten en un filtro de Monitoring.
  • Debes configurar una política de alertas mediante la API de Cloud Monitoring cuando quieras supervisar una proporción de métricas. Para obtener más información, consulta Políticas de alertas en la API de Cloud Monitoring y Proporción de métricas.
  • No puedes configurar la condición mediante el lenguaje de consultas de Monitoring ni PromQL.
  • Se admiten todas las métricas que tengan un tipo de valor doble o int64, excepto las de instancias de VM de Amazon.

Ejemplos

Hay ejemplos de cada uno de estos tipos de políticas disponibles:

Tipo de condición Ejemplo de JSON Consola de Google Cloud
Límite de la métrica Ver Instrucciones
Frecuencia de cambio Ver Instrucciones
Grupo agregado Ver Instrucciones
Verificación del tiempo de actividad Ver Instrucciones
Estado del proceso Ver Instrucciones
Proporción de métrica Ver Instrucciones
Prever Ver Instrucciones

¿Qué sigue?