Tipos de políticas de alertas

En esta página, se describen diferentes tipos de políticas de alertas basadas en métricas, ya que las representa Google Cloud Console o la API de Cloud Monitoring, y se proporcionan ejemplos de JSON para estas políticas. Si te interesan las políticas de alertas que se crean mediante el lenguaje de consulta de Monitoring (MQL), consulta Políticas de alertas con MQL.

Este contenido no se aplica a las políticas de alertas basadas en registros. Para obtener información sobre las políticas de alertas basadas en registros, que te notifican cuando aparece un mensaje en particular en tus registros, consulta Supervisar tus registros.

Una política de alertas define las condiciones, y estas se basan en métricas. Una condición de política de alertas puede supervisar, por ejemplo, si una métrica alcanza un valor o comienza a cambiar con rapidez. Las métricas se asocian con recursos y miden algunas características de ese recurso, por ejemplo, el uso promedio de CPU en un grupo de VM. Para obtener más información sobre las métricas, consulta Métricas, series temporales y recursos.

Todas las condiciones tienen en cuenta tres aspectos: algunas métricas se comportan de alguna manera durante cierto período.

Todas las condiciones se implementan como uno de los dos tipos generales: una condición de ausencia de métrica o una condición de límite de métrica.

Condición de ausencia de métricas

Una condición de ausencia de métrica se activa si alguna serie temporal de la métrica no tiene datos para un período de duración específico.

Las condiciones de falta de métricas requieren al menos una medición correcta, una que recupere datos, dentro del período de duración máximo después de que se instaló o modificó la política. El período de duración máximo configurable es de 24 horas si usas Google Cloud Console y de 24.5 horas si usas la API de Cloud Monitoring.

Por ejemplo, supongamos que estableces el período de duración en una política de ausencia de la métrica en 30 minutos. La condición no se cumple si el subsistema que escribe datos de la métrica nunca ha escrito un dato. El subsistema debe generar al menos un dato y, luego, tener errores en generar datos adicionales durante 30 minutos.

Si deseas obtener información sobre el uso de la API de Monitoring a fin de crear políticas de alertas de falta de métricas, consulta Condiciones para políticas de alertas basadas en métricas.

Condición de límite de métrica

Una condición de límite de métrica se activa si una métrica supera un valor o es inferior a un período de duración específico.

Dentro de la clase de condiciones de límite de la métrica, hay patrones que se dividen en subcategorías generales:

  • Frecuencia de la métrica (porcentaje) de cambio: Se activa si una métrica aumenta o disminuye en un porcentaje específico o más en el período de duración.

    En este tipo de condición, se aplica un cálculo de porcentaje de cambio a la serie temporal antes de la comparación con el límite.

    La condición calcula el promedio de los valores de la métrica de los últimos 10 minutos, luego compara el resultado con el promedio de 10 minutos que se midió antes del período de duración. La ventana retrospectiva de 10 minutos que una condición de frecuencia de la métrica de cambio usó es un valor fijo, no puedes cambiarlo. Sin embargo, sí puedes especificar el período de duración cuando creas una condición.

  • Límite de grupo agregado: Se activa si una métrica que se mide en un grupo de recursos pasa un límite.

  • Estado de las verificaciones del tiempo de actividad: Se activa si creaste una verificación de tiempo de actividad y el recurso tiene errores para responder de forma correcta a una solicitud enviada desde al menos dos ubicaciones geográficas.

    Los resultados de las verificaciones de tiempo de actividad se muestran en varios lugares. En Google Cloud Console, ve a Monitoring y, luego, selecciona Descripción general o Verificaciones de tiempo de actividad. En ambas ventanas, se muestran las verificaciones de tiempo de actividad del proyecto y se muestra una lista de verificación de estado. Para ver los detalles de una verificación de tiempo de actividad en particular, selecciona su nombre en la lista. Si creas una política de alertas en una verificación de tiempo de actividad, podrás tener verificaciones de tiempo de actividad que abren incidentes de forma indirecta y, de manera opcional, envían notificaciones cuando tienen errores.

  • Estado del proceso: Estas condiciones cuentan la cantidad de procesos que se ejecutan en una instancia de VM o en un grupo de instancias que coinciden con una convención de nombres. La condición se activa cuando este recuento es mayor o menor que un número específico durante un período de duración.

    Este tipo de condición requiere que el agente de operaciones o el agente de supervisión se ejecuten en los recursos supervisados. Para obtener más información sobre los agentes, consulta Agentes de Google Cloud's operations suite.

  • Proporción de métrica: Se activa si la proporción de dos métricas excede el límite de una duración. Esta es una condición de límite que usa dos métricas relacionadas, por ejemplo, la proporción de respuestas de error de HTTP a todas las respuestas HTTP.

    Si deseas obtener más información sobre las políticas basadas en proporciones, consulta Condiciones para alertar sobre proporciones.

Ejemplos

Hay ejemplos de cada uno de estos tipos de políticas disponibles:

Tipo de condición Ejemplo de JSON
Límite de la métrica Ver
Frecuencia de cambio Ver
Grupo agregado Ver
Verificación del tiempo de actividad Ver
Estado del proceso Ver
Proporción de métrica Ver

¿Qué sigue?