Se usó la API de Cloud Translation para traducir esta página.

Comportamiento de las políticas de alertas basadas en métricas

En este documento, se describe cómo los períodos de alineación y los períodos de nueva prueba determinan cuándo se cumple una condición, cómo las políticas de alertas combinan varias condiciones y cómo las políticas de alertas reemplazan los puntos de datos faltantes. También describe la cantidad máxima de incidentes abiertos para una política, la cantidad de notificaciones por incidente y las causas de las demoras en las notificaciones.

Este contenido no se aplica a las políticas de alertas basadas en registros. Para obtener información sobre las políticas de alertas basadas en registros, consulta Supervisa tus registros.

Períodos de alineación y ventanas de nueva prueba

Cloud Monitoring evalúa el período de alineación y la ventana de nueva prueba cuando determina si se cumplió la condición de una política de alertas.

Período de alineación

Antes de que una política de alertas supervise los datos de series temporales, estos deben regularizarse para que la política de alertas tenga datos espaciados con regularidad para evaluar. El proceso de regularización se denomina alineación.

La alineación implica dos pasos:

Dividir las series temporales en intervalos de tiempo regulares, también llamado agrupamiento de datos. El intervalo es el período de alineación.
Calcular un solo valor para los puntos en el período de alineación. Tú eliges cómo se calcula ese punto único, puedes sumar todos los valores, calcular su promedio, o usar la máxima. La función que combina los datos se denomina alineador. El resultado de la combinación se denomina valor alineado.

Para obtener más información sobre la alineación, consulta Alineación: regularización dentro de la serie.

Por ejemplo, cuando el período de alineación es de cinco minutos, a la 1:00 p.m., el período de alineación contiene las muestras recibidas entre las 12:55 p.m. y la 1:00 p.m. A la 1:01 p.m., el período de alineación se desliza un minuto y contiene las muestras recibidas entre las 12:56 p.m. y la 1:01 p.m.

Monitoring configura un período de alineación de la siguiente manera:

Google Cloud console

Para configurar el período de alineación, elige un valor para los siguientes campos en la página Condiciones de la alerta:

Ventana continua: Especifica el período que se evaluará.
Función de ventana progresiva: Especifica la función matemática que se realizará en la ventana de puntos de datos.

Para obtener más información sobre las funciones disponibles, consulta Aligner en la referencia de la API. Algunas de las funciones de alineación alinean los datos y los convierten de una categoría o tipo de métrica a otro. Para obtener una explicación detallada, consulta Clases, tipos y conversiones.

API

Para configurar el período de alineación, establece los campos aggregations.alignmentPeriod y aggregations.perSeriesAligner en las estructuras MetricThreshold y MetricAbsence.

Para ilustrar el efecto del período de alineación en una condición en una política de alertas, considera una condición de límite de métrica que supervisa una métrica con un período de muestreo de un minuto. Supongamos que el período de alineación se establece en cinco minutos y que el alineador está configurado como sum. Además, supongamos que la condición se cumple cuando el valor alineado de la serie temporal es mayor que dos durante al menos tres minutos y que la condición se evalúa cada minuto. En este ejemplo, el período de nueva prueba, que se describe en la siguiente sección, es de tres minutos. En la siguiente figura, se ilustran varias evaluaciones secuenciales de la condición:

Figura que ilustra el efecto del período de alineación en la ventana o duración de la nueva prueba.

Cada fila de la figura ilustra una sola evaluación de la condición. Se muestran los datos de series temporales. Los puntos en el período de alineación se muestran con puntos azules, y los puntos anteriores son negros. Cada fila muestra el valor alineado y si este valor es mayor que el umbral de dos. Para la fila etiquetada como start, el valor alineado se calcula como uno, que es menor que el umbral. En la siguiente evaluación, la suma de las muestras en el período de alineación es dos. En la tercera evaluación, la suma es tres y, como este valor es mayor que el umbral, se inicia un temporizador para el período de nueva prueba.

Períodos para volver a probar

La condición de una política de alertas tiene un período de nueva prueba, que evita que se cumpla la condición debido a una sola medición o previsión. Por ejemplo, supongamos que el período de repetición de la prueba de una condición se establece en 15 minutos. A continuación, se describe el comportamiento de la condición según su tipo:

Las condiciones de umbral de métricas se cumplen cuando, para una sola serie temporal, cada medición alineada en un intervalo de 15 minutos incumple el umbral.
Las condiciones de ausencia de métricas se cumplen cuando no llegan datos para una serie temporal en un intervalo de 15 minutos.
Las condiciones de previsión se cumplen cuando cada previsión producida durante un período de 15 minutos predice que la serie temporal incumplirá el umbral dentro del período de previsión.

En el caso de las políticas con una condición, se abre un incidente y se envían notificaciones cuando se cumple la condición. Estos incidentes permanecen abiertos mientras se siga cumpliendo la condición.

Google Cloud console

Puedes configurar el período de nueva prueba con el campo Período de nueva prueba en el paso Configurar activador de alertas.

API

Para configurar el período de repetición de la prueba, establece el campo llamado duration en las estructuras MetricThreshold y MetricAbsence.

En la figura anterior, se ilustran tres evaluaciones de una condición de umbral de métrica. En el momento start + 2 minutes, el valor alineado es mayor que el umbral. Sin embargo, la condición no se cumple porque el período de nueva prueba se establece en tres minutos. En la siguiente figura, se ilustran los resultados para las siguientes evaluaciones de la condición:

Figura que ilustra el efecto del período de nueva prueba.

A pesar de que el valor alineado es mayor que el umbral en el momento start + 2 minutes, la condición no se cumple hasta que el valor alineado sea mayor que el umbral durante tres minutos. Ese evento ocurre en el momento start + 5 minutes.

Una condición restablece su ventana de nueva prueba cada vez que una medición o previsión no satisface la condición. Este comportamiento se ilustra en el siguiente ejemplo:

Ejemplo: Esta política de alertas contiene una condición de umbral de métrica que especifica un período de reanálisis de cinco minutos.

Si la latencia de respuesta HTTP es superior a dos segundos,
y si la latencia supera el umbral durante cinco minutos,
abre un incidente y envía un correo electrónico al equipo de asistencia al cliente.

En la siguiente secuencia, se ilustra la forma en la que el período de nueva prueba afecta la evaluación de la condición:

La latencia de HTTP es inferior a dos segundos.

Durante los próximos tres minutos consecutivos, la latencia de HTTP es mayor que dos segundos.

En la siguiente medición, la latencia es inferior a dos segundos, por lo que la condición restablece la ventana de nueva prueba.

Durante los siguientes cinco minutos consecutivos, la latencia de HTTP es mayor que dos segundos, por lo que se cumple la condición.

Dado que la política de alertas tiene una condición, Monitoring envía notificaciones cuando se cumple la condición.

Establece el período de repetición de la prueba para que sea lo suficientemente extenso como para minimizar los falsos positivos, pero lo suficientemente corto para verificar que los incidentes se abran de manera oportuna.

Prácticas recomendadas para establecer el período de alineación y la ventana de nueva prueba

El período de alineación determina cuántas muestras se combinan con el alineador:

El valor mínimo del período de alineación para un tipo de métrica es el período de muestreo de ese tipo de métrica. Por ejemplo, si el tipo de métrica se muestrea cada 300 segundos, el período de alineación debe ser de al menos 300 segundos. Sin embargo, si deseas combinar 5 muestras, establece el período de alineación en 5 * 300 s o 1,500 segundos.
El valor máximo del período de alineación es de 24 horas menos la demora en la transferencia del tipo de métrica. Por ejemplo, si la demora en la transferencia de una métrica es de 6 horas, el valor máximo del período de alineación es de 18 horas.

Usa la ventana de volver a probar para especificar la capacidad de respuesta de la alerta. Por ejemplo, si estableces el período de nueva prueba en 20 minutos para una condición de ausencia de métrica, no debe haber datos durante 20 minutos antes de que se cumpla la condición. Para una política de alertas con mayor capacidad de respuesta, establece la ventana de reanálisis en un valor más pequeño. En el caso de las condiciones de límite de métrica, para tener la política de alertas más sensible, establece la ventana de nueva prueba en cero. Un solo valor alineado hace que se cumplan estos tipos de condiciones.

Las condiciones de la política de alertas se evalúan con una frecuencia fija. Las elecciones que tomas para el período de alineación y el período de nueva prueba no determinan la frecuencia con la que se evalúa la condición.

Políticas con varias condiciones

Una política de alertas puede contener hasta 6 condiciones.

Si usas la API de Cloud Monitoring o si tu política de alertas tiene varias condiciones, debes especificar cuándo se abre un incidente. Para configurar cómo se combinan varias condiciones, realiza una de las siguientes acciones:

Google Cloud console

Puedes configurar las opciones de combinación en el paso Activador de varias condiciones.

API

Puedes configurar las opciones del combinador con el campo combiner de la estructura AlertPolicy.

En esta tabla, se enumeran los parámetros de configuración de la consola de Google Cloud , el valor equivalente en la API de Cloud Monitoring y una descripción de cada parámetro:

Google Cloud console Valor de activadores de política	API de Cloud Monitoring Valor del combinador	Significado
: Se cumple cualquier condición	`OR`	Se abre un incidente si algún recurso hace que se cumpla alguna de las condiciones.
Se cumplen todas las condiciones incluso para diferentes recursos de cada condición (predeterminado)	`AND`	Se abre un incidente por cada condición que se cumple cuando se cumplen todas las condiciones, incluso si un recurso diferente hace que se cumplan esas condiciones.
Se cumplen todas las condiciones	`AND_WITH_MATCHING_RESOURCE`	Se abre un incidente por cada condición que se cumple cuando se cumplen todas las condiciones, solo si el mismo recurso hace que se cumpla cada condición. Este parámetro de configuración es la opción de combinación más estricta.
Nota: La política de alertas usa los valores de etiqueta para identificar el recurso que provocó la condición de una condición. A fin de obtener una política de alertas con este combinador para crear incidentes o generar notificaciones, se deben cumplir los siguientes requisitos: Cada condición debe supervisar el mismo recurso. Por ejemplo, para todas las condiciones, el tipo de recurso se configura como `gce_instance`. Las etiquetas de recursos supervisados que están disponibles después de la agregación deben ser iguales para todas las condiciones. Por ejemplo, para el recurso `gce_instance`, las etiquetas son `project_id`, `instance_id` y `zone`. Si una condición se agrupa por `zone`, todas las condiciones deben agruparse por `zone`. Para obtener una lista de los recursos supervisados y sus etiquetas, consulta Tipos de recursos supervisados.

En este contexto, el término cumplir significa que la configuración de la condición se evalúa como true. Por ejemplo, si la configuración es Any time series is greater than 10 for 5 minutes, cuando esta declaración se evalúa como true, se cumple la condición.

Ejemplo

Considera un proyecto Google Cloud que contiene dos instancias de VM, vm1 y vm2. Además, supongamos que creas una política de alertas con 2 condiciones:

La condición llamada CPU usage is too high supervisa el uso de CPU de las instancias. Esta condición se cumple cuando el uso de CPU de cualquier instancia es superior a 100 ms/s durante 1 minuto.
La condición denominada Excessive utilization supervisa el uso de CPU de las instancias. Esta condición se cumple cuando el uso de CPU de cualquier instancia supera el 60% durante 1 minuto.

En un principio, supongamos que ambas condiciones se evalúan como false.

A continuación, supongamos que el uso de CPU de vm1 supera los 100 ms/s durante 1 minuto. Dado que el uso de CPU es superior al umbral durante un minuto, se cumple la condición CPU usage is too high. Si las condiciones se combinan con Se cumple cualquier condición, se crea un incidente, ya que se cumple una condición. Si las condiciones se combinan con Se cumplen todas las condiciones o Se cumplen todas las condiciones incluso con recursos diferentes para cada condición, no se crea un incidente. Estas opciones de combinador requieren que se cumplan ambas condiciones.

A continuación, supongamos que el uso de CPU de vm1 sigue siendo superior a 100 ms/s y que el uso de CPU de vm2 supera el 60% durante 1 minuto. Como resultado, se cumplen ambas condiciones. A continuación, se describe lo que ocurre según cómo se combinan las condiciones:

Se cumple cualquier condición: se crea un incidente cuando el recurso hace que se cumple una condición. En este ejemplo, la vm2 hace que se cumpla la condición Excessive utilization.

Si la vm2 hace que se cumpla la condición CPU usage is too high, también se crea un incidente. Se crea un incidente porque la vm1 y la vm2 que provocan que se cumpla la condición CPU usage is too high son eventos distintos.
Todas las condiciones se cumplen incluso en recursos diferentes de cada condición: Se crea un incidente porque se cumplen ambas condiciones.
Todas las condiciones se cumplen: No se crea un incidente porque este combinador requiere que el mismo recurso haga que se cumplan todas las condiciones. En este ejemplo, no se crea ningún incidente porque la vm1 hace que se cumpla CPU usage is too high, mientras que la vm2 hace que se cumpla Excessive utilization.

Datos parciales de la métrica

Cuando los datos de series temporales dejan de llegar o se retrasan, Monitoring los clasifica como faltantes. La falta de datos puede impedir que se cierren los incidentes. Los retrasos en los datos que llegan de proveedores de servicios en la nube de terceros pueden ser de hasta 30 minutos. Los retrasos más comunes son de 5 a 15 minutos. Un retraso prolongado, mayor que el período de nueva prueba, puede hacer que las condiciones entren en un estado “desconocido”. Cuando finalmente lleguen los datos, es posible que Monitoring haya perdido parte del historial reciente de las condiciones. Es posible que la inspección posterior de los datos de series temporales no muestre este problema debido a que no hay evidencia de retrasos una vez que llegan los datos.

Google Cloud console

Puedes configurar la forma en que Monitoring evalúa una condición de umbral de métrica cuando dejan de llegar datos. Por ejemplo, cuando se abre un incidente y no llega una medición esperada, ¿quieres que Monitoring deje el incidente abierto o que lo cierre de inmediato? Del mismo modo, cuando dejan de llegar datos y no hay ningún incidente abierto, ¿quieres que se abra un incidente? Por último, ¿durante cuánto tiempo debe permanecer abierto un incidente después de que dejan de llegar los datos?

Hay dos campos configurables que especifican cómo Monitoring evalúa las condiciones de umbral de métricas cuando dejan de llegar datos:

Para configurar cómo Monitoring determina el valor de reemplazo de los datos faltantes, usa el campo Evaluación de datos faltantes que estableciste en el paso Activador de condición. Este campo se inhabilita cuando la ventana de nueva prueba se establece en Sin nueva prueba.

El período de nueva prueba es el campo llamado duración en la API de Cloud Monitoring.
Para configurar cuánto tiempo espera Monitoring antes de cerrar un incidente abierto después de que dejan de llegar datos, usa el campo Duración del cierre automático de incidentes. Establece la duración del cierre automático en el paso Notificación. La duración predeterminada del cierre automático es de siete días.

A continuación, se describen las diferentes opciones para el campo de datos faltantes:

Google Cloud consola
Campo "Evaluación de los datos faltantes" Resumen Detalles

Google Cloud consola Campo "Evaluación de los datos faltantes"	Resumen	Detalles
Faltan datos vacíos	Los incidentes abiertos permanecen abiertos. No se abren incidentes nuevos.	En el caso de las condiciones que se cumplen, la condición sigue cumpliéndose cuando dejan de llegar datos. Si hay un incidente abierto para esta condición, el incidente permanece abierto. Cuando se abre un incidente y no llegan datos, el temporizador de cierre automático comienza después de una demora de al menos 15 minutos. Si el temporizador vence, el incidente se cierra. En el caso de las condiciones que no se cumplen, la condición sigue sin cumplirse cuando dejan de llegar los datos.
Los datos faltantes se consideran valores que incumplen la condición de la política	Los incidentes abiertos permanecen abiertos. Se pueden abrir incidentes nuevos.	En el caso de las condiciones que se cumplen, la condición sigue cumpliéndose cuando dejan de llegar datos. Si hay un incidente abierto para esta condición, el incidente permanece abierto. Cuando un incidente está abierto y no llegan datos durante el período de cierre automático más 24 horas, se cierra el incidente. En el caso de las condiciones que no se cumplen, este parámetro de configuración hace que la condición de umbral de métrica se comporte como un `metric-absence condition`. Si los datos no llegan en el período especificado por la ventana de nueva prueba, la condición se evalúa como cumplida. En el caso de una política de alertas con una condición, el cumplimiento de la condición genera la apertura de un incidente.
Los datos faltantes se consideran valores que no incumplen la condición de la política	Se cierran los incidentes abiertos. No se abren incidentes nuevos.	En el caso de las condiciones que se cumplen, la condición deja de cumplirse cuando dejan de llegar datos. Si hay un incidente abierto para esta condición, se cierra. En el caso de las condiciones que no se cumplen, la condición sigue sin cumplirse cuando dejan de llegar los datos.

Faltan datos vacíos

Los incidentes abiertos permanecen abiertos.
No se abren incidentes nuevos.

En el caso de las condiciones que se cumplen, la condición sigue cumpliéndose cuando dejan de llegar datos. Si hay un incidente abierto para esta condición, el incidente permanece abierto. Cuando se abre un incidente y no llegan datos, el temporizador de cierre automático comienza después de una demora de al menos 15 minutos. Si el temporizador vence, el incidente se cierra.

En el caso de las condiciones que no se cumplen, la condición sigue sin cumplirse cuando dejan de llegar los datos.

Los datos faltantes se consideran valores que incumplen la condición de la política

Los incidentes abiertos permanecen abiertos.
Se pueden abrir incidentes nuevos.

En el caso de las condiciones que se cumplen, la condición sigue cumpliéndose cuando dejan de llegar datos. Si hay un incidente abierto para esta condición, el incidente permanece abierto. Cuando un incidente está abierto y no llegan datos durante el período de cierre automático más 24 horas, se cierra el incidente.

En el caso de las condiciones que no se cumplen, este parámetro de configuración hace que la condición de umbral de métrica se comporte como un metric-absence condition. Si los datos no llegan en el período especificado por la ventana de nueva prueba, la condición se evalúa como cumplida. En el caso de una política de alertas con una condición, el cumplimiento de la condición genera la apertura de un incidente.

Los datos faltantes se consideran valores que no incumplen la condición de la política

Se cierran los incidentes abiertos.
No se abren incidentes nuevos.

En el caso de las condiciones que se cumplen, la condición deja de cumplirse cuando dejan de llegar datos. Si hay un incidente abierto para esta condición, se cierra.

En el caso de las condiciones que no se cumplen, la condición sigue sin cumplirse cuando dejan de llegar los datos.

API

Hay dos campos configurables que especifican cómo Monitoring evalúa las condiciones de umbral de métricas cuando dejan de llegar datos:

Para configurar cómo Monitoring determina el valor de reemplazo de los datos faltantes, usa el campo evaluationMissingData de la estructura MetricThreshold. Este campo se ignora cuando el campo duration es cero.
Para configurar cuánto tiempo espera Monitoring antes de cerrar un incidente abierto después de que dejan de llegar datos, usa el campo autoClose en la estructura AlertStrategy.

A continuación, se describen las diferentes opciones para el campo de datos faltantes:

API
Campo evaluationMissingData Resumen Detalles

API Campo `evaluationMissingData`	Resumen	Detalles
`EVALUATION_MISSING_DATA_UNSPECIFIED`	Los incidentes abiertos permanecen abiertos. No se abren incidentes nuevos.	En el caso de las condiciones que se cumplen, la condición sigue cumpliéndose cuando dejan de llegar datos. Si hay un incidente abierto para esta condición, el incidente permanece abierto. Cuando se abre un incidente y no llegan datos, el temporizador de cierre automático comienza después de una demora de al menos 15 minutos. Si el temporizador vence, el incidente se cierra. En el caso de las condiciones que no se cumplen, la condición sigue sin cumplirse cuando dejan de llegar los datos.
`EVALUATION_MISSING_DATA_ACTIVE`	Los incidentes abiertos permanecen abiertos. Se pueden abrir incidentes nuevos.	En el caso de las condiciones que se cumplen, la condición sigue cumpliéndose cuando dejan de llegar datos. Si hay un incidente abierto para esta condición, el incidente permanece abierto. Cuando un incidente está abierto y no llegan datos durante el período de cierre automático más 24 horas, el incidente se cierra. En el caso de las condiciones que no se cumplen, este parámetro de configuración hace que la condición de umbral de métrica se comporte como un `metric-absence condition`. Si los datos no llegan en el tiempo especificado por el campo "duration", la condición se evalúa como cumplida. En el caso de una política de alertas con una condición, el cumplimiento de la condición genera la apertura de un incidente.
`EVALUATION_MISSING_DATA_INACTIVE`	Se cierran los incidentes abiertos. No se abren incidentes nuevos.	En el caso de las condiciones que se cumplen, la condición deja de cumplirse cuando dejan de llegar datos. Si hay un incidente abierto para esta condición, se cierra. En el caso de las condiciones que no se cumplen, la condición sigue sin cumplirse cuando dejan de llegar los datos.

EVALUATION_MISSING_DATA_UNSPECIFIED

Los incidentes abiertos permanecen abiertos.
No se abren incidentes nuevos.

En el caso de las condiciones que no se cumplen, la condición sigue sin cumplirse cuando dejan de llegar los datos.

EVALUATION_MISSING_DATA_ACTIVE

Los incidentes abiertos permanecen abiertos.
Se pueden abrir incidentes nuevos.

En el caso de las condiciones que se cumplen, la condición sigue cumpliéndose cuando dejan de llegar datos. Si hay un incidente abierto para esta condición, el incidente permanece abierto. Cuando un incidente está abierto y no llegan datos durante el período de cierre automático más 24 horas, el incidente se cierra.

En el caso de las condiciones que no se cumplen, este parámetro de configuración hace que la condición de umbral de métrica se comporte como un metric-absence condition. Si los datos no llegan en el tiempo especificado por el campo "duration", la condición se evalúa como cumplida. En el caso de una política de alertas con una condición, el cumplimiento de la condición genera la apertura de un incidente.

EVALUATION_MISSING_DATA_INACTIVE

Se cierran los incidentes abiertos.
No se abren incidentes nuevos.

En el caso de las condiciones que se cumplen, la condición deja de cumplirse cuando dejan de llegar datos. Si hay un incidente abierto para esta condición, se cierra.

En el caso de las condiciones que no se cumplen, la condición sigue sin cumplirse cuando dejan de llegar los datos.

Para minimizar los problemas debido a la falta de datos, puedes realizar cualquiera de las siguientes acciones:

Comunícate con tu proveedor de servicios en la nube externo para identificar formas de reducir la latencia de recopilación de métricas.
Usa ventanas de reanálisis más largas en tus condiciones. Usar una ventana de reanálisis más larga tiene la desventaja de hacer que tus políticas de alertas tengan menos capacidad de respuesta.
Elige métricas que tengan un retraso de recopilación menor:
- Métricas del agente de supervisión, en especial cuando el agente se ejecuta en instancias de VM en servicios en la nube de terceros.
- Métricas personalizadas, cuando escribes sus datos directamente en Monitoring.
- Métricas basadas en registros, si no se demora la recopilación de entradas de registro

Para obtener más información, consulta Descripción general del agente de Monitoring, Descripción general de las métricas definidas por el usuario y Métricas basadas en registros.

Cuándo Monitoring envía notificaciones y crea incidentes

Cloud Monitoring envía una notificación cuando una serie temporal hace que se cumpla una condición. La notificación se envía a todos los canales de notificaciones. No puedes restringir una notificación a un canal específico ni a un subconjunto de los canales de tu política.

Si configuras notificaciones repetidas, se volverá a enviar la misma notificación a canales de notificaciones específicos para tu política de alertas.

Es posible que recibas varias notificaciones únicas relacionadas con una política de alertas si se cumple alguna de las siguientes condiciones:

Una condición supervisa varias series temporales.
Una política contiene varias condiciones. En este caso, las notificaciones que recibas dependerán del valor del activador de varias condiciones de la política de alertas:
- Se cumplen todas las condiciones: Cuando se cumplen todas las condiciones, para cada serie temporal que genere que se cumpla una condición, la política de alertas envía una notificación y crea un incidente.
  
  No puedes configurar Cloud Monitoring para que cree solo un incidente y envíe solo una notificación cuando la política de alertas contiene varias condiciones.
- Se cumple cualquier condición: La política de alertas envía una notificación cuando una serie temporal hace que se cumpla la condición.
Para obtener más información, consulta Políticas con varias condiciones.

Las políticas de alertas creadas con la API de Cloud Monitoring también te notifican cuando se cumple la condición y cuando deja de cumplirse. Las políticas de alertas creadas con la consola de Google Cloud no envían una notificación cuando se deja de cumplir la condición, a menos que hayas habilitado ese comportamiento.

Cuándo Monitoring no envía notificaciones ni crea incidentes

En las siguientes situaciones, Monitoring no crea incidentes ni envía notificaciones cuando se cumplen las condiciones de una política de alertas:

La política de alertas está inhabilitada.
La política de alertas se pospuso.
El monitoreo alcanzó el límite de la cantidad máxima de incidentes abiertos.

Políticas de alertas inhabilitadas

Monitoring no envía notificaciones ni crea incidentes para las políticas de alertas inhabilitadas. Sin embargo, Monitoring sigue evaluando las condiciones de una política de alertas inhabilitada.

Cuando habilitas una política inhabilitada, Monitoring evalúa los valores de todas las condiciones en el período de nueva prueba más reciente. El período de nueva prueba más reciente puede incluir datos tomados antes, durante y después de que se habilitó la política. Las condiciones de una política inhabilitada se pueden cumplir inmediatamente después de reanudar la política, incluso con grandes períodos de nueva prueba.

Por ejemplo, supongamos que tienes una política de alertas que supervisa un proceso específico y que inhabilitas esta política. La semana siguiente, el proceso falla y, como la política de alertas está inhabilitada, no recibes ninguna notificación. Si reinicias el proceso y habilitas la política de alertas de inmediato, Monitoring reconoce que el proceso no funcionó durante los últimos cinco minutos y abre un incidente.

Los incidentes relacionados con una política de alertas inhabilitada permanecen abiertos hasta que vence la duración de cierre automático de la política.

Políticas de alertas pospuestas

Monitoring no envía notificaciones ni crea incidentes para una política de alertas que está pospuesta. Te recomendamos que pospongas las políticas de alertas cuando quieras evitar que una política de alertas envíe notificaciones solo durante intervalos cortos. Por ejemplo, antes de realizar tareas de mantenimiento en una máquina virtual (VM), puedes crear una posposición y agregar a los criterios de posposición las políticas de alertas que supervisan la instancia.

Cuando pospones una política de alertas, Monitoring cierra todos los incidentes abiertos relacionados con la política. Monitoring puede abrir incidentes nuevos después de que venza la posposición. Para obtener más información, consulta Cómo posponer notificaciones e incidentes.

Límites de notificaciones e incidentes abiertos

Una política de alertas puede aplicarse a muchos recursos, y un problema que afecte a todos los recursos puede hacer que la política de alertas abra incidentes para cada recurso. Se abre un incidente por cada serie temporal que provoque que se cumpla una condición.

Para evitar sobrecargar el sistema, la cantidad de incidentes que una sola política puede abrir en simultáneo se limita a 1,000.

Por ejemplo, considera una política que se aplica a 2,000 instancias de Compute Engine, y cada instancia hace que se cumplan las condiciones de alerta. Monitoring limita la cantidad de incidentes abiertos a 1,000. Se ignoran las condiciones restantes que se cumplan hasta que se resuelvan algunos de los incidentes abiertos de esa política.

Como resultado de este límite, un solo canal de notificación puede recibir hasta 1,000 notificaciones a la vez. Si tu política de alertas tiene varios canales de notificación, este límite se aplica a cada canal de notificación de forma independiente.

Latencia

La latencia se refiere al retraso entre el momento en que Monitoring muestrea una métrica y el momento en que el dato de la métrica se vuelve visible como datos de series temporales. La latencia afecta el momento en que se envían las notificaciones. Por ejemplo, si una métrica supervisada tiene una latencia de hasta 180 segundos, Monitoring no creará un incidente hasta 180 segundos después de que la condición de la política de alertas se evalúe como verdadera. Para obtener más información, consulta Latencia de los datos de métricas.

Los siguientes eventos y parámetros de configuración contribuyen a la latencia:

Demora en la recopilación de métricas: El tiempo que Monitoring necesita para recopilar valores de métricas. En el caso de los valores de Google Cloud , la mayoría de las métricas no están visibles durante 60 segundos después de la recopilación. Sin embargo, la demora depende de la métrica. Los cálculos de las políticas de alertas tienen una demora adicional de hasta 5 minutos y 30 segundos. En el caso de las métricas de AWS CloudWatch, la demora en la visibilidad puede ser de varios minutos. Para las verificaciones de tiempo de actividad, puede ser un promedio de dos minutos (desde el final del período de reanálisis).
Período para volver a probar: Es el período configurado para la condición. Las condiciones solo se cumplen cuando una condición es verdadera durante todo el período de la nueva prueba. Por ejemplo, si configuras una ventana de reanálisis de cinco minutos, se producirán retrasos en la notificación de al menos cinco minutos desde el momento en que se produce el evento.
Momento en el que llega la notificación: Los canales de notificación, como el correo electrónico y los SMS, pueden experimentar latencias de red o de otros tipos (que no se relacionan con lo que se entrega), que a veces se aproximan a minutos. En algunos canales, como SMS y Slack, no hay garantía de que se entreguen los mensajes.

¿Qué sigue?

Para obtener información sobre cómo crear una política de alertas, consulta los siguientes documentos:
Para ver una selección de políticas de alertas, consulta Políticas de muestra.

Comportamiento de las políticas de alertas basadas en métricas Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Períodos de alineación y ventanas de nueva prueba

Período de alineación

Google Cloud console

API

Períodos para volver a probar

Google Cloud console

API

Prácticas recomendadas para establecer el período de alineación y la ventana de nueva prueba

Políticas con varias condiciones

Google Cloud console

API

Datos parciales de la métrica

Google Cloud console

API

Cuándo Monitoring envía notificaciones y crea incidentes

Cuándo Monitoring no envía notificaciones ni crea incidentes

Políticas de alertas inhabilitadas

Políticas de alertas pospuestas

Límites de notificaciones e incidentes abiertos

Latencia

¿Qué sigue?

Comportamiento de las políticas de alertas basadas en métricas