Incidentes de alertas basadas en métricas

Un incidente, también llamado alerta, es un registro de la activación de una política de alertas. Por lo general, Cloud Monitoring abre un incidente y envía una notificación cuando se activa una condición de política de alertas. Sin embargo, los incidentes no se crean cuando la política se pospone o inhabilita, cuando hay demasiados incidentes abiertos para esa política o cuando se sabe que el recurso subyacente está inhabilitado. Además, cuando una política de alertas contiene varias condiciones, su combinación determina si la activación de una condición provoca la creación de incidentes.

En este documento, se describe cómo puedes ver, investigar y administrar los incidentes para las políticas de alertas basadas en métricas.

Antes de comenzar

Asegúrate de tener los permisos que necesitas:

Para obtener más información sobre las funciones de Cloud Monitoring, consulta Controla el acceso con Identity and Access Management.

Buscar incidentes

Para ver una lista de incidentes, haz lo siguiente:

  1. En la consola de Google Cloud, selecciona Monitoring y, luego,  Alertas o haz clic en el siguiente botón:

    Ve a las alertas

    • En el panel Resumen, se muestra la cantidad de incidentes abiertos.
    • En el panel Incidentes, se muestran los incidentes abiertos más recientes. Para enumerar los incidentes más recientes en la tabla, incluidos los cerrados, haz clic en Mostrar incidentes cerrados.
  2. Opcional: Para ver los detalles de un incidente específico, selecciona el incidente en la lista. Se abrirá la página Detalles del incidente. Para obtener información sobre esta página, consulta la sección Investigación de incidentes.

Busca incidentes más antiguos

En el panel Incidentes en Alertas, se muestran los incidentes abiertos más recientes. Para ubicar los incidentes más antiguos, realiza una de las siguientes acciones:

  • Para desplazarte por las entradas de la tabla Incidentes, haz clic en  Más reciente o  Más antiguo.

  • Para navegar a la página Incidentes, haz clic en Ver todos los incidentes. En la página Incidentes, puedes hacer lo siguiente:

    • Mostrar incidentes cerrados: Para enumerar todos los incidentes en la tabla, haz clic en Mostrar incidentes cerrados.
    • Filtrar incidentes: si deseas obtener información para agregar filtros, consulta Filtrar incidentes.
    • Confirmar o cerrar un incidente, o posponer su política de alertas Para acceder a estas opciones, haz clic en  Más opciones en la fila del incidente y selecciona una opción del menú. Para obtener más información, consulta Administra incidentes.

Filtrar incidentes

Cuando ingresas un valor en la barra de filtros, solo los incidentes que coinciden con el filtro se enumeran en la tabla Incidentes. Si agregas varios filtros, solo se mostrará un incidente si cumple con todos ellos.

Para agregar un filtro a la tabla de incidentes, haz lo siguiente:

  1. En la página Incidentes, haz clic en  Filtrar tabla y, luego, selecciona una propiedad de filtro. Las propiedades de filtro incluyen lo siguiente:

    • Estado del incidente
    • Nombre de la política de alertas
    • Cuando se abrió o cerró el incidente
    • Tipo de métrica
    • Tipo de recurso
  2. Selecciona un valor del menú secundario o ingresa un valor en la barra de filtros.

    Por ejemplo, si seleccionas Tipo de métrica y, luego, ingresas usage_time, es posible que solo veas las siguientes opciones en el menú secundario:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Investigar incidentes

Una vez que hayas encontrado el incidente que deseas investigar, ve a la página Detalles del incidente de ese incidente. Para ver los detalles, haz clic en el resumen del incidente en la tabla de incidentes en la página Alertas o Incidentes.

Como alternativa, si recibiste una notificación que incluye un vínculo al incidente, puedes usar ese vínculo para ver los detalles del incidente.

En la siguiente captura de pantalla, se muestra la página de detalles de un incidente:

En la página de detalles, se proporciona información resumida y herramientas de investigación para un incidente.

En la página Detalles del incidente, se proporciona la siguiente información:

  • Información de estado, incluida la siguiente:

    • Nombre: El nombre de la política de alertas que causó este incidente.
    • Estado: El estado del incidente: abierto, confirmado o cerrado.
    • Duración: Es la cantidad de tiempo durante el cual el incidente estuvo abierto.
  • Información sobre la política de alertas que causó el incidente:

    • Panel Condition: identifica la condición en la política de alertas que causó el incidente.

    • Panel Message: Proporciona una explicación breve de la causa según la configuración de la condición en la política de alertas. Este panel siempre se propaga.

    • Panel Documentation: Muestra la plantilla de documentación para las notificaciones que proporcionaste cuando creaste la política de alertas. Esta información puede incluir una descripción de lo que supervisa la política de alertas y sugerencias para la mitigación.

      Si omitiste este campo cuando creaste la política de alertas, este panel indicará “No se configuró ninguna documentación”.

  • Etiquetas: Informa lo siguiente:
    • Las etiquetas y los valores de los recursos y las métricas supervisados de las series temporales que activaron la política de alertas. Esta información puede ayudarte a identificar el recurso supervisado específico que causó el incidente.

      Cuando usas variables en la documentación para etiquetas de métricas, Monitoring omite la etiqueta de las notificaciones cuando el valor de la etiqueta no comienza con un dígito, una letra, una barra diagonal (/) o un signo igual (=).

    • Cualquier etiqueta y valor especificado por el usuario que definiste en la política de alertas. Puedes usar estas etiquetas para identificar y organizar políticas de alertas. Las etiquetas asociadas con una política se enumeran en la sección Etiquetas de política, mientras que las etiquetas definidas como parte de una condición se enumeran en la sección Etiquetas de métrica. Para ver ejemplos de uso, consulta Cómo agregar niveles de gravedad a una política de alertas.

En la página Detalles de incidentes, también se proporcionan herramientas para investigar el incidente:

  • Cronograma del incidente: Se muestran dos representaciones visuales del incidente:

    • Una barra roja sobre un eje de tiempo representa el incidente; la longitud y la posición de la barra reflejan la duración del incidente.
    • En un gráfico, se muestran los datos de series temporales y el umbral que usa la política de alertas que causó el incidente. El incidente se abrió cuando algunas series temporales cumplieron una condición de la política de alertas.

    El eje indica la duración del incidente con dos puntos etiquetados. La posición de estos puntos en el eje temporal determina el rango de datos que se muestra en el gráfico que acompaña al cronograma del incidente. De forma predeterminada, un punto se posiciona al comienzo del incidente y otro al final del incidente, o en la hora actual si el incidente aún está abierto.

    Puedes modificar el intervalo de tiempo en el cronograma de incidentes y el gráfico:

    • Para cambiar el intervalo de tiempo que se muestra en el gráfico, arrastra cualquiera de los puntos junto al eje de tiempo. Con esta técnica, puedes enfocarte en intervalos específicos, por ejemplo, alrededor del principio o del final del incidente.

      Si cambias el gráfico, arrastra los puntos del eje establece un valor personalizado en el menú Período (Time Span) y, luego, inhabilita el menú. Para habilitar el menú Período (Time Span), haz clic en Restablecer.

    • Para cambiar el intervalo de tiempo que se muestra en el cronograma, selecciona un intervalo en el menú Time Span.
  • Vínculos a otras herramientas de solución de problemas La configuración de tu proyecto y la política de alertas, y la antigüedad del incidente, determinan qué vínculos están disponibles.
    • Para ver la página de detalles de la política de alertas, haz clic en Ver política.
    • Para editar la definición de la política de alertas, haz clic en Editar política.
    • Para ir al panel de información de rendimiento del recurso, haz clic en Ver detalles del recurso.
    • Para ver las entradas de registro relacionadas en el explorador de registros, haz clic en Ver registros. Para obtener más información, consulta Usa el Explorador de registros.
    • Para investigar los datos del gráfico, haz clic en Ver en el Explorador de métricas.
  • Anotaciones: Proporciona un registro de tus hallazgos, resultados, sugerencias y otros comentarios provenientes de tu investigación del incidente.
    • Para agregar una anotación, ingresa texto en el campo y haz clic en Agregar comentario.
    • Para descartar el comentario, haz clic en Cancelar.

Administración de incidentes

Los incidentes están en uno de los siguientes estados:

  • Abierto: El conjunto de condiciones de la política de alertas se cumple o no hay datos que indiquen que la condición ya no se cumple. Si una política de alertas contiene varias condiciones, los incidentes se abren en función de cómo se combinan esas condiciones. Consulta Condiciones de combinación para obtener más información.

  • Confirmado: El incidente está abierto y se marcó de forma manual como confirmado. Por lo general, este estado indica que se investiga el incidente.

  • Cerrada: El sistema observó que la condición dejó de cumplirse, que se cerró el incidente o que pasaron 7 días sin una observación de que la condición se cumpliera.

Cuando configures una política de alertas, asegúrate de que el estado estable proporcione una señal cuando todo esté bien. Esto es necesario para garantizar que se pueda identificar el estado sin errores y, si hay un incidente abierto, cerrar el incidente. Si no hay señal para indicar que se detuvo una condición de error, después de que se abre un incidente, permanece abierta durante 7 días después de que se activa la política de alertas.

Por ejemplo, si creas una política de alertas que te notifica cuando el recuento de errores es mayor que 0, asegúrate de que genere un recuento de 0 cuando no haya ninguno. Si la política de alertas muestra un valor nulo o vacío en un estado sin errores, no hay señal para indicar cuándo se detuvieron los errores. En algunas situaciones, el lenguaje de consulta de Monitoring (MQL) admite la capacidad de especificar un valor predeterminado que se usa cuando no hay un valor medido disponible. Para ver un ejemplo, consulta Usa la proporción.

Confirma incidentes

Te recomendamos que marques un incidente como confirmado cuando comiences a investigar la causa del incidente.

Para marcar un incidente como confirmado, haz lo siguiente:

  • En el panel Incidentes de la página Alertas, haz clic en Ver todos los incidentes.
  • En la página Incidentes, busca el incidente que deseas confirmar y, luego, realiza una de las siguientes acciones:

    • Haz clic en  Más opciones y, luego, selecciona Confirmar.
    • Abre la página de detalles del incidente y, luego, haz clic en Confirmar incidente.

Si tu política de alertas está configurada para enviar notificaciones repetidas, la confirmación de un incidente no detendrá las notificaciones. Para detenerlos, realiza una de las siguientes acciones:

  • Cree una alerta pospuesta para la política de alertas.
  • Inhabilitar la política de alertas

Posponer una política de alertas

Para evitar que Monitoring cree incidentes y envíe notificaciones durante un período específico, pospone la política de alertas relacionada. Cuando pospones una política de alertas, Monitoring también cierra todos los incidentes relacionados con esta.

Para crear una alerta pospuesta por un incidente que estás viendo, haz lo siguiente:

  1. En la página Detalles del incidente, haga clic en Posponer.

  2. Selecciona la duración de la función para posponer. Después de seleccionar la duración de la función pospuesta, esta acción comenzará de inmediato.

Cuando veas la página de detalles de un incidente, puedes crear una alerta pospuesta para la política de alertas relacionada. Para ello, haz clic en Posponer y, luego, elige una duración. La función para posponer comienza de inmediato. También puedes posponer una política de alertas desde la página Incidentes. Para ello, busca el incidente que deseas posponer, haz clic en  Más opciones y selecciona Posponer. Puedes posponer las políticas de alertas durante las interrupciones para evitar más notificaciones durante el proceso de solución de problemas.

Cerrar incidentes

Puedes permitir que Monitoring cierre un incidente por ti o puedes cerrarlo después de que las observaciones dejen de llegar. Si cierras un incidente y, luego, llegan los datos que indican que se cumplió la condición, se crea un incidente nuevo. Cuando cierras un incidente, esa acción no cierra ningún otro incidente que esté abierto para la misma condición. Si pospones una política de alertas, los incidentes abiertos se cierran cuando comienza la alerta.

Monitoring cierra automáticamente un incidente cuando ocurre alguna de las siguientes situaciones:

  • Condiciones de umbral de métricas:

    • Llega una observación que indica que no se incumplió el umbral.
    • No llega ninguna observación, la condición está configurada para cerrar los incidentes cuando estas dejan de llegar y el estado del recurso subyacente es desconocido o no está inhabilitado.

    • No llega ninguna observación sobre la duración del cierre automático de la política de alertas, y la condición no está configurada para cerrar los incidentes de forma automática cuando estas dejen de llegar. Para configurar la duración del cierre automático, puedes usar la consola de Google Cloud o la API de Cloud Monitoring. De forma predeterminada, la duración del cierre automático es de siete días. La duración mínima del cierre automático es de 30 minutos.

  • Condiciones de ausencia de métricas:

    • Se produce una observación.
    • No llega ninguna observación durante 24 horas después del vencimiento del cierre automático de la política de alertas. Para configurar la duración del cierre automático, puedes usar la consola de Google Cloud o la API de Cloud Monitoring. De forma predeterminada, la duración del cierre automático es de siete días.
  • Condiciones de previsión:

    • Se produce una previsión y predice que las series temporales no infringirán el umbral dentro de la ventana de previsión.
    • Ninguna observación llega durante 10 minutos, la condición está configurada para cerrar los incidentes cuando las observaciones dejan de llegar y el estado del recurso subyacente es desconocido o no está inhabilitado.

    • No llega ninguna observación sobre la duración del cierre automático de la política de alertas, y la condición no está configurada para cerrar los incidentes de forma automática cuando estas dejen de llegar.

Por ejemplo, una política de alertas generó un incidente porque la latencia de la respuesta HTTP fue mayor de 2 segundos durante 10 minutos consecutivos. Si la siguiente medición de la latencia de respuesta HTTP es menor o igual que dos segundos, el incidente se cierra. Del mismo modo, si no se reciben datos durante siete días, el incidente se cierra.

Para cerrar un incidente, haz lo siguiente:

  1. En el panel Incidentes de la página Alertas, haz clic en Ver todos los incidentes.
  2. En la página Incidentes, busca el incidente que deseas cerrar y, luego, realiza una de las siguientes acciones:

    • Haz clic en  Ver más y, luego, selecciona Cerrar incidente.
    • Abre la página de detalles del incidente y, luego, haz clic en Cerrar incidente.

Si ves el mensaje Unable to close incident with active conditions, no se puede cerrar el incidente porque los datos se recibieron en el período de alerta más reciente.

Si ves el mensaje Unable to close incident. Please try again in a few minutes., no se pudo cerrar el incidente debido a un error interno.

Retención y límites de datos

Para obtener información sobre los límites y el período de retención de incidentes, consulta Límites de alertas y verificaciones de tiempo de actividad.

¿Qué sigue?

* Para obtener un tratamiento conceptual detallado de las políticas de alertas, consulta Comportamiento de las alertas.