Incidentes de alertas basadas en métricas

Un incidente, también llamado alerta, es un registro de la activación de una política de alertas. A menos que una política de alertas esté pospuesta o inhabilitada, Cloud Monitoring abre un incidente cuando se activa una condición de una política de alertas. El incidente contiene información que puedes usar para investigar la causa de la notificación.

En este documento, se describe cómo puedes ver, investigar y administrar incidentes para las políticas de alertas basadas en métricas.

Encuentra incidentes

Para ver una lista de incidentes, haz lo siguiente:

  1. En la barra de herramientas de la consola, haz clic en Menú de navegación y, luego, selecciona Monitoring:

    Ir a Monitoring

  2. En el panel de navegación de Monitoring, selecciona  Alertas.

    • En el panel Resumen, se muestra la cantidad de incidentes abiertos.
    • En el panel Incidentes, se muestran los incidentes más recientes. Para ocultar los incidentes cerrados en la tabla, haz clic en Ocultar incidentes cerrados.
  3. Opcional: Para ver los detalles de un incidente específico, selecciona el incidente en la lista. Se abrirá la página Detalles del incidente. Para obtener información sobre esta página, consulta la sección Investiga incidentes de esta página.

Encuentra incidentes más antiguos

En el panel Incidentes en Alertas, se muestran los incidentes abiertos más recientes. Para ubicar los incidentes más antiguos, realiza una de las siguientes acciones:

  • Para desplazarte por las entradas de la tabla Incidentes, haz clic en  Más reciente o  Más antiguo.

  • Para navegar a la página Incidentes, haz clic en Ver todos los incidentes. En la página Incidentes, puedes hacer lo siguiente:

    • Ocultar incidentes cerrados: para enumerar solo los incidentes abiertos en la tabla, haz clic en Ocultar incidentes cerrados.
    • Filtrar incidentes: si deseas obtener información para agregar filtros, consulta Filtrar incidentes.
    • Confirmar, silenciar o cerrar un incidente: Para acceder a estas opciones, haz clic en Más opciones en la fila del incidente y selecciona una opción del menú. Para obtener más información, consulta Administra incidentes.

Filtra incidentes

Cuando ingresas un valor en la barra de filtros, solo los incidentes que coinciden con el filtro se enumeran en la tabla Incidentes. Si agregas varios filtros, se mostrará un incidente solo si cumple con todos ellos.

Para agregar un filtro a la tabla de incidentes, haz lo siguiente:

  1. En la página Incidentes, haz clic en  Filtrar tabla y, luego, selecciona una propiedad de filtro. Las propiedades de filtro incluyen lo siguiente:

    • Estado del incidente
    • Nombre de la política de alertas
    • Cuando se abrió o cerró el incidente
    • Tipo de métrica
    • Tipo de recurso
  2. Selecciona un valor del menú secundario o ingresa un valor en la barra de filtros.

    Por ejemplo, si seleccionas Tipo de métrica y, luego, ingresas usage_time, es posible que solo veas las siguientes opciones en el menú secundario:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Investiga incidentes

Para ver los detalles de un incidente, debes tener, como mínimo, la función de administración de identidades y accesos de roles/monitoring.viewer. Para obtener más información, consulta No se pueden ver los detalles del incidente debido a un error de permiso.

Una vez que hayas encontrado el incidente que deseas investigar, ve a la página Detalles del incidente. Para ver los detalles, haz clic en el resumen del incidente en la tabla de incidentes en la página Alertas o Incidentes.

Como alternativa, si recibiste una notificación que incluye un vínculo al incidente, puedes usar ese vínculo para ver los detalles del incidente.

En la siguiente captura de pantalla, se muestra la página de detalles de un incidente:

En la página de detalles, se proporciona información resumida y herramientas de investigación para un incidente.

En la página Detalles del incidente, se proporciona la siguiente información:

  • Información de estado, incluida la siguiente:

    • Nombre: El nombre de la política de alertas que causó este incidente.
    • Estado: El estado del incidente: abierto, confirmado o cerrado.
    • Duración: El tiempo en el que el incidente estuvo abierto.
  • Información sobre la política de alertas que causó el incidente:

    • Panel Condición (Condition): identifica la condición en la política de alertas que causó el incidente.

    • Mensaje: Proporciona una explicación breve de la causa en función de la configuración de la condición en la política de alertas. Este panel siempre se propaga.

    • Panel Documentation: Muestra la plantilla de documentación para las notificaciones que proporcionaste cuando creaste la política de alertas. Esta información puede incluir una descripción de lo que supervisa la política de alertas y sugerencias para la mitigación.

      Si omitiste este campo cuando creaste la política de alertas, este panel informará que no se configuró ninguna documentación.

  • Etiquetas: Informa lo siguiente:
    • Las etiquetas y los valores de la métrica y el recurso supervisados de las series temporales que activaron la política de alertas. Esta información puede ayudarte a identificar el recurso supervisado específico que causó el incidente.

      Cuando usas variables en la documentación para etiquetas de métricas, Monitoring omite la etiqueta de las notificaciones cuando el valor de la etiqueta no comienza con un dígito, una letra, una barra diagonal (/) o un signo igual (=).

    • Cualquier etiqueta y valores especificados por el usuario que hayas definido en la política de alertas. Puedes usar estas etiquetas para identificar y organizar políticas de alertas. Las etiquetas asociadas con una política se enumeran en la sección Etiquetas de política, mientras que las etiquetas definidas como parte de una condición se enumeran en la sección Etiquetas de métricas. Para ver ejemplos de uso, consulta Agrega niveles de gravedad a una política de alertas.

En la página Detalles de incidentes, también se proporcionan herramientas para investigar el incidente:

  • Cronograma del incidente: Se muestran dos representaciones visuales del incidente:

    • Una barra roja sobre un eje de tiempo representa el incidente; la longitud y la posición de la barra reflejan la duración del incidente.
    • En un gráfico, se muestran los datos de serie temporal y el umbral que usa la política de alertas que causó el incidente. El incidente se abrió cuando algunas series temporales cumplieron una condición de la política de alertas.

    El eje de tiempo indica la duración del incidente con dos puntos etiquetados. La posición de estos puntos en el eje temporal determina el rango de datos que se muestra en el gráfico que acompaña al cronograma del incidente. De forma predeterminada, se coloca un punto al comienzo del incidente y otro al final, o en el momento actual si el incidente aún está abierto.

    Puedes modificar el intervalo de tiempo en el cronograma de incidentes y el gráfico:

    • Para cambiar el intervalo de tiempo que se muestra en el gráfico, arrastra cualquiera de los puntos del eje de tiempo. Si usas esta técnica, puedes enfocarte en intervalos específicos, por ejemplo, alrededor del principio o el final del incidente.

      Para cambiar el gráfico mediante el arrastre de los puntos en el eje, se establece un valor personalizado en el menú Intervalo de tiempo y se inhabilita el menú. Para habilitar el menú Intervalo, haz clic en Restablecer.

    • Para cambiar el intervalo de tiempo que se muestra en el cronograma, selecciona un intervalo en el menú Intervalo de tiempo.

  • Vínculos a otras herramientas de solución de problemas La configuración de tu proyecto y la política de alertas, y la antigüedad del incidente, determinan qué vínculos están disponibles.
    • Para ver la página de detalles de la política de alertas, haz clic en Ver política.
    • Para editar la definición de la política de alertas, haz clic en Editar política.
    • Para ir a un panel de información de rendimiento del recurso, haz clic en Ver detalles del recurso.
    • Para ver las entradas de registro relacionadas en el explorador de registros, haz clic en Ver registros. Para obtener más información, consulta Usa el Explorador de registros.
    • Para investigar los datos del gráfico, haz clic en Ver en el Explorador de métricas.
  • Anotaciones: Proporciona un registro de tus hallazgos, resultados, sugerencias y otros comentarios provenientes de tu investigación del incidente.
    • Para agregar una anotación, ingresa texto en el campo y haz clic en Agregar comentario.
    • Para descartar el comentario, haz clic en Cancelar.

También puedes confirmar, silenciar o cerrar incidentes desde la página Detalles del incidente. Para obtener más información, consulta Administra incidentes.

Administra los incidentes

Los incidentes están en uno de los siguientes estados:

  • Abierto: Se cumple el conjunto de condiciones de la política o no hay datos que indiquen que la condición ya no se cumple. Si una política contiene varias condiciones, los incidentes se abren en función de cómo se combinan esas condiciones. Consulta Condiciones de combinación para obtener más información.

  • Confirmado: El incidente está abierto y se marcó de forma manual como confirmado. Por lo general, este estado indica que se investiga el incidente.

  • Cerrada: El sistema observó que la condición dejó de cumplirse, que se cerró el incidente o que pasaron 7 días sin una observación de que la condición seguía cumpliendo.

Cuando configures una política de alertas, asegúrate de que el estado estable proporcione una señal cuando todo esté bien. Esto es necesario para garantizar que se pueda identificar el estado sin errores y, si hay un incidente abierto, que se cierre ese incidente. Si no hay señal que indique que se detuvo una condición de error, después de que se abre un incidente, permanece abierta durante 7 días después de que se activa la política.

Por ejemplo, si creas una política que te notifica cuando el recuento de errores es superior a 0, asegúrate de que genere un recuento de 0 errores cuando no haya errores. Si la política muestra un valor nulo o vacío en el estado sin errores, no hay señal para indicar cuándo se detuvieron los errores. En algunas situaciones, el lenguaje de consulta de Monitoring (MQL) admite la capacidad de especificar un valor predeterminado que se usa cuando no hay un valor medido disponible. Para ver un ejemplo, consulta Usa la proporción.

Confirma incidentes

Te recomendamos que marques un incidente como confirmado cuando comiences a investigar la causa del incidente.

Para marcar un incidente como confirmado, haz lo siguiente:

  • En el panel Incidentes en Alertas, haz clic en Ver todos los incidentes.
  • En la página Incidentes, busca el incidente que deseas confirmar y, luego, realiza una de las siguientes acciones:

    • Haz clic en  Más opciones y, luego, selecciona Confirmar.
    • Abre la página de detalles del incidente y, luego, haz clic en Confirmar incidente.

Silencia incidentes

Para cerrar todos los incidentes abiertos asociados con una condición de una política de alertas, silencia un incidente asociado con esa condición. Por ejemplo, supongamos que una política de alertas tiene una condición que supervisa 10 series temporales. La condición se cumple si alguna serie temporal supera un umbral de uno. Si cinco de las series temporales superan el umbral, se crean cinco incidentes. Si silencias uno de estos incidentes, se cerrarán los cinco.

Silenciar un incidente no concilia la causa subyacente. Es decir, si se cumple una condición para esa política de alertas en el siguiente ciclo de alertas, se abre un incidente correspondiente a esa condición.

Cuando una política de alertas contiene varias condiciones, silenciar un incidente en una condición no cierra ningún incidente que esté abierto para las otras condiciones.

Para silenciar un incidente, haz lo siguiente:

  • En el panel Incidentes en Alertas, haz clic en Ver todos los incidentes.
  • En la página Incidentes, busca el incidente que deseas silenciar, haz clic en Más opciones y, luego, selecciona Silenciar condición asociada.

Cierra incidentes

Puedes permitir que Monitoring cierre un incidente por ti o, a veces, puedes cerrar el incidente:

  • Monitoring cierra automáticamente un incidente cuando ocurre alguna de las siguientes situaciones:

    • Una observación indica que la condición ya no se cumple.

    • Para las condiciones del umbral de la métrica, cuando no llegan observaciones durante el cierre automático de la política de alertas. Para configurar la duración del cierre automático, puedes usar la consola o la API de Cloud Monitoring. De forma predeterminada, la duración del cierre automático es de siete días. La duración mínima del cierre automático es de 30 minutos.

    • En el caso de las condiciones de ausencia de métricas, Monitoring cierra un incidente cuando no llegan datos durante las 24 horas posteriores al vencimiento de la duración del cierre automático de la política de alertas. Para configurar la duración del cierre automático, puedes usar la consola o la API de Cloud Monitoring. De forma predeterminada, la duración del cierre automático es de siete días.

    Por ejemplo, una política de alertas generó un incidente porque la latencia de respuesta HTTP fue superior a 2 segundos durante 10 minutos consecutivos. Si la siguiente medición de la latencia de respuesta HTTP es menor o igual que dos segundos, el incidente se cierra. Del mismo modo, si no se reciben datos durante 7 días, se cierra el incidente.

  • Puedes cerrar un incidente después de que dejan de llegar las observaciones.

    Si cierras un incidente y llegan los datos que indican que se cumple la condición, se crea un incidente.

    Cerrar un incidente no cierra ningún otro incidente que esté abierto para la misma política de alertas. Este comportamiento es diferente a silenciar un incidente, que cierra todos los incidentes abiertos para la misma condición.

Para cerrar un incidente, haz lo siguiente:

  1. En el panel Incidentes en Alertas, haz clic en Ver todos los incidentes.
  2. En la página Incidentes, busca el incidente que deseas cerrar y, luego, realiza una de las siguientes acciones:

    • Haz clic en  Más opciones y, luego, selecciona Cerrar este incidente.
    • Abre la página de detalles del incidente y, luego, haz clic en Cerrar incidente.

Si ves el mensaje Unable to close incident with active conditions, no se puede cerrar el incidente porque se recibieron datos en el período de alertas más reciente.

Si ves el mensaje Unable to close incident. Please try again in a few minutes., entonces el incidente no se pudo cerrar debido a un error interno.

¿Qué sigue?