Incidentes para alertas basadas en métricas

Un incidente es un registro de la activación de una política de alertas. Cloud Monitoring abre un incidente cuando se cumple una condición de una política de alertas.

En esta página, se describe cómo puedes ver, investigar y administrar incidentes para las políticas de alertas basadas en métricas.

Detecta incidentes

Para ver una lista de incidentes, haz lo siguiente:

  1. En la barra de herramientas de Cloud Console, haz clic en el  Menú de navegación y, luego, selecciona Monitoring:

    Ir a Monitoring

  2. En el panel de navegación de Monitoring, selecciona  Alertas.

    • En el panel Resumen, se muestra la cantidad de incidentes abiertos.
    • En el panel Incidents, se muestran los incidentes más recientes. Para ocultar incidentes cerrados en la tabla, haz clic en Ocultar incidentes cerrados.

Encuentra incidentes más antiguos

En el panel Incidentes en la página Alertas, se muestran los incidentes abiertos más recientes. Para ubicar incidentes anteriores, realiza una de las siguientes acciones:

  • Para desplazarte por las entradas de la tabla Incidentes, haz clic en  Más recientes o  Más antiguos.

  • Para navegar a la página Incidentes, haga clic en Ver todos los incidentes. En la página Incidentes, puedes hacer todo lo siguiente:

    • Ocultar incidentes cerrados: Para enumerar solo los incidentes abiertos en la tabla, haz clic en Ocultar incidentes cerrados.
    • Filtrar incidentes: para obtener información sobre cómo agregar filtros, consulta Filtra incidentes.
    • Confirmar, silenciar o cerrar un incidente: Para acceder a estas opciones, haz clic en  Más opciones en la fila del incidente y realiza una selección a partir de el menú. Para obtener más información, consulta Administra incidentes.

Filtra incidentes

Cuando ingresas un valor en la barra de filtros, solo los incidentes que coinciden con el filtro se enumeran en la tabla Incidentes. Si agregas varios filtros, se muestra un incidente solo si cumple con todos los filtros.

Para agregar un filtro a la tabla de incidentes, haz lo siguiente:

  1. En la página Incidentes, haz clic en  Filtrar tabla y, luego, selecciona una propiedad de filtro. Las propiedades de filtro incluyen lo siguiente:

    • Estado del incidente
    • Nombre de la política de alertas
    • Cuando se abrió o cerró el incidente
    • Tipo de métrica
    • Tipo de recurso
  2. Selecciona un valor del menú secundario o ingresa un valor en la barra de filtros.

    Por ejemplo, si seleccionas Tipo de métrica y, luego, ingresas usage_time, es posible que solo veas las siguientes opciones en el menú secundario:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Investiga incidentes

Para ver los detalles de un incidente, debes tener, como mínimo, la función de administración de identidades y accesos de roles/monitoring.viewer. Para obtener más información, consulta No se pueden ver los detalles del incidente debido a un error de permiso.

Una vez que encuentres el incidente que deseas investigar, ve a la página Detalles del incidente correspondiente. Para ver los detalles, haz clic en el resumen de incidentes, en la tabla de incidentes, ya sea en la página Alertas o en la página Incidentes.

Como alternativa, si recibiste una notificación que incluye un vínculo al incidente, haz clic en ese vínculo para ver los detalles del incidente.

En la siguiente captura de pantalla, se muestra la página de detalles de un incidente:

En la página de detalles, se proporciona información resumida y herramientas de investigación para un incidente.

En la página Detalles del incidente, se proporciona la siguiente información:

  • Información de estado, incluida la siguiente:

    • Nombre: El nombre de la política de alertas que causó este incidente.
    • Estado: El estado del incidente: abierto, confirmado o cerrado.
    • Duración: Es el período durante el cual el incidente estuvo abierto.
  • Información sobre la política de alertas que causó el incidente:

    • Condición: Es la condición en la política de alertas que causó el incidente.
    • Mensaje: Una breve explicación de la causa según la configuración de la condición en la política de alertas. Este panel siempre se propaga.
    • Documentación: Es la documentación (opcional) para las notificaciones proporcionadas cuando se creó la política de alertas. Esta información puede incluir una descripción de lo que supervisa la política de alertas y, además, sugerencias para mitigarlo. Si omitiste este campo cuando creaste la política de alertas, el texto en este panel será “No se configuró ninguna documentación”.
  • Etiquetas: Son las etiquetas y los valores del recurso y la métrica supervisados de la serie temporal que activó la política de alertas. Esta información puede ayudarte a identificar el recurso supervisado específico que causó el incidente.

En la página Detalles de incidentes, también se proporcionan herramientas para investigar el incidente:

  • Cronograma de incidentes: Muestra dos representaciones visuales del incidente:

    • Una barra roja encima de un eje de tiempo representa el incidente. la longitud y la posición de la barra reflejan la duración del incidente.
    • Un gráfico que muestra los datos de la serie temporal y el umbral que usa la política de alertas que causó el incidente. El incidente se abrió cuando alguna serie temporal cumplió con una condición de la política de alertas.

    El eje de tiempo indica la duración del incidente con dos puntos etiquetados. La posición de estos puntos en el eje de tiempo determina el rango de datos que se muestra en el gráfico que acompaña al cronograma de incidentes. De forma predeterminada, se coloca un punto en la apertura del incidente y uno en el cierre del incidente, o en el momento actual si el incidente aún está abierto.

    Puedes modificar el intervalo de tiempo en el cronograma de incidentes y en el gráfico:

    • Para cambiar el intervalo de tiempo que se muestra en el gráfico, arrastra cualquiera de los puntos del eje del tiempo. Con esta técnica, puedes enfocarte en intervalos específicos, por ejemplo, al principio o al final del incidente.

      Si cambias el gráfico arrastrando los puntos del eje, se establece un valor personalizado en el menú Período y se inhabilita el menú. Para habilitar el menú Período, haz clic en Restablecer.

    • Para cambiar el intervalo de tiempo que se muestra en el cronograma, selecciona un rango en el menú Período (Time Span).

  • Vínculos a otras herramientas de solución de problemas La configuración del proyecto y la política de alertas, y la antig ofedad del incidente, determinan qué vínculos están disponibles.
    • Para ver la página de detalles de la política de alertas, haz clic en Ver política.
    • Para editar la definición de la política de alertas, haz clic en Editar política.
    • Para ir a un panel de información de rendimiento del recurso, haz clic en Ver detalles del recurso.
    • Para ver las entradas de registro relacionadas en el Explorador de registros, haz clic en Ver registros. Para obtener más información, consulta Usa el Explorador de registros.
    • Para investigar los datos del gráfico, haz clic en Ver en el Explorador de métricas.
  • Anotaciones: Proporciona un registro de los hallazgos, resultados, sugerencias y otros comentarios de la investigación del incidente.
    • Para agregar una anotación, ingresa texto en el campo y haz clic en Agregar comentario.
    • Para descartar el comentario, haz clic en Cancelar.

También puedes confirmar incidentes, silenciarlos o cerrarlos desde la página Detalles del incidente. Para obtener más información, consulta Administra incidentes.

Administra los incidentes

Los incidentes están en uno de los siguientes estados:

  • Abierto: El conjunto de condiciones de la política se cumple o no hay datos que indiquen que la condición ya no se cumple. Si una política contiene varias condiciones, los incidentes se abren en función de cómo se combinan esas condiciones. Consulta Condiciones de combinación para obtener más información.

  • Confirmado: El incidente está abierto y se marcó de forma manual como confirmado. Por lo general, este estado indica que se investiga el incidente.

  • cerrado: El sistema observó que la condición dejó de cumplirse, cerró el incidente o pasaron 7 días sin una observación de que la condición se cumplió. ,

Cuando configures una política de alertas, asegúrate de que el estado estable proporcione una señal cuando todo está bien. Esto es necesario para garantizar que se pueda identificar el estado sin errores y que, si hay un incidente abierto, se cierre ese incidente. Si no hay señal que indique que se detuvo una condición de error, después de que se abre un incidente, permanece abierta durante 7 días después de que se activa la política.

Por ejemplo, si creas una política que te notifica cuando el recuento de errores es superior a 0, asegúrate de que genere un recuento de 0 cuando no haya errores. Si la política muestra un valor nulo o vacío en el estado sin errores, no hay señal para indicar cuándo se detuvieron los errores. En algunos casos, el lenguaje de consulta de Monitoring (MQL) te permite especificar un valor predeterminado que se usa cuando no hay un valor medido disponible. Para ver un ejemplo, consulta Usa la proporción.

Para administrar incidentes, la función debe incluir el permiso monitoring.alertPolicy.create o monitoring.alertPolicy.update. Estos permisos se incluyen en la función de editor de Monitoring, roles/monitoring.editor. Para obtener información detallada sobre las funciones y los permisos, consulta Control de acceso: funciones predefinidas.

Confirma incidentes

Recomendamos que marques un incidente como confirmado cuando comiences a investigar la causa del incidente.

Para marcar un incidente como confirmado, haz lo siguiente:

  • En el panel Incidentes en Alertas, haz clic en Ver todos los incidentes.
  • En la página Incidentes, busca el incidente que deseas confirmar y, luego, realiza una de las siguientes acciones:

    • Haz clic en  Más opciones y, luego, selecciona Confirmar.
    • Abre la página de detalles del incidente y haz clic en Confirmar incidente.

Silenciar incidentes

Para cerrar todos los incidentes abiertos asociados con una condición de una política de alertas, silencia un incidente asociado con esa condición. Por ejemplo, supongamos que una política de alertas tiene una condición que supervisa 10 series temporales. La condición se cumple si alguna serie temporal supera un umbral de uno. Si cinco de las series temporales superan el umbral, se crean cinco incidentes. Si silencias alguno de estos incidentes, los cinco incidentes se cierran.

Silenciar un incidente no concilia la causa subyacente. Es decir, si se cumple una condición para esa política de alertas en el siguiente ciclo de alertas, se abre un incidente para esa condición.

Cuando una política de alertas contiene varias condiciones, silenciar un incidente en una condición no cierra los incidentes abiertos en las otras condiciones.

Para silenciar un incidente, haz lo siguiente:

  • En el panel Incidentes en Alertas, haz clic en Ver todos los incidentes.
  • En la página Incidentes, busca el incidente que deseas silenciar, haz clic en  Más opciones y, luego, selecciona Silenciar asociado. estado.

Cierra incidentes

Puedes permitir que Monitoring cierre un incidente por ti o, a veces, puedes cerrar el incidente:

  • Monitoring cierra un incidente de forma automática cuando se produce alguna de las siguientes situaciones:

    • Una observación indica que la condición ya no se cumple.

    • En el caso de las condiciones de umbral de métrica, cuando no haya observaciones para la duración del cierre automático de la política de alertas Para configurar la duración del cierre automático, puedes usar Cloud Console o la API de Cloud Monitoring. De forma predeterminada, la duración del cierre automático es de siete días.

    • En el caso de las condiciones de ausencia de métricas, Monitoring cierra un incidente cuando no llegan datos durante 24 horas después de que caduque la duración del cierre automático. Para configurar la duración del cierre automático, puedes usar Cloud Console o la API de Cloud Monitoring. De forma predeterminada, la duración del cierre automático es de siete días.

    Por ejemplo, una política de alertas generó un incidente porque la latencia de respuesta de HTTP fue superior a 2 segundos durante 10 minutos consecutivos. Si la siguiente medición de la latencia de respuesta HTTP es menor o igual que dos segundos, se cierra el incidente. Del mismo modo, si no se reciben datos durante siete días, el incidente se cierra.

  • Puedes cerrar un incidente después de que dejen de llegar las observaciones.

    Si cierras un incidente y llegan los datos que indican que se cumple la condición, se crea un incidente.

    El cierre de un incidente no cierra ningún otro incidente que esté abierto para la misma política de alertas. Este comportamiento es diferente de silenciar un incidente, que cierra todos los incidentes abiertos de la misma condición.

Para cerrar un incidente, haz lo siguiente:

  1. En el panel Incidentes en Alertas, haz clic en Ver todos los incidentes.
  2. En la página Incidentes, busca el incidente que deseas cerrar y, luego, realiza una de las siguientes acciones:

    • Haz clic en  Más opciones y, luego, selecciona Cerrar este incidente.
    • Abre la página de detalles del incidente y haz clic en Cerrar incidente.

Si ves el mensaje Unable to close incident with active conditions, el incidente no se puede cerrar porque se recibieron datos en el período de alerta más reciente.

Si ves el mensaje Unable to close incident. Please try again in a few minutes., el incidente no se pudo cerrar debido a un error interno.

¿Qué sigue?