Incidentes para políticas de alertas basadas en métricas

Un incidente es un registro del momento en que la condición o se cumplen las condiciones. Por lo general, cuando se cumplen las condiciones, Cloud Monitoring abre un incidente y envía una notificación. Sin embargo, incidentes no se crean cuando la política se pospone o se inhabilita, cuando demasiados incidentes abiertos para esa política o cuando el recurso está inhabilitado. Además, cuando una política de alertas contiene múltiples condiciones, la política de alertas especifica si cumplir suficientes para crear un incidente.

En este documento, se describe cómo puedes ver, investigar y administrar los incidentes para políticas de alertas basadas en métricas.

Antes de comenzar

Asegúrate de tener los permisos necesarios:

Para obtener más información sobre los roles de Cloud Monitoring, consulta Controla el acceso con Identity and Access Management.

Encuentra incidentes

Para ver una lista de incidentes, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página  Alertas.

    Ir a las Alertas

    Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuyo subtítulo es Monitoring.

    • En el panel Resumen, se muestra la cantidad de incidentes abiertos.
    • En el panel Incidentes, se muestran los incidentes más recientes. Para enumerar los incidentes más recientes en la tabla, incluidos los que están cerrados, haz clic en Mostrar incidentes cerrados.
  2. Opcional: Para ver los detalles de un incidente específico, selecciona en la lista. Se abrirá la página Detalles del incidente. Información acerca de esta página, consulta la sección Investiga incidentes de esta página.

Encuentra incidentes más antiguos

En el panel Incidentes en Alertas, se muestran los incidentes abiertos más recientes. Para ubicar los incidentes más antiguos, realiza una de las siguientes acciones:

  • Para desplazarte por las entradas de la tabla Incidentes, haz clic en  Más reciente o  Más antiguo.

  • Para navegar a la página Incidentes, haz clic en Ver todos los incidentes. Desde la página Incidentes, puedes hacer todo lo siguiente:

    • Mostrar incidentes cerrados: Para enumerar todos los incidentes en la tabla, Haz clic en Mostrar incidentes cerrados.
    • Filtra incidentes: Para obtener información sobre cómo agregar filtros, consulta Filtrar incidentes.
    • Confirma o cierra un incidente, o pospone su política de alertas. Para acceder a estas opciones, haz clic en  Más opciones en la fila del incidente. y elige una opción en el menú. Para obtener más información, consulta Administra incidentes.

Filtrar incidentes

Cuando ingresas un valor en la barra de filtros, solo los incidentes que coinciden con el filtro se enumeran en la tabla Incidentes. Si agregas varios filtros, solo se muestra un incidente si cumple con todos los filtros.

Para agregar un filtro a la tabla de incidentes, haz lo siguiente:

  1. En la página Incidentes, haz clic en  Filtrar tabla y, luego, selecciona una propiedad de filtro. Las propiedades de filtro incluyen lo siguiente:

    • Estado del incidente
    • Nombre de la política de alertas
    • Cuando se abrió o cerró el incidente
    • Tipo de métrica
    • Tipo de recurso
  2. Selecciona un valor del menú secundario o ingresa un valor en la barra de filtros.

    Por ejemplo, si seleccionas Tipo de métrica y, luego, ingresas usage_time, entonces Es posible que solo veas las siguientes opciones en el menú secundario:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Investiga incidentes

Luego de encontrar el incidente que quieres investigar, ve a la En la página Detalles del incidente de ese incidente. Para ver los detalles, seleccionar el resumen de incidentes en la tabla de incidentes del En la página Alertas o Incidentes.

Como alternativa, si recibiste una notificación con un vínculo al puedes usar ese vínculo para ver los detalles.

En la página Detalles del incidente, se proporciona la siguiente información:

  • Información de estado, incluida la siguiente:

    • Nombre: El nombre de la política de alertas que provocó esto el incidente.
    • Estado: El estado del incidente (abierto, confirmado) o cerrado.
    • Gravedad: La gravedad del incidente.
      • Sin gravedad
      • Crítico
      • Error
      • Advertencia
    • Duración: Es la cantidad de tiempo que se mantuvo el incidente. abiertos.
  • Información sobre la política de alertas que causó el incidente:

    • Panel Condición: Identifica la condición en la alerta. política que causó el incidente.

    • Panel Mensaje: Proporciona una explicación breve de la causa. según la configuración de la condición en la política de alertas. Este panel siempre se propaga.

    • Panel Documentation: Muestra la plantilla de documentación para que proporcionaste cuando creaste la política de alertas. Esta información puede incluir una descripción supervisa políticas y, además, incluye sugerencias para la mitigación.

      Si omitiste este campo cuando creaste la política de alertas, este panel informa que no se puede configurados”.

  • Etiquetas: Informa lo siguiente:
    • Las etiquetas y los valores del recurso y la métrica supervisados una serie temporal que causó el incidente. Esta información puede ayudarte a identificar los componentes recurso que causó el incidente.

      Cuando usas variables en la documentación para las etiquetas de métricas, Monitoring omite la etiqueta de las notificaciones cuando el valor de la etiqueta no comienza con un dígito, una letra una barra diagonal (/), o un signo igual (=).

    • Cualquier etiqueta y valor especificados por el usuario que definiste en la alerta . Puedes usar estas etiquetas para organizar e identificar y las políticas de alertas. Se enumeran las etiquetas asociadas con una política en la sección Etiquetas de política, mientras que las etiquetas definidas como parte de una condición se enumeran en la sección Etiquetas de métricas. Metadatos las etiquetas solo se muestran cuando hay un filtro o agrupamiento que depende de la etiqueta. Para obtener más información, consulta Anota alertas con etiquetas.

En la página Detalles de incidentes, también se proporcionan herramientas para investigar el incidente:

  • Cronograma de incidentes: muestra dos representaciones visuales del incidente:

    • En la línea de tiempo, una barra roja representa la hora de un incidente. el largo y la posición de la barra reflejan la duración del incidente.
    • En un gráfico, se muestran los datos de series temporales y el umbral la política de alertas que causó el incidente. El incidente fue abierto cuando algunas series temporales cumplen con una condición de la política de alertas.

    El eje de tiempo indica la duración del incidente con dos puntos. La posición de estos puntos en el eje de tiempo determina el rango de datos que se muestran en el gráfico que acompaña a la línea de tiempo del incidente. De de forma predeterminada, se coloca un punto en el inicio del incidente y otro al cierre del incidente o al momento actual si este se siguen abiertos.

    Puedes modificar el intervalo de tiempo en la línea de tiempo del incidente y el gráfico:

    • Para cambiar el intervalo de tiempo que se muestra en el gráfico, arrastra cualquiera de los puntos a lo largo del eje de tiempo. Con esta técnica, puedes enfocarte en intervalos específicos; por ejemplo, cerca del principio o el final del incidente.

      Si cambia el gráfico arrastrando los puntos en el eje, se establece una configuración en el menú Intervalo de tiempo e inhabilita el menú. Para habilitar el menú Intervalo de tiempo, haz clic en Restablecer.

    • Para cambiar el intervalo de tiempo que se muestra en la línea de tiempo, selecciona un intervalo en el menú Intervalo de tiempo.
  • Vínculos a otras herramientas de solución de problemas La configuración de tu proyecto y la política de alertas, y la antigüedad del incidente, determinan qué vínculos están disponibles.
    • Para ver la página de detalles de la política de alertas, haz clic en Ver política.
    • Para editar la definición de la política de alertas, haz clic en Editar política.
    • Para ir a un panel con información de rendimiento del recurso, Haz clic en Ver detalles del recurso.
    • Para ver las entradas de registro relacionadas en el explorador de registros, haz clic en Ver registros. Para obtener más información, consulta Visualiza los registros con el Explorador de registros.
    • Para investigar los datos del gráfico, haz clic en Ver en Explorador de métricas.
  • Anotaciones: Proporciona un registro de tus hallazgos, resultados, sugerencias y otros comentarios provenientes de tu investigación del incidente.
    • Para agregar una anotación, ingresa texto en el campo y haz clic en Agregar comentario.
    • Para descartar el comentario, haz clic en Cancelar.

Administración de incidentes

Los incidentes están en uno de los siguientes estados:

  • Apertura: : El conjunto de condiciones de la política de alertas se cumple o no hay datos para indicar que ya no se cumple la condición. Si una política de alertas contiene varias condiciones, los incidentes se abren según sobre cómo se combinan esas condiciones. Para obtener más información, consulta Políticas con varias condiciones.

  • Confirmado: El incidente está abierto y se marcó de forma manual como confirmado. Por lo general, este estado indica que se investiga el incidente.

  • Cerrado: El sistema observó que la condición dejó de cumplirse, cerraste el incidente, o 7 días sin una observación de que la condición se siguiera cumpliendo.

Cuando configures una política de alertas, asegúrate de que y proporciona una señal cuando todo está bien. Esto es necesario para garantizar que el estado sin errores se puede identificar y, si hay un incidente abierto, para que que se cierre el incidente. Si no hay señal que indique que un error se detuvo, después de que se abre un incidente, permanece abierto durante 7 días después de que se active la política de alertas.

Por ejemplo, si creas una política de alertas que te notifica cuando de errores sea mayor que 0, asegúrate de que produzca un recuento de 0 errores cuando no hay ninguno. Si la política de alertas muestra un valor nulo o vacía en el estado sin errores, entonces no hay señal para indicar cuándo se detuvieron los errores. En algunos casos, el lenguaje de consulta de Monitoring (MQL) admite capacidad de especificar un valor predeterminado que se usa cuando no hay un valor medido está disponible. Para ver un ejemplo, consulta Proporción de uso.

Confirma incidentes

Te recomendamos que marques un incidente como confirmado cuando comiences a investigar la causa del incidente.

Para marcar un incidente como confirmado, haz lo siguiente:

  • En el panel Incidentes de la página Alertas, haz lo siguiente: Haz clic en Ver todos los incidentes.
  • En la página Incidentes, busca el incidente que deseas confirmar y, luego, realiza una de las siguientes acciones:

    • Haz clic en  Más opciones y, luego, selecciona Confirmar.
    • Abre la página de detalles del incidente y, luego, haz clic en Confirmar incidente.

Si tu política de alertas está configurada para enviar notificaciones repetidas y, luego, confirmar del incidente no detiene las notificaciones. Para detenerlos, realiza una de las siguientes acciones:

  • Crea una alerta pospuesta para la política de alertas.
  • Inhabilitar la política de alertas

Posponer una política de alertas

Para evitar que Monitoring cree incidentes y envíe durante un período específico, pospón la política de alertas relacionada. Cuando pospones una política de alertas, Monitoring también cierra incidentes relacionados con la política de alertas.

Para crear una alerta pospuesta para un incidente que estás viendo, haz lo siguiente:

  1. En la página Detalles del incidente, haz clic en Posponer.

  2. Selecciona la duración de la alerta pospuesta. Después de seleccionar la duración de la función para posponer, comienza de inmediato.

Cuando visitas la página de detalles de un incidente, puedes crear una alerta pospuesta política de alertas relacionada. Para ello, haz clic en Posponer y, luego, elige una y el tiempo de actividad. La alerta pospuesta comienza de inmediato. También puedes posponer una política de alertas desde la página Incidentes incidente que deseas posponer,  Más opciones y, luego, selecciona Posponer. Puedes posponer las políticas de alertas durante las interrupciones para evitar notificaciones durante el proceso de solución de problemas.

Cerrar incidentes

Puedes permitir que Monitoring cierre un incidente por ti y cerrar un incidente después de que dejan de llegar las observaciones. Si cierras un incidente y llegan los datos que indican la condición y, luego, se crea un incidente nuevo. Cuando se cierra un incidente, esa acción no cierra ningún otro incidente que esté abierto para el misma condición. Si pospones una política de alertas, los incidentes abiertos se cerrará cuando comience la función de posponer.

Monitoring cierra automáticamente un incidente cuando ocurre lo siguiente:

  • Condiciones del umbral de métrica:

    • Se recibe una observación que indica que el umbral no se infringió.
    • No llegan observaciones. La condición está configurada para cerrar incidentes. cuando las observaciones dejan de llegar y el estado del recurso subyacente es desconocida o no está inhabilitada.

    • No llegan observaciones sobre la duración del cierre automático de la alerta política y la condición no está configurada para cerrar incidentes automáticamente cuando las observaciones dejan de llegar. Cómo configurar el cierre automático de Cloud Storage, puedes usar la consola de Google Cloud API de Cloud Monitoring. De forma predeterminada, la duración del cierre automático es de siete días. La duración mínima del cierre automático es de 30 minutos.

  • Condiciones de ausencia de métricas:

    • Ocurre una observación.
    • No hay observaciones durante 24 horas después. vence la duración del cierre automático de la política de alertas. Para configurar la duración del cierre automático, puedes usar la consola de Google Cloud API de Cloud Monitoring. De forma predeterminada, la duración del cierre automático es de siete días.
  • Condiciones de previsión:

    • Se produce una previsión que predice que la serie temporal no incumplirá el umbral dentro del período de previsión.
    • No llega ninguna observación durante 10 minutos, la afección está configurado para cerrar incidentes cuando dejan de llegar las observaciones. el estado del recurso subyacente es desconocido o no está inhabilitado.

    • No llegan observaciones sobre la duración del cierre automático de la alerta política y la condición no está configurada para cerrar incidentes automáticamente cuando las observaciones dejan de llegar.

Por ejemplo, una política de alertas generó un incidente La latencia de respuesta HTTP fue superior a 2 segundos durante 10 minutos. Si la siguiente medición de la latencia de respuesta HTTP es menor que o igual a dos segundos, se cierra el incidente. Del mismo modo, si no se reciben datos durante siete días, se cierra el incidente.

Para cerrar un incidente, haz lo siguiente:

  1. En el panel Incidentes de la página Alertas, haz lo siguiente: Haz clic en Ver todos los incidentes.
  2. En la página Incidentes, busca el incidente que deseas cerrar y, luego, realiza una de las siguientes acciones:

    • Haz clic en  Ver más y, luego, selecciona Cerrar incidente.
    • Abre la página de detalles del incidente y, luego, haz clic en Cerrar incidente.

Si ves el mensaje Unable to close incident with active conditions, haz lo siguiente: entonces el incidente no se puede cerrar porque los datos se recibieron en el período de alerta más reciente.

Si ves el mensaje Unable to close incident. Please try again in a few minutes., y, luego, el incidente no se pudo cerrar debido a un error interno.

Retención y límites de datos

Para obtener información sobre los límites y el período de retención de los incidentes, consulta Límites de las alertas.

¿Qué sigue?

* Para ver un tratamiento conceptual detallado de las políticas de alertas, consulta Comportamiento de las políticas de alertas basadas en métricas.