Incidentes de políticas de alertas basadas en métricas

Un incidente es un registro de cuándo se cumplen las condiciones de una política de alertas. Si una política de alertas contiene varias condiciones, la política de alertas especifica si es suficiente con que se cumpla una condición para que se cree un incidente. Normalmente, cuando se cumplen las condiciones, Cloud Monitoring abre un incidente y envía una notificación. Sin embargo, no se crean incidentes en las siguientes circunstancias:

  • La política se ha pospuesto o inhabilitado.
  • El número de políticas o incidentes de alerta supera los límites de alerta.

Por cada incidente, Monitoring crea una página Detalles del incidente que le permite gestionar el incidente y que informa sobre la información del incidente que puede ayudarle a solucionar el problema. Por ejemplo, la página Detalles del incidente muestra la cronología del incidente y un gráfico con los datos de métricas que se están monitorizando. También puedes encontrar enlaces a incidentes y entradas de registro relacionados.

En este documento se describe cómo puede encontrar sus incidencias. También se describe cómo puedes usar la página Detalles del incidente para gestionar los incidentes de las políticas de alertas basadas en métricas, que evalúan los datos de series temporales almacenados en Cloud Monitoring.

Esta función solo se admite en proyectos de Google Cloud . En el caso de las configuraciones de App Hub, seleccione el proyecto host de App Hub o el proyecto de gestión de la carpeta habilitada para aplicaciones.

Antes de empezar

Para obtener los permisos que necesitas para ver y gestionar incidencias mediante la Google Cloud consola, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos en tu proyecto:

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.

Para obtener más información sobre los roles de Cloud Monitoring, consulta Controlar el acceso con Gestión de Identidades y Accesos.

Buscar incidentes

Para ver una lista de los incidentes de tu Google Cloud proyecto, haz lo siguiente:

  1. En la Google Cloud consola, ve a la página  Alertas:

    Ve a Alertas.

    Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuya sección sea Monitorización.

  2. En la barra de herramientas de la Google Cloud consola, selecciona tu Google Cloud proyecto. En el caso de las configuraciones de App Hub, seleccione el proyecto host de App Hub o el proyecto de gestión de la carpeta habilitada para aplicaciones.

    En la página Alertas se muestra información sobre tus políticas de alertas, aplazamientos e incidentes:

    • En el panel Resumen se indica el número de incidencias abiertas.
    • En el panel Incidentes se muestran los incidentes abiertos más recientes. Para ver los incidentes más recientes en la tabla, incluidos los que están cerrados, haz clic en Mostrar incidentes cerrados.
  3. Para ver los detalles de un incidente concreto, selecciónalo en la lista.

    Se abrirá la página Detalles del incidente. Para obtener más información sobre la página Detalles del incidente, consulta la sección Investigar un incidente de esta página.

Buscar incidentes antiguos

El panel Incidentes de la página Alertas muestra los incidentes abiertos más recientes. Para localizar incidentes antiguos, haz una de las siguientes acciones:

  • Para desplazarte por las entradas de la tabla Incidentes, haz clic en  Más recientes o  Más antiguos.

  • Para ir a la página Incidentes, haga clic en Ver todos los incidentes. En la página Incidentes, puedes hacer lo siguiente:

    • Mostrar incidentes cerrados: para ver todos los incidentes en la tabla, haz clic en Mostrar incidentes cerrados.
    • Filtrar incidencias: para obtener información sobre cómo añadir filtros, consulte Filtrar incidencias.
    • Confirmar o cerrar un incidente, o posponer su política de alertas. Para acceder a estas opciones, haz clic en  Más opciones en la fila del incidente y selecciona una opción del menú. Para obtener más información, consulta Gestionar incidencias.

Filtra incidentes

Cuando introduce un valor en la barra de filtros, en la tabla Incidencias solo se muestran las incidencias que coinciden con el filtro. Si añade varios filtros, solo se mostrará un incidente si cumple todos los filtros.

Para añadir un filtro a la tabla de incidencias, sigue estos pasos:

  1. En la página Incidentes, haga clic en  Filtrar tabla y, a continuación, seleccione una propiedad de filtro. Las propiedades de filtro incluyen lo siguiente:

    • Estado del incidente
    • Nombre de la política de alertas
    • Cuándo se abrió o cerró el incidente
    • Tipo de métrica
    • Tipo de recurso
  2. Selecciona un valor en el menú secundario o introduce un valor en la barra de filtros.

    Por ejemplo, si selecciona Tipo de métrica e introduce usage_time, es posible que solo vea las siguientes opciones en el menú secundario:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Investigar un incidente

La página Detalles del incidente contiene información que puede ayudarte a identificar la causa de un incidente.

Consultar datos de métricas

Para analizar el estado de su métrica antes y después de que se haya producido el incidente, utilice el gráfico Métricas de alerta. En este gráfico se muestra una cronología y la serie temporal que ha provocado que se cumpla la condición de tu política de alertas.

Puede ajustar el intervalo de la cronología para buscar tendencias y patrones en los datos de métricas en relación con el incidente:

  • Para alternar entre mostrar solo las series temporales que han provocado que se cumpla la condición y mostrar todas las series temporales que evalúa la condición, haga clic en Mostrar todas las series temporales.

  • Para cambiar el periodo que se muestra en el gráfico, puede usar el selector de periodo de la barra de herramientas o destacar periodos en el gráfico con el puntero.

También puede analizar sus datos de métricas con más detalle en el explorador de métricas. Para ello, vaya al gráfico Métricas de alerta y haga clic en Explorar datos. De forma predeterminada, el Explorador de métricas agrega y filtra los datos de métricas para que el gráfico de métricas se ajuste a la serie temporal que se muestra en la cronología Métricas de alerta.

Consultar entradas de registro

El panel Registros de la página Detalles del incidente muestra las entradas de registro que coinciden con el tipo de recurso y las etiquetas del recurso monitorizado de tu métrica. Puedes analizar estas entradas de registro para encontrar información adicional que te ayude a solucionar el incidente.

  • Para ver las entradas de registro en el Explorador de registros, haz clic en Ver en el Explorador de registros y, a continuación, selecciona un proyecto de ámbito. El Explorador de registros proporciona herramientas adicionales para analizar los datos de las entradas de registro, como una cronología de cuándo se crearon las entradas de registro relacionadas.
  • Para ver y editar la consulta usada para filtrar las entradas de registro en el Explorador de métricas, haz clic en Explorar datos.

Ver información de la aplicación

Para ver las políticas de alertas asociadas a una aplicación de App Hub, ve a la sección Asociada a la aplicación. En esta sección se muestra el ID de la aplicación y enlaces a un panel de control con información sobre la aplicación. En la segunda entrada se muestra una carga de trabajo o un servicio, y se incluye un enlace a un panel de control.

Ver información complementaria

En la sección Etiquetas se muestran las etiquetas y los valores del recurso monitorizado y de la métrica de la serie temporal que ha provocado el incidente, así como las etiquetas de usuario definidas en la política de alertas. Esta información puede ayudarte a identificar el recurso monitorizado específico que ha provocado el incidente. Para obtener más información, consulta Anotar incidencias con etiquetas.

En la sección Documentación se muestra la plantilla de documentación de las notificaciones que has proporcionado al crear la política de alertas. Esta información puede incluir una descripción de lo que monitoriza la política de alertas y consejos para mitigar el problema. Para obtener más información, consulta Anotar notificaciones con documentación definida por el usuario.

Si no has configurado la documentación de tu política de alertas, en el panel Documentación se mostrará el mensaje "No se ha configurado ninguna documentación".

Para ayudarte a descubrir los problemas subyacentes de tu aplicación, puedes consultar los incidentes relacionados con otras condiciones de la política de alertas.

En la sección Incidentes relacionados se muestra una lista de incidentes que cumplen una de las siguientes condiciones:

  • El incidente se creó cuando se cumplió una condición de la misma política de alertas.
  • El incidente comparte una etiqueta con el incidente que se muestra en la página Detalles del incidente.

Gestionar incidentes

Los incidentes pueden tener uno de los siguientes estados:

  •  Abierta: Se cumplen las condiciones de la política de alertas o no hay datos que indiquen que ya no se cumplen. Si una política de alertas contiene varias condiciones, los incidentes se abren en función de cómo se combinen esas condiciones. Para obtener más información, consulta Políticas con varias condiciones.

  •  Registrado: el incidente está abierto y se ha marcado manualmente como registrado. Normalmente, este estado indica que se está investigando el incidente.

  •  Cerrado: El sistema ha detectado que ya no se cumple la condición, has cerrado el incidente o han pasado 7 días sin que se haya observado que se sigue cumpliendo la condición.

Cuando configures una política de alertas, asegúrate de que el estado estable proporcione una señal cuando todo esté bien. Esto es necesario para asegurarse de que se pueda identificar el estado sin errores y, si hay un incidente abierto, para que se cierre. Si no hay ninguna señal que indique que ha dejado de producirse un error, después de abrir un incidente, este permanecerá abierto durante 7 días después de que se active la política de alertas.

Por ejemplo, si crea una política de alertas que le avise cuando el número de errores sea superior a 0, asegúrese de que genere un recuento de 0 errores cuando no haya ninguno. Si la política de alertas devuelve un valor nulo o vacío en el estado sin errores, no habrá ninguna señal que indique cuándo han dejado de producirse los errores. Si es necesario, PromQL te permite especificar un valor predeterminado que se usa cuando no hay ningún valor medido disponible.

Registrar incidentes

Te recomendamos que marques un incidente como confirmado cuando empieces a investigar la causa del incidente.

Para marcar un incidente como confirmado, siga estos pasos:

  1. En el panel Incidentes de la página Alertas, haga clic en Ver todos los incidentes.
  2. En la página Incidentes, busca el incidente que quieras confirmar y, a continuación, haz una de las siguientes acciones:

    • Haz clic en  Más opciones y, a continuación, selecciona Confirmar.
    • Abre la página de detalles del incidente y haz clic en Confirmar incidente.

Si tu política de alertas está configurada para enviar notificaciones repetidas, reconocer un incidente no detendrá las notificaciones. Para detenerlos, haz una de las siguientes acciones:

  • Crea una suspensión para la política de alertas.
  • Inhabilita la política de alertas.

Posponer una política de alertas

Para evitar que Monitoring cree incidentes y envíe notificaciones durante un periodo específico, pospón la política de alertas relacionada. Cuando aplazas una política de alertas, Monitoring también cierra todos los incidentes relacionados con ella.

Para posponer una alerta de un incidente que estés viendo, haz lo siguiente:

  1. En la página Detalles del incidente, haz clic en Aplazar política.

  2. Selecciona la duración de la repetición. Después de seleccionar la duración de la repetición, esta empezará inmediatamente.

También puedes posponer una política de alertas desde la página Incidentes. Para ello, busca el incidente que quieras posponer, haz clic en  Más opciones y, a continuación, selecciona Posponer. Puedes posponer las políticas de alertas durante las interrupciones para evitar que se envíen más notificaciones durante el proceso de solución de problemas.

Cerrar incidentes

Puedes dejar que Monitoring cierre un incidente por ti o cerrarlo cuando dejen de llegar observaciones. Si cierras un incidente y, después, llegan datos que indican que se cumple la condición, se crea un nuevo incidente. Cuando cierras un incidente, no se cierran otros incidentes que estén abiertos para la misma condición. Si pospones una política de alertas, los incidentes abiertos se cierran cuando empieza la posposición.

Monitoring cierra automáticamente un incidente cuando se produce alguna de las siguientes situaciones:

  • Condiciones de umbral de métrica:

    • Llega una observación que indica que no se ha superado el umbral.
    • No llegan observaciones, la condición está configurada para cerrar incidentes cuando dejen de llegar observaciones y el estado del recurso subyacente sea desconocido o no esté inhabilitado.

    • No se reciben observaciones durante el periodo de cierre automático de la política de alertas y la condición no está configurada para cerrar automáticamente los incidentes cuando dejen de recibirse observaciones. Para configurar la duración del cierre automático, puedes usar la consola Google Cloud o la API Cloud Monitoring. De forma predeterminada, la duración del cierre automático es de siete días. La duración mínima de cierre automático es de 30 minutos.

  • Condiciones de ausencia de métrica:

    • Se produce una observación.
    • No se reciben observaciones durante 24 horas después de que caduque la duración de cierre automático de la política de alertas. Para configurar la duración del cierre automático, puedes usar la Google Cloud consola o la API Cloud Monitoring. De forma predeterminada, la duración del cierre automático es de siete días.
  • Condiciones de previsión:

    • Se genera una previsión que predice que la serie temporal no superará el umbral en la ventana de previsión.
    • No se reciben observaciones durante 10 minutos, la condición está configurada para cerrar los incidentes cuando dejen de llegar observaciones y el estado del recurso subyacente sea desconocido o no esté inhabilitado.

    • No se reciben observaciones durante el periodo de cierre automático de la política de alertas y la condición no está configurada para cerrar automáticamente los incidentes cuando dejen de recibirse observaciones.

Por ejemplo, una política de alertas ha generado un incidente porque la latencia de respuesta HTTP ha sido superior a 2 segundos durante 10 minutos consecutivos. Si la siguiente medición de la latencia de respuesta HTTP es inferior o igual a dos segundos, se cierra el incidente. Del mismo modo, si no se reciben datos durante siete días, el incidente se cierra.

Para cerrar un incidente, sigue estos pasos:

  1. En el panel Incidentes de la página Alertas, haga clic en Ver todos los incidentes.
  2. En la página Incidentes, busque el incidente que quiera cerrar y, a continuación, haga una de las siguientes acciones:

    • Haz clic en  Ver más y, a continuación, selecciona Cerrar incidencia.
    • Abre la página Detalles del incidente de ese incidente y haz clic en Cerrar incidente.

Si ves el mensaje Unable to close incident with active conditions, no se puede cerrar el incidente porque se han recibido datos en el periodo de alerta más reciente.

Si ves el mensaje Unable to close incident. Please try again in a few minutes., significa que no se ha podido cerrar el incidente debido a un error interno.

Conservación y límites de los datos

Para obtener información sobre los límites y el periodo de conservación de los incidentes, consulta Límites de las alertas.

Siguientes pasos