Incidentes para las políticas de alertas basadas en métricas

Un incidente es un registro del momento en que la condición o se cumplen las condiciones. Por lo general, cuando se cumplen las condiciones, Cloud Monitoring abre un incidente y envía una notificación. Sin embargo, los incidentes no se crean cuando la política se pospone o inhabilita, cuando hay demasiados incidentes abiertos para esa política o cuando se sabe que el recurso subyacente está inhabilitado. Además, cuando una política de alertas contiene varias condiciones, esta especifica si cumplir una condición es suficiente para que se cree un incidente.

Para cada incidente, Monitoring crea una página Detalles del incidente que te permite administrarlo y que informa información del incidente que puede ayudarte a solucionar el problema. Por ejemplo, la página Detalles del incidente muestra el cronograma del incidente y un gráfico que muestra los datos de métricas que se supervisan. También puedes encontrar vínculos a incidentes y entradas de registro relacionados.

En este documento, se describe cómo puedes encontrar tus incidentes y cómo puedes usar la Detalles de incidentes para investigar y administrar los incidentes de políticas de alertas basadas en métricas.

Antes de comenzar

Asegúrate de tener los permisos necesarios:

Si quieres obtener los permisos que necesitas para ver y administrar incidentes con la consola de Google Cloud, solicita a tu administrador que te otorgue el los siguientes roles de IAM en tu proyecto:

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.

Para obtener más información sobre los roles de Cloud Monitoring, consulta Controla el acceso con Identity and Access Management.

Cómo encontrar incidentes

Para ver una lista de incidentes en tu proyecto de Google Cloud, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página  Alertas.

    Ir a las Alertas

    Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuyo subtítulo es Monitoring.

    • En el panel Resumen, se muestra la cantidad de incidentes abiertos.
    • En el panel Incidentes, se muestran los incidentes más recientes. Para enumerar los incidentes más recientes en la tabla, incluidos aquellos que están cerrados, haz clic en Mostrar incidentes cerrados.
  2. Para ver los detalles de un incidente específico, selecciónalo en la lista.

    Se abrirá la página Detalles del incidente. Para obtener más información sobre la página Detalles del incidente, consulta la sección Cómo investigar un incidente de esta página.

Encuentra incidentes más antiguos

En el panel Incidentes en Alertas, se muestran los incidentes abiertos más recientes. Para ubicar los incidentes más antiguos, realiza una de las siguientes acciones:

  • Para desplazarte por las entradas de la tabla Incidentes, haz clic en  Más reciente o  Más antiguo.

  • Para navegar a la página Incidentes, haz clic en Ver todos los incidentes. En la página Incidentes, puedes hacer lo siguiente:

    • Mostrar incidentes cerrados: Para enumerar todos los incidentes en la tabla, haz clic en Mostrar incidentes cerrados.
    • Filtrar incidentes: Si deseas obtener información para agregar filtros, consulta Filtrar incidentes.
    • Confirma o cierra un incidente, o pospone su política de alertas. Para acceder a estas opciones, haz clic en  Más opciones en la fila del incidente. y elige una opción en el menú. Para obtener más información, consulta Administra incidentes.

Filtrar incidentes

Cuando ingresas un valor en la barra de filtros, solo los incidentes que coinciden con el filtro se enumeran en la tabla Incidentes. Si agregas varios filtros, solo se muestra un incidente si cumple con todos los filtros.

Para agregar un filtro a la tabla de incidentes, haz lo siguiente:

  1. En la página Incidentes, haz clic en  Filtrar tabla y, luego, selecciona una propiedad de filtro. Las propiedades de filtro incluyen lo siguiente:

    • Estado del incidente
    • Nombre de la política de alertas
    • Cuando se abrió o cerró el incidente
    • Tipo de métrica
    • Tipo de recurso
  2. Selecciona un valor del menú secundario o ingresa un valor en la barra de filtros.

    Por ejemplo, si seleccionas Tipo de métrica y escribes usage_time, es posible que solo veas las siguientes opciones en el menú secundario:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Investigar un incidente

La página Detalles del incidente contiene información que puede ayudarte a identificar la causa de un incidente.

Explora los datos de métricas

Para analizar el estado de su métrica antes y después de que ocurrió el incidente, usa el gráfico Métricas de alertas. En este gráfico, se muestra una línea de tiempo y las series temporales que provocaron que se cumpliera la condición de tu política de alertas.

Puedes ajustar el rango de la línea de tiempo para buscar tendencias y patrones en tu de métricas de rendimiento relacionados con el incidente:

  • Para alternar entre mostrar solo las series temporales que causaron que se cumpliera la condición y mostrar todas las series temporales que evalúa la condición, haz clic en Mostrar todas las series temporales.

  • Para cambiar el intervalo de tiempo que muestra el gráfico, puedes usar la opción de la barra de herramientas, o destaca intervalos de tiempo en el gráfico con tus puntero.

También puedes analizar tus datos de métricas con más detalle si los ves en el Explorador de métricas. Para ello, ve al gráfico Métricas de alertas y, luego, haz clic en Explorar datos. De forma predeterminada, el Explorador de métricas agrega y filtra los datos de las métricas para que el gráfico de métricas se alinee con las series temporales que se muestran en el cronograma de Métricas de alertas.

Explora las entradas de registro

El panel Registros en la página Detalles del incidente muestra las entradas de registro que coinciden con el tipo de recurso y las etiquetas del recurso supervisado para tu métrica. Puedes analizar estas entradas de registro para encontrar información adicional que lo ayude a solucionar el problema.

  • Para ver las entradas de registro en el Explorador de registros, haz clic en Ver en el Explorador de registros y, luego, selecciona un proyecto de delimitación. El Explorador de registros proporciona herramientas adicionales para analizar los datos de entrada de registro. como un cronograma del momento en que se crearon las entradas de registro relacionadas.
  • Para ver y editar la consulta que se usa para filtrar las entradas de registro en el Explorador de métricas, haz clic en Explorar datos.

Cómo ver etiquetas y documentación

Las etiquetas y la documentación proporcionan información complementaria sobre el incidente.

En la sección Etiquetas, se muestran las etiquetas y los valores del recurso supervisado. y la métrica de la serie temporal que causó el incidente, así como las etiquetas de usuario definidos en la política de alertas. Esta información puede ayudarte a identificar los componentes recurso que causó el incidente. Para obtener más información, consulta Cómo anotar incidentes con etiquetas.

En la sección Documentation, se muestra la plantilla de documentación para que proporcionaste cuando creaste la política de alertas. Esta información puede incluir una descripción supervisa políticas y, además, incluye sugerencias para la mitigación. Para obtener más información, consulta Cómo anotar notificaciones con documentación definida por el usuario.

Si no configuraste la documentación para tu política de alertas, en el panel Documentación, se mostrará el mensaje “No se configuró ninguna documentación”.

Para ayudarte a descubrir problemas subyacentes en tu aplicación, puedes y explorar incidentes relacionados con otras condiciones de la política de alertas.

La sección Incidentes relacionados muestra una lista de incidentes que coincidan con una de las siguientes opciones:

  • El incidente se creó cuando se cumplió una condición de la misma política de alertas.
  • El incidente comparte una etiqueta con el que se muestra en la página Detalles del incidente.

Administración de incidentes

Los incidentes están en uno de los siguientes estados:

  • Apertura: : Se cumple el conjunto de condiciones de la política de alertas o no hay datos. para indicar que ya no se cumple la condición. Si una política de alertas contiene varias condiciones, los incidentes se abren en función de cómo se combinan esas condiciones. Para obtener más información, consulta Políticas con varias condiciones.

  • Confirmado: El incidente está abierto y se marcó de forma manual como confirmado. Por lo general, este estado indica que se investiga el incidente.

  • Cerrado: El sistema observó que la condición dejó de cumplirse, cerraste el incidente, o si pasaron 7 días sin una observación de que la condición se siguiera cumpliendo.

Cuando configures una política de alertas, asegúrate de que el estado estable proporcione una señal cuando todo esté bien. Esto es necesario para garantizar que el estado sin errores se puede identificar y, si hay un incidente abierto, para que que se cierre el incidente. Si no hay indicadores que indiquen que se detuvo una condición de error, después de que se abre un incidente, este permanece abierto durante 7 días después de que se activa la política de alertas.

Por ejemplo, si creas una política de alertas que te notifica cuando de errores sea mayor que 0, asegúrate de que produzca un recuento de 0 errores cuando no hay ninguno. Si la política de alertas muestra un valor nulo o vacía en el estado sin errores, entonces no hay señal para indicar cuándo se detuvieron los errores. En algunas situaciones, el lenguaje de consulta de Monitoring (MQL) admite que especifiques un valor predeterminado que se use cuando no haya un valor medido disponible. Para ver un ejemplo, consulta Proporción de uso.

Confirmar incidentes

Te recomendamos que marques un incidente como confirmado cuando comiences a investigar la causa del incidente.

Para marcar un incidente como confirmado, haz lo siguiente:

  1. En el panel Incidentes de la página Alertas, haz clic en Ver todos los incidentes.
  2. En la página Incidentes, busca el incidente que deseas confirmar y, luego, realiza una de las siguientes acciones:

    • Haz clic en  Más opciones y, luego, selecciona Confirmar.
    • Abre la página de detalles del incidente y, luego, haz clic en Confirmar incidente.

Si tu política de alertas está configurada para enviar notificaciones repetidas, confirmar un incidente no detendrá las notificaciones. Para detenerlos, realiza una de las siguientes acciones:

  • Crea una posposición para la política de alertas.
  • Inhabilita la política de alertas.

Posponer una política de alertas

Para evitar que Monitoring cree incidentes y envíe durante un período específico, pospón la política de alertas relacionada. Cuando aplazas una política de alertas, Monitoring también cierra todos los incidentes relacionados con ella.

Para posponer un incidente que estás viendo, haz lo siguiente:

  1. En la página Detalles del incidente, haz clic en Política de posponer.

  2. Selecciona la duración del posponer. Después de seleccionar la duración de la función, esta se iniciará de inmediato.

También puedes posponer una política de alertas desde la página Incidentes. Para ello, busca el incidente que deseas posponer, haz clic en  Más opciones y, luego, selecciona Posponer. Puedes posponer las políticas de alertas durante las interrupciones para evitar notificaciones durante el proceso de solución de problemas.

Cerrar incidentes

Puedes permitir que Monitoring cierre un incidente por ti o cerrarlo después de que dejen de llegar observaciones. Si cierras un incidente y llegan los datos que indican la condición y, luego, se crea un incidente nuevo. Cuando cierras un incidente, esa acción no cierra ningún otro incidente que esté abierto para la misma condición. Si aplazas una política de alertas, los incidentes abiertos se cerrarán cuando comience el aplazamiento.

Monitoring cierra automáticamente un incidente cuando ocurre lo siguiente:

  • Condiciones de umbral de métrica:

    • Llega una observación que indica que no se incumple el umbral.
    • No llegan observaciones. La condición está configurada para cerrar incidentes. cuando las observaciones dejan de llegar y el estado del recurso subyacente es desconocida o no está inhabilitada.

    • No llegan observaciones sobre la duración del cierre automático de la alerta política y la condición no está configurada para cerrar incidentes automáticamente cuando las observaciones dejan de llegar. Cómo configurar el cierre automático de Cloud Storage, puedes usar la consola de Google Cloud API de Cloud Monitoring. De forma predeterminada, la duración del cierre automático es de siete días. La duración mínima del cierre automático es de 30 minutos.

  • Condiciones de ausencia de métricas:

    • Se produce una observación.
    • No llegan observaciones durante 24 horas después de que venza la duración del cierre automático de la política de alertas. Para configurar la duración del cierre automático, puedes usar la consola de Google Cloud o la API de Cloud Monitoring. De forma predeterminada, la duración del cierre automático es de siete días.
  • Condiciones previstas:

    • Se produce una previsión que predice que la serie temporal no incumplirá el umbral dentro del período de previsión.
    • No llegan observaciones durante 10 minutos, la condición está configurada para cerrar incidentes cuando dejan de llegar observaciones y el estado del recurso subyacente es desconocido o no está inhabilitado.

    • No llegan observaciones sobre la duración del cierre automático de la alerta política y la condición no está configurada para cerrar incidentes automáticamente cuando las observaciones dejan de llegar.

Por ejemplo, una política de alertas generó un incidente La latencia de respuesta HTTP fue superior a 2 segundos durante 10 minutos. Si la siguiente medición de la latencia de respuesta HTTP es inferior o igual a dos segundos, se cierra el incidente. Del mismo modo, si no se reciben datos durante siete días, se cierra el incidente.

Para cerrar un incidente, haz lo siguiente:

  1. En el panel Incidentes de la página Alertas, haz clic en Ver todos los incidentes.
  2. En la página Incidentes, busca el incidente que deseas cerrar y, luego, realiza una de las siguientes acciones:

    • Haz clic en  Ver más y, luego, selecciona Cerrar incidente.
    • Abre la página Detalles del incidente de ese incidente y, luego, haz clic en Cerrar incidente.
Si ves el mensaje Unable to close incident with active conditions, el incidente no se puede cerrar porque se recibieron datos durante el período de alerta más reciente.

Si ves el mensaje Unable to close incident. Please try again in a few minutes., significa que no se pudo cerrar el incidente debido a un error interno.

Retención y límites de datos

Para obtener información sobre los límites y el período de retención de los incidentes, consulta Límites de las alertas.

¿Qué sigue?