Se usó la API de Cloud Translation para traducir esta página.

Incidentes para políticas de alertas basadas en métricas

Un incidente es un registro del momento en que la condición o las condiciones de una alerta que cumpla con la política. Por lo general, cuando se cumplen las condiciones, Cloud Monitoring abre un incidente y envía una notificación. Sin embargo, incidentes no se crean cuando la política se pospone o se inhabilita, cuando demasiados incidentes abiertos para esa política o cuando el recurso está inhabilitado. Además, cuando una política de alertas contiene múltiples condiciones, la política de alertas especifica si cumplir suficientes para crear un incidente. Un incident es un registro de cuándo se cumple la condición de una política de alertas. Por lo general, cuando se cumple una condición, Cloud Monitoring abre un incidente y envía una notificación cuando se recibe un registro que coincide con la condición tu política de alertas. Sin embargo, los incidentes no se crean según los siguientes circunstancias:

La política está pospuesta o inhabilitada.
La frecuencia máxima de notificaciones superaría el límite de 1 notificación cada 5 minutos para cada política de alertas basada en registros.
El total diario de notificaciones superaría el límite de 20 notificaciones por día para cada política de alertas basada en registros.

Para cada incidente, Monitoring crea una página Detalles del incidente que te permite administrarlo y que informa información del incidente que puede ayudarte a solucionar el problema. Por ejemplo, la página Detalles del incidente muestra el cronograma del incidente y un gráfico que muestra los datos de las métricas que se supervisan. También puedes encontrar vínculos a incidentes y entradas de registro relacionados.

En este documento, se describe cómo puedes encontrar tus incidentes. También se describe cómo puedes usar la página Detalles del incidente para administrar incidentes de las políticas de alertas basadas en métricas, que evalúan los datos de series temporales que almacena Cloud Monitoring.

Antes de comenzar

Asegúrate de tener los permisos que necesitas:

Si quieres obtener los permisos que necesitas para ver y administrar incidentes con la consola de Google Cloud, solicita a tu administrador que te otorgue el los siguientes roles de IAM en tu proyecto:

Visualiza incidentes con la consola de Google Cloud:
- Visualizador de incidentes de la consola de Cloud Monitoring (roles/monitoring.cloudConsoleIncidentViewer)
- Visualizador de cuentas de Stackdriver (roles/stackdriver.accounts.viewer)
Administra incidentes con la consola de Google Cloud:
- Editor de incidentes de la consola de Cloud de Monitoring (roles/monitoring.cloudConsoleIncidentEditor)
- Visualizador de cuentas de Stackdriver (roles/stackdriver.accounts.viewer)

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.

Para obtener más información sobre los roles de Cloud Monitoring, consulta Controla el acceso con Identity and Access Management.

Encuentra incidentes

Para ver una lista de incidentes en tu proyecto de Google Cloud, haz lo siguiente:

En la consola de Google Cloud, ve a la página Alertas.
Ir a las Alertas

Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuyo subtítulo es Monitoring.
- En el panel Resumen, se muestra la cantidad de incidentes abiertos.
- En el panel Incidentes, se muestran los incidentes más recientes. Para enumerar los incidentes más recientes en la tabla, incluidos aquellos que están cerrados, haz clic en Mostrar incidentes cerrados.
Para ver los detalles de un incidente específico, selecciona en la lista.

Se abrirá la página Detalles del incidente. Para obtener más información sobre el Detalles del incidente, consulta la Investiga un incidente de esta página.

Cómo encontrar incidentes más antiguos

En el panel Incidentes en Alertas, se muestran los incidentes abiertos más recientes. Para ubicar los incidentes más antiguos, realiza una de las siguientes acciones:

Para desplazarte por las entradas de la tabla Incidentes, haz clic en Más reciente o Más antiguo.
Para navegar a la página Incidentes, haz clic en Ver todos los incidentes. En la página Incidentes, puedes hacer lo siguiente:
- Mostrar incidentes cerrados: Para enumerar todos los incidentes en la tabla, haz clic en Mostrar incidentes cerrados.
- Filtra incidentes: Para obtener información sobre cómo agregar filtros, consulta Filtrar incidentes.
- Confirmar o cerrar un incidente, o posponer su política de alertas Para acceder a estas opciones, haz clic en Más opciones en la fila del incidente. y elige una opción en el menú. Para obtener más información, consulta Administra incidentes.

Filtrar incidentes

Cuando ingresas un valor en la barra de filtros, solo los incidentes que coinciden con el filtro se enumeran en la tabla Incidentes. Si agregas varios filtros, solo se mostrará un incidente si cumple con todos los filtros.

Para agregar un filtro a la tabla de incidentes, haz lo siguiente:

En la página Incidentes, haz clic en Filtrar tabla y, luego, selecciona una propiedad de filtro. Las propiedades del filtro incluyen todas las siguientes opciones:
- Estado del incidente
- Nombre de la política de alertas
- Cuando se abrió o cerró el incidente
- Tipo de métrica
- Tipo de recurso
Selecciona un valor del menú secundario o ingresa un valor en la barra de filtros.
Por ejemplo, si seleccionas Tipo de métrica y escribes usage_time, es posible que solo veas las siguientes opciones en el menú secundario:
```
agent.googleapis.com/cpu/usage_time
compute.googleapis.com/guest/container/cpu/usage_time
container.googleapis.com/container/cpu/usage_time
```

Cómo investigar un incidente

La página Detalles del incidente contiene información que puede ayudarte a identificar de un incidente.

Explora los datos de métricas

Para analizar el estado de tu métrica antes y después de que se produjo el incidente, usa el gráfico Métricas de alertas. En este gráfico, se muestra un cronograma series temporales que causaron la condición de tu política de alertas a cumplirse.

Puedes ajustar el rango de la línea de tiempo para buscar tendencias y patrones en tu de métricas de rendimiento relacionados con el incidente:

Para alternar entre mostrar solo las series temporales que causaron el que se cumplirá y se mostrarán todas las series temporales a las que evalúa, haz clic en Mostrar todas las series temporales.
Para cambiar el intervalo de tiempo que muestra el gráfico, puedes usar la opción de la barra de herramientas, o destaca intervalos de tiempo en el gráfico con tus puntero.

También puedes analizar tus datos de métricas con más detalle si los visualizas en el Explorador de métricas. Para ello, ve al gráfico Métricas de alertas y, luego, haz clic en Explorar datos. De forma predeterminada, el Explorador de métricas agrega y filtra los datos de las métricas para que el gráfico de métricas se alinee con las series temporales que se muestran en el cronograma de Métricas de alertas.

Explora las entradas de registro

El panel Registros en la página Detalles del incidente muestra las entradas de registro que coinciden con el tipo de recurso y las etiquetas del recurso supervisado para tu métrica. Puedes analizar estas entradas de registro para encontrar información adicional que lo ayude a solucionar el problema.

Para ver las entradas de registro en el Explorador de registros, haz clic en Ver en el Explorador de registros y, luego, seleccionar un proyecto de permisos. El Explorador de registros proporciona herramientas adicionales para analizar los datos de las entradas de registro, como un cronograma de cuándo se crearon las entradas de registro relacionadas.
Para ver y editar la consulta usada para filtrar las entradas de registro en el Explorador de métricas, haz clic en Explorar datos.

Cómo ver información complementaria

En la sección Etiquetas, se muestran las etiquetas y los valores del recurso supervisado y la métrica de la serie temporal que causó el incidente, así como las etiquetas del usuario definidas en la política de alertas. Esta información puede ayudarte a identificar el recurso supervisado específico que causó el incidente. Para obtener más información, consulta Cómo anotar incidentes con etiquetas.

En la sección Documentation, se muestra la plantilla de documentación para que proporcionaste cuando creaste la política de alertas. Esta información puede incluir una descripción de lo que supervisa la política de alertas y, además, incluye sugerencias para la mitigación. Para obtener más información, consulta Anota las notificaciones con documentación definida por el usuario.

Si no configuraste la documentación para tu política de alertas, en el panel Documentación, se mostrará el mensaje “No se configuró ninguna documentación”.

Para ayudarte a descubrir los problemas subyacentes en tu aplicación, puedes explorar los incidentes relacionados con otras condiciones de la política de alertas.

En la sección Incidentes relacionados, se muestra una lista de incidentes que coinciden con una de las siguientes opciones:

El incidente se creó cuando se aplicó una condición de la misma política de alertas se cumplen.
El incidente comparte una etiqueta con el que se muestra en la página Detalles del incidente.

Administración de incidentes

Los incidentes están en uno de los siguientes estados:

Apertura: : Se cumple el conjunto de condiciones de la política de alertas o no hay datos. para indicar que ya no se cumple la condición. Si una política de alertas contiene varias condiciones, los incidentes se abren en función de cómo se combinan esas condiciones. Para obtener más información, consulta Políticas con varias condiciones.
Confirmado: El incidente está abierto y se marcó de forma manual como confirmado. Por lo general, este estado indica que se investiga el incidente.
Cerrado: El sistema observó que la condición dejó de cumplirse, cerraste el incidente, o si pasaron 7 días sin una observación de que la condición se siguiera cumpliendo.

Cuando configures una política de alertas, asegúrate de que el estado estable proporcione una señal cuando todo esté bien. Esto es necesario para garantizar que se pueda identificar el estado sin errores y, si hay un incidente abierto, que se cierre. Si no hay señal que indique que un error se detuvo, después de que se abre un incidente, permanece abierto durante 7 días después de que se active la política de alertas.

Por ejemplo, si creas una política de alertas que te notifica cuando el recuento de errores es superior a 0, asegúrate de que produzca un recuento de 0 errores cuando no haya ninguno. Si la política de alertas muestra un valor nulo o vacío en el estado sin errores, no hay una señal que indique cuándo se detuvieron los errores. En algunas situaciones, el lenguaje de consulta de Monitoring (MQL) admite que especifiques un valor predeterminado que se use cuando no haya un valor medido disponible. Para ver un ejemplo, consulta Proporción de uso.

Confirma incidentes

Te recomendamos que marques un incidente como confirmado cuando comiences a investigar la causa del incidente.

Para marcar un incidente como confirmado, haz lo siguiente:

En el panel Incidentes de la página Alertas, haz lo siguiente: Haz clic en Ver todos los incidentes.
En la página Incidentes, busca el incidente que deseas confirmar y, luego, realiza una de las siguientes acciones:
- Haz clic en Más opciones y, luego, selecciona Confirmar.
- Abre la página de detalles del incidente y, luego, haz clic en Confirmar incidente.

Si tu política de alertas está configurada para enviar notificaciones repetidas y, luego, confirmar del incidente no detiene las notificaciones. Para detenerlos, realiza una de las siguientes acciones:

Crea una posposición para la política de alertas.
Inhabilitar la política de alertas

Pospone una política de alertas

Para evitar que Monitoring cree incidentes y envíe notificaciones durante un período específico, pospone la política de alertas relacionada. Cuando aplazas una política de alertas, Monitoring también cierra todos los incidentes relacionados con ella.

Para crear una alerta pospuesta para un incidente que estás viendo, haz lo siguiente:

En la página Detalles del incidente, haz clic en Política de posponer.
Selecciona la duración del posponer. Después de seleccionar la duración de la función, esta se iniciará de inmediato.

También puedes posponer una política de alertas desde la página Incidentes. Para ello, busca el incidente que deseas posponer, haz clic en Más opciones y, luego, selecciona Posponer. Puedes posponer las políticas de alertas durante las interrupciones para evitar notificaciones durante el proceso de solución de problemas.

Cierra incidentes

Puedes permitir que Monitoring cierre un incidente por ti o cerrarlo después de que dejen de llegar observaciones. Si cierras un incidente y llegan los datos que indican la condición y, luego, se crea un incidente nuevo. Cuando se cierra un incidente, esa acción no cierra ningún otro incidente que esté abierto para el misma condición. Si pospones una política de alertas, los incidentes abiertos se cerrará cuando comience la función de posponer.

Monitoring cierra automáticamente un incidente cuando se produce cualquiera de los siguientes eventos:

Condiciones del umbral de métrica:
- Se recibe una observación que indica que el umbral no se infringió.
- No llegan observaciones. La condición está configurada para cerrar incidentes. cuando las observaciones dejan de llegar y el estado del recurso subyacente es desconocida o no está inhabilitada.
  
  Nota: El incidente no se cierra cuando dejan de llegar datos cuando se sabe que el estado de un recurso está inhabilitado. Sin embargo, puedes cerrar el incidente de forma manual. Monitoring puede determinar el estado de un recurso cuando el recurso contiene la etiqueta metadata.system_labels.state y cuando la política de alertas no está escrita con el Lenguaje de consulta de Monitoring. Para obtener más información, consulta El incidente no se cierra cuando dejan de llegar datos.
- No llegan observaciones durante la duración del cierre automático de la política de alertas, y la condición no está configurada para cerrar incidentes automáticamente cuando dejan de llegar observaciones. Para configurar la duración del cierre automático, puedes usar la consola de Google Cloud o la API de Cloud Monitoring. De forma predeterminada, la duración del cierre automático es de siete días. La duración mínima del cierre automático es de 30 minutos.
Condiciones de ausencia de métricas:
- Se produce una observación.
- No llegan observaciones durante 24 horas después de que venza la duración del cierre automático de la política de alertas. Para configurar la duración del cierre automático, puedes usar la consola de Google Cloud API de Cloud Monitoring. De forma predeterminada, la duración del cierre automático es de siete días.
Condiciones previstas:
- Se produce una previsión que predice que la serie temporal no incumplirá el umbral dentro del período de previsión.
- No llega ninguna observación durante 10 minutos, la afección está configurado para cerrar incidentes cuando dejan de llegar las observaciones. el estado del recurso subyacente es desconocido o no está inhabilitado.
  
  Nota: El incidente no se cierra cuando dejan de llegar datos cuando se sabe que el estado de un recurso está inhabilitado. Sin embargo, puedes cerrar el incidente de forma manual. Monitoring puede determinar el estado de un recurso cuando el recurso contiene la etiqueta metadata.system_labels.state y cuando la política de alertas no está escrita con el Lenguaje de consulta de Monitoring. Para obtener más información, consulta El incidente no se cierra cuando dejan de llegar datos.
- No llegan observaciones sobre la duración del cierre automático de la alerta política y la condición no está configurada para cerrar incidentes automáticamente cuando las observaciones dejan de llegar.

Por ejemplo, una política de alertas generó un incidente porque la latencia de la respuesta HTTP fue superior a 2 segundos durante 10 minutos consecutivos. Si la siguiente medición de la latencia de respuesta HTTP es menor que o igual a dos segundos, se cierra el incidente. Del mismo modo, si no se recibe ningún dato durante siete días, se cerrará el incidente.

Para cerrar un incidente, haz lo siguiente:

En el panel Incidentes de la página Alertas, haz lo siguiente: Haz clic en Ver todos los incidentes.
En la página Incidentes, busca el incidente que deseas cerrar y, luego, realiza una de las siguientes acciones:
- Haz clic en Ver más y, luego, selecciona Cerrar incidente.
- Abre la página Detalles del incidente de ese incidente. y, luego, en Cerrar incidente.

Si ves el mensaje Unable to close incident with active conditions, entonces el incidente no se puede cerrar porque los datos se recibieron en el período de alerta más reciente.

Si ves el mensaje Unable to close incident. Please try again in a few minutes.: y, luego, el incidente no se pudo cerrar debido a un error interno.

Límites y retención de datos

Para obtener información sobre los límites y el período de retención de los incidentes, consulta Límites de las alertas.

¿Qué sigue?

Para crear y administrar políticas de alertas con la API de Cloud Monitoring o desde la línea de comandos, consulta Administra las políticas de alertas con la API.

Para obtener un tratamiento conceptual detallado de las políticas de alertas, consulta Comportamiento de las políticas de alertas basadas en métricas.