Se usó la API de Cloud Translation para traducir esta página.

Incidentes para las políticas de alertas basadas en métricas

Un incidente es un registro de cuándo se cumplen las condiciones de una política de alertas. Por lo general, cuando se cumplen las condiciones, Cloud Monitoring abre un incidente y envía una notificación. Sin embargo, los incidentes no se crean cuando la política se pospone o inhabilita, cuando hay demasiados incidentes abiertos para esa política o cuando se sabe que el recurso subyacente está inhabilitado. Además, cuando una política de alertas contiene varias condiciones, esta especifica si cumplir una condición es suficiente para que se cree un incidente. Un incidente es un registro de cuándo se cumple la condición de una política de alertas. Por lo general, cuando se cumple una condición, Cloud Monitoring abre un incidente y envía una notificación cuando se recibe un registro que coincide con la condición de tu política de alertas. Sin embargo, los incidentes no se crean en las siguientes circunstancias:

La política está pospuesta o inhabilitada.
La frecuencia máxima de notificaciones superaría el límite de 1 notificación cada 5 minutos para cada política de alertas basada en registros.
El total diario de notificaciones superaría el límite de 20 notificaciones por día para cada política de alertas basada en registros.

Para cada incidente, Monitoring crea una página Detalles del incidente que te permite administrarlo y que informa información del incidente que puede ayudarte a solucionar el problema. Por ejemplo, la página Detalles del incidente muestra el cronograma del incidente y un gráfico que muestra los datos de las métricas que se supervisan. También puedes encontrar vínculos a incidentes y entradas de registro relacionados.

En este documento, se describe cómo puedes encontrar tus incidentes. También se describe cómo puedes usar la página Detalles del incidente para administrar incidentes de las políticas de alertas basadas en métricas, que evalúan los datos de series temporales que almacena Cloud Monitoring.

Antes de comenzar

Asegúrate de tener los permisos que necesitas:

Para obtener los permisos que necesitas para ver y administrar incidentes con la consola de Google Cloud, pídele a tu administrador que te otorgue los siguientes roles de IAM en tu proyecto:

Para ver los incidentes, usa la consola de Google Cloud:
- Visualizador de incidentes de la consola de Cloud Monitoring (roles/monitoring.cloudConsoleIncidentViewer)
- Visualizador de cuentas de Stackdriver (roles/stackdriver.accounts.viewer)
Administra los incidentes con la consola de Google Cloud:
- Editor de incidentes de la consola de Cloud de Monitoring (roles/monitoring.cloudConsoleIncidentEditor)
- Visualizador de cuentas de Stackdriver (roles/stackdriver.accounts.viewer)

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.

Para obtener más información sobre los roles de Cloud Monitoring, consulta Controla el acceso con Identity and Access Management.

Cómo encontrar incidentes

Para ver una lista de incidentes en tu proyecto de Google Cloud, haz lo siguiente:

En la consola de Google Cloud, ve a la página Alertas.
Ir a las Alertas

Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuyo subtítulo es Monitoring.
- En el panel Resumen, se muestra la cantidad de incidentes abiertos.
- En el panel Incidentes, se muestran los incidentes abiertos más recientes. Para enumerar los incidentes más recientes en la tabla, incluidos aquellos que están cerrados, haz clic en Mostrar incidentes cerrados.
Para ver los detalles de un incidente específico, selecciónalo en la lista.

Se abrirá la página Detalles del incidente. Para obtener más información sobre la página Detalles del incidente, consulta la sección Cómo investigar un incidente de esta página.

Cómo encontrar incidentes más antiguos

En el panel Incidentes en Alertas, se muestran los incidentes abiertos más recientes. Para ubicar los incidentes más antiguos, realiza una de las siguientes acciones:

Para desplazarte por las entradas de la tabla Incidentes, haz clic en Más reciente o Más antiguo.
Para navegar a la página Incidentes, haz clic en Ver todos los incidentes. En la página Incidentes, puedes hacer lo siguiente:
- Mostrar incidentes cerrados: Para enumerar todos los incidentes en la tabla, haz clic en Mostrar incidentes cerrados.
- Filtrar incidentes: Si deseas obtener información para agregar filtros, consulta Filtrar incidentes.
- Confirmar o cerrar un incidente, o posponer su política de alertas Para acceder a estas opciones, haz clic en Más opciones en la fila del incidente y selecciona el menú. Para obtener más información, consulta Administra incidentes.

Filtrar incidentes

Cuando ingresas un valor en la barra de filtros, solo los incidentes que coinciden con el filtro se enumeran en la tabla Incidentes. Si agregas varios filtros, solo se mostrará un incidente si cumple con todos los filtros.

Para agregar un filtro a la tabla de incidentes, haz lo siguiente:

En la página Incidentes, haz clic en Filtrar tabla y, luego, selecciona una propiedad de filtro. Las propiedades del filtro incluyen todas las siguientes opciones:
- Estado del incidente
- Nombre de la política de alertas
- Cuando se abrió o cerró el incidente
- Tipo de métrica
- Tipo de recurso
Selecciona un valor del menú secundario o ingresa un valor en la barra de filtros.
Por ejemplo, si seleccionas Tipo de métrica y escribes usage_time, es posible que solo veas las siguientes opciones en el menú secundario:
```
agent.googleapis.com/cpu/usage_time
compute.googleapis.com/guest/container/cpu/usage_time
container.googleapis.com/container/cpu/usage_time
```

Cómo investigar un incidente

La página Detalles del incidente contiene información que puede ayudarte a identificar la causa de un incidente.

Explora los datos de métricas

Para analizar el estado de tu métrica antes y después de que ocurrió el incidente, usa el gráfico Métricas de alertas. En este gráfico, se muestra una línea de tiempo y las series temporales que provocaron que se cumpliera la condición de tu política de alertas.

Puedes ajustar el rango del cronograma para buscar tendencias y patrones en tus datos de métricas en relación con el incidente:

Para alternar entre mostrar solo las series temporales que causaron que se cumpliera la condición y mostrar todas las series temporales que evalúa la condición, haz clic en Mostrar todas las series temporales.
Para cambiar el intervalo de tiempo que muestra el gráfico, puedes usar el selector de intervalos de tiempo en la barra de herramientas o destacar intervalos de tiempo en el gráfico con el puntero.

También puedes analizar tus datos de métricas con más detalle en el Explorador de métricas. Para ello, ve al gráfico Métricas de alertas y, luego, haz clic en Explorar datos. De forma predeterminada, el Explorador de métricas agrega y filtra los datos de las métricas para que el gráfico de métricas se alinee con las series temporales que se muestran en el cronograma de Métricas de alertas.

Explora las entradas de registro

En el panel Registros de la página Detalles del incidente, se muestran las entradas de registro que coinciden con el tipo de recurso y las etiquetas del recurso supervisado de tu métrica. Puedes analizar estas entradas de registro para encontrar información adicional que pueda ayudarte a solucionar el incidente.

Para ver las entradas de registro en el Explorador de registros, haz clic en Ver en el Explorador de registros y, luego, selecciona un proyecto de delimitación. El Explorador de registros proporciona herramientas adicionales para analizar los datos de entrada de registro, como un cronograma de cuándo se crearon las entradas de registro relacionadas.
Para ver y editar la consulta que se usa para filtrar las entradas de registro en el Explorador de métricas, haz clic en Explorar datos.

Cómo ver información complementaria

En la sección Etiquetas, se muestran las etiquetas y los valores del recurso supervisado y la métrica de la serie temporal que causó el incidente, así como las etiquetas del usuario definidas en la política de alertas. Esta información puede ayudarte a identificar el recurso supervisado específico que causó el incidente. Para obtener más información, consulta Cómo anotar incidentes con etiquetas.

En la sección Documentación, se muestra la plantilla de documentación para las notificaciones que proporcionaste cuando creaste la política de alertas. Esta información puede incluir una descripción de lo que supervisa la política de alertas y, además, incluye sugerencias para la mitigación. Para obtener más información, consulta Cómo anotar notificaciones con documentación definida por el usuario.

Si no configuraste la documentación para tu política de alertas, en el panel Documentación, se mostrará el mensaje “No se configuró ninguna documentación”.

Para ayudarte a descubrir los problemas subyacentes en tu aplicación, puedes explorar los incidentes relacionados con otras condiciones de la política de alertas.

En la sección Incidentes relacionados, se muestra una lista de incidentes que coinciden con una de las siguientes opciones:

El incidente se creó cuando se cumplió una condición de la misma política de alertas.
El incidente comparte una etiqueta con el que se muestra en la página Detalles del incidente.

Administración de incidentes

Los incidentes están en uno de los siguientes estados:

Abierto: El conjunto de condiciones de la política de alertas se está cumpliendo o no hay datos que indiquen que la condición ya no se cumple. Si una política de alertas contiene varias condiciones, los incidentes se abren en función de cómo se combinan esas condiciones. Para obtener más información, consulta Políticas con varias condiciones.
Confirmado: El incidente está abierto y se marcó de forma manual como confirmado. Por lo general, este estado indica que se investiga el incidente.
Cerrado: El sistema observó que la condición dejó de cumplirse, cerraste el incidente o pasaron 7 días sin que se advirtiera que la condición se seguía cumpliendo.

Cuando configures una política de alertas, asegúrate de que el estado estable proporcione una señal cuando todo esté bien. Esto es necesario para garantizar que se pueda identificar el estado sin errores y, si hay un incidente abierto, que se cierre. Si no hay indicadores que indiquen que se detuvo una condición de error, después de que se abre un incidente, este permanece abierto durante 7 días después de que se activa la política de alertas.

Por ejemplo, si creas una política de alertas que te notifica cuando el recuento de errores es superior a 0, asegúrate de que produzca un recuento de 0 errores cuando no haya ninguno. Si la política de alertas muestra un valor nulo o vacío en el estado sin errores, no hay una señal que indique cuándo se detuvieron los errores. En algunas situaciones, el lenguaje de consulta de Monitoring (MQL) admite que especifiques un valor predeterminado que se use cuando no haya un valor medido disponible. Para ver un ejemplo, consulta Proporción de uso.

Confirma incidentes

Te recomendamos que marques un incidente como confirmado cuando comiences a investigar la causa del incidente.

Para marcar un incidente como confirmado, haz lo siguiente:

En el panel Incidentes de la página Alertas, haz clic en Ver todos los incidentes.
En la página Incidentes, busca el incidente que deseas confirmar y, luego, realiza una de las siguientes acciones:
- Haz clic en Más opciones y, luego, selecciona Confirmar.
- Abre la página de detalles del incidente y, luego, haz clic en Confirmar incidente.

Si tu política de alertas está configurada para enviar notificaciones repetidas, confirmar un incidente no detendrá las notificaciones. Para detenerlos, realiza una de las siguientes acciones:

Crea una posposición para la política de alertas.
Inhabilita la política de alertas.

Pospone una política de alertas

Para evitar que Monitoring cree incidentes y envíe notificaciones durante un período específico, pospone la política de alertas relacionada. Cuando aplazas una política de alertas, Monitoring también cierra todos los incidentes relacionados con ella.

Para posponer un incidente que estás viendo, haz lo siguiente:

En la página Detalles del incidente, haz clic en Política de posponer.
Selecciona la duración del posponer. Después de seleccionar la duración de la función, esta se iniciará de inmediato.

También puedes posponer una política de alertas desde la página Incidentes. Para ello, busca el incidente que deseas posponer, haz clic en Más opciones y, luego, selecciona Posponer. Puedes posponer las políticas de alertas durante las interrupciones para evitar recibir más notificaciones durante el proceso de solución de problemas.

Cierra incidentes

Puedes permitir que Monitoring cierre un incidente por ti o cerrarlo después de que dejen de llegar observaciones. Si cierras un incidente y llegan los datos que indican que se cumple la condición, se crea un incidente nuevo. Cuando cierras un incidente, esa acción no cierra ningún otro incidente que esté abierto para la misma condición. Si aplazas una política de alertas, los incidentes abiertos se cerrarán cuando comience el aplazamiento.

Monitoring cierra automáticamente un incidente cuando se produce cualquiera de los siguientes eventos:

Condiciones de umbral de métrica:
- Llega una observación que indica que no se incumple el umbral.
- No llegan observaciones, la condición está configurada para cerrar incidentes cuando dejan de llegar observaciones y el estado del recurso subyacente es desconocido o no está inhabilitado.
  
  Nota: El incidente no se cierra cuando dejan de llegar datos cuando se sabe que el estado de un recurso está inhabilitado. Sin embargo, puedes cerrar el incidente de forma manual. Monitoring puede determinar el estado de un recurso cuando este contiene la etiqueta metadata.system_labels.state y cuando la política de alertas no está escrita con el lenguaje de consulta de Monitoring. Para obtener más información, consulta El incidente no se cierra cuando dejan de llegar datos.
- No llegan observaciones durante la duración del cierre automático de la política de alertas, y la condición no está configurada para cerrar incidentes automáticamente cuando dejan de llegar observaciones. Para configurar la duración del cierre automático, puedes usar la consola de Google Cloud o la API de Cloud Monitoring. De forma predeterminada, la duración del cierre automático es de siete días. La duración mínima del cierre automático es de 30 minutos.
Condiciones de ausencia de métricas:
- Se produce una observación.
- No llegan observaciones durante 24 horas después de que venza la duración del cierre automático de la política de alertas. Para configurar la duración del cierre automático, puedes usar la consola de Google Cloud o la API de Cloud Monitoring. De forma predeterminada, la duración del cierre automático es de siete días.
Condiciones previstas:
- Se produce un pronóstico que predice que la serie temporal no incumplirá el umbral dentro del período de pronóstico.
- No llegan observaciones durante 10 minutos, la condición está configurada para cerrar incidentes cuando dejan de llegar observaciones y el estado del recurso subyacente es desconocido o no está inhabilitado.
  
  Nota: El incidente no se cierra cuando dejan de llegar datos cuando se sabe que el estado de un recurso está inhabilitado. Sin embargo, puedes cerrar el incidente de forma manual. Monitoring puede determinar el estado de un recurso cuando este contiene la etiqueta metadata.system_labels.state y cuando la política de alertas no está escrita con el lenguaje de consulta de Monitoring. Para obtener más información, consulta El incidente no se cierra cuando dejan de llegar datos.
- No llegan observaciones durante la duración del cierre automático de la política de alertas, y la condición no está configurada para cerrar incidentes automáticamente cuando dejan de llegar observaciones.

Por ejemplo, una política de alertas generó un incidente porque la latencia de la respuesta HTTP fue superior a 2 segundos durante 10 minutos consecutivos. Si la siguiente medición de la latencia de respuesta HTTP es inferior o igual a dos segundos, se cierra el incidente. Del mismo modo, si no se recibe ningún dato durante siete días, se cerrará el incidente.

Para cerrar un incidente, haz lo siguiente:

En el panel Incidentes de la página Alertas, haz clic en Ver todos los incidentes.
En la página Incidentes, busca el incidente que deseas cerrar y, luego, realiza una de las siguientes acciones:
- Haz clic en Ver más y, luego, selecciona Cerrar incidente.
- Abre la página Detalles del incidente de ese incidente y, luego, haz clic en Cerrar incidente.

Si ves el mensaje Unable to close incident with active conditions, el incidente no se puede cerrar porque se recibieron datos durante el período de alerta más reciente.

Si ves el mensaje Unable to close incident. Please try again in a few minutes., significa que no se pudo cerrar el incidente debido a un error interno.

Límites y retención de datos

Para obtener información sobre los límites y el período de retención de los incidentes, consulta Límites de las alertas.

¿Qué sigue?

Para crear y administrar políticas de alertas con la API de Cloud Monitoring o desde la línea de comandos, consulta Administra las políticas de alertas con la API.

Para ver un tratamiento conceptual detallado de las políticas de alertas, consulta Comportamiento de las políticas de alertas basadas en métricas.