Medición de DevOps: notificación proactiva de fallas

La notificación proactiva de fallas consiste en generar notificaciones cuando los valores supervisados se acercan a los umbrales de fallas conocidos y no esperar a que el sistema avise que ya falló o, lo que es peor, descubrir por los clientes que la aplicación o el servicio se encuentran inactivos. Con este enfoque, puedes identificar y resolver problemas antes de que sean graves o comiencen a afectar a los usuarios. Con la 2014 DevOps Research and Assessment (DORA) (Investigación y evaluación de DevOps de 2014 (DORA) (PDF), se demostró que la supervisión proactiva es un predictor importante del rendimiento de la entrega de software. Según la investigación de DORA, los equipos que usan notificaciones proactivas pueden diagnosticar y resolver problemas con rapidez. Cuando las fallas se informan mediante una fuente externa al equipo de operaciones, como el centro de operaciones de red (NOC) o, peor aún, por parte de los clientes y no mediante la supervisión interna, el rendimiento se ve afectado.

Cómo implementar la notificación proactiva de fallas

Usa reglas de alerta. Debes generar notificaciones de fallas mediante reglas de alerta específicas. Las reglas de alerta definen las condiciones en las que se genera una alerta y su canal de notificaciones.

Usa umbrales. Las reglas de alerta deben usar umbrales para las métricas que supervisas que indican problemas reales. Los umbrales de supervisión activan reglas de alerta, que generan notificaciones cuando los niveles de las métricas superan los valores de los umbrales.

Elige los umbrales con cuidado. Elige umbrales para generar alertas solo cuando el umbral en verdad prediga un problema. Es decir, no selecciones un valor de forma arbitraria. En general, debes identificar qué niveles de valores comienzan a causar un impacto en el usuario y, luego, activar una notificación de alerta en algún porcentaje inferior a ese valor.

Por ejemplo, puedes elegir activar una notificación de alerta cuando el tiempo de respuesta promedio de las páginas se encuentre dentro del 20% de un umbral en el que sabes que los usuarios comenzarán a sentirse frustrados y a llamar al servicio de asistencia.

Realiza análisis retrospectivos de incidentes. Cuando realizas un análisis retrospectivo después de incidentes, debes determinar qué indicadores podrían haber predicho el incidente y supervisarlos en el futuro.

Planifica una estrategia de notificación. Si una notificación no requiere ninguna acción o requiere siempre la misma, debes automatizar la respuesta. También debes tener en cuenta el volumen de notificaciones de los eventos. Un exceso de notificaciones durante un evento puede resultar molesto en lugar de útil. Cuando las personas están expuestas a una gran cantidad de alarmas, puede que dejen de reaccionen a ellas (un problema conocido como “fatiga de alertas”), lo que genera tiempos de respuesta más prolongados o alarmas perdidas. Revisa las notificaciones con regularidad y borra aquellas sobre las que no se puede actuar.

Formas de mejorar la notificación de fallas

Configura alertas para notificar a los equipos clave sobre fallas en los sistemas con anticipación, mucho antes de que se trasladen al centro de operaciones de red (NOC) o a un cliente. Estas son algunas de las tácticas:

  • Configurar alertas en los sistemas de registro y supervisión en los niveles adecuados
  • Configurar alertas para asegurarse de que notifiquen a las personas y los equipos que pueden solucionar el problema
  • Supervisar el estado del sistema de manera proactiva según las advertencias del umbral de prácticas recomendadas
  • Supervisar de forma proactiva el estado del sistema en función de la tasa de advertencias de cambios
  • Asegurarse de que solo se produzcan alertas relevantes y de que el equipo no reciba demasiadas alertas. Analiza con atención qué alertas son irrelevantes. Inhabilita las alertas irrelevantes y vuelve a activar las alertas de supervisión relevantes. No se recomienda inhabilitar todas las alertas

Formas de medir las notificaciones de fallas

La instrumentación de la supervisión proactiva es sencilla. Los componentes que se deben capturar son los siguientes:

  1. En qué medida se capturan y usan las alertas de fallas de los sistemas de registro y supervisión
  2. En qué medida el estado del sistema se supervisa de forma proactiva mediante advertencias de umbrales
  3. En qué medida el estado del sistema se supervisa de forma proactiva mediante la tasa de advertencias de cambios

Para asegurarte de capturar diferentes aspectos del sistema, debes supervisar las métricas al menos de dos maneras. Por ejemplo, puedes establecer un umbral de métricas que active alertas si una métrica aumenta o cae por debajo de un valor durante un período determinado, y una tasa de cambios que active alertas cuando una tasa de cambios de valores de métricas sea mayor o menor que lo previsto.

Próximos pasos