En este documento del framework de arquitectura de Google Cloud, se proporcionan principios operativos para crear alertas que te ayudarán a ejecutar servicios confiables. Cuanta más información tengas sobre el rendimiento de tu servicio, más fundamentadas estarán las decisiones cuando haya un problema. Diseña tus alertas para la detección temprana y exacta de todos los problemas del sistema que afectan a los usuarios y minimiza los falsos positivos.
Optimiza el retraso de las alertas
Existe un equilibrio entre las alertas que se envían demasiado pronto que sobrecargan al equipo de operaciones y las alertas que se envían demasiado tarde y causan interrupciones prolongadas en el servicio. Ajusta el retraso de las alertas antes de que el sistema de supervisión notifique a las personas sobre un problema a fin de minimizar el tiempo de detección y maximizar la señal en comparación con el ruido. Usa la tasa de consumo del porcentaje de error aceptable para derivar la configuración de alertas óptima.
Alerta sobre los síntomas en lugar de las causas
Activa alertas según el impacto directo en la experiencia del usuario. El incumplimiento de los SLO globales o por cliente indica un impacto directo. No crees alertas sobre todas las causas raíz posibles de una falla, en especial cuando el impacto se limita a una sola réplica. Un sistema distribuido bien diseñado se recupera sin problemas de las fallas de una sola réplica.
Alertar sobre valores atípicos en lugar de promedios
Cuando supervises la latencia, define los SLO y establece alertas para la latencia del percentil 90, 95 o 99 (elige dos de tres), no para la latencia promedio ni el percentil 50. Los valores buenos de latencia media o mediana pueden ocultar valores demasiado altos en el percentil 90 o superior que causan experiencias muy malas del usuario. Por lo tanto, debes aplicar este principio de alertas sobre valores atípicos cuando supervisas la latencia para cualquier operación crítica, como una interacción solicitud-respuesta con un servidor web, la finalización por lotes en una canalización de procesamiento de datos o una operación de lectura o escritura en un servicio de almacenamiento.