Puedes crear políticas de alertas sobre tus objetivos de nivel de servicio (SLO) para informarte si corres el riesgo de infringir un SLO. Selecciona el SLO que desees supervisar y, luego, configura una política de alertas para supervisarlo. Por lo general, la condición se expresa cuando seleccionas un valor de límite que constituye un incumplimiento y un período durante el cual se permite el incumplimiento. Si se excede el límite por más tiempo que el período permitido, se activará la política de alertas.
En esta página, se describen las alertas sobre el ritmo de consumo del porcentaje de error aceptable. No abarca las políticas de alertas en detalle; se supone que ya conoces los conceptos básicos de las condiciones y los canales de notificación.
Para obtener información general sobre las políticas de alertas y cómo crearlas, consulta Usa políticas de alertas.
Para obtener pasos específicos sobre cómo crear una política de alertas basada en un SLO, consulta los siguientes vínculos:
- Crea una política de alertas mediante la consola de Google Cloud.
- Crea una política de alertas mediante la API de Cloud Monitoring.
Ritmo de consumo del porcentaje de error aceptable
El porcentaje de error aceptable para un período de cumplimiento es (1 objetivo de SLO) x (eventos aptos en período de cumplimiento). Si tu objetivo de SLO es del 95%, es aceptable que el 5% de los eventos que mide el SLI falle antes de que se pierda el objetivo de SLO.
El ritmo de consumo te indica qué tan rápido consumes el porcentaje de error aceptable durante un período de cumplimiento. El ritmo de consumo depende de la cantidad de eventos aptos y de la cantidad de eventos de error recibidos en el período de cumplimiento. Por ejemplo, si no hay eventos de error, el porcentaje de error aceptable no se consume y la tasa de gasto es cero. Para ver un ejemplo que ilustra cómo puedes calcular el tiempo de inactividad máximo de un servicio, si suponemos que todas las solicitudes fallan, consulta Ritmo de consumo de SLO.
La métrica de ritmo de consumo se normaliza de modo que un ritmo de consumo superior a uno indique que, si la tasa de error medida se mantiene en cualquier período de cumplimiento futuro, el servicio estará fuera del SLO durante ese período. Para obtener más información, consulta Porcentajes de errores aceptables.
El selector de series temporales select_slo_burn_rate
recupera la métrica de ritmo de consumo. Una política de alertas de ritmo de consumo te notifica cuando el porcentaje de error aceptable se consume más rápido que un límite que defines, medido durante el período de cumplimiento de la alerta. Existen otros selectores de series temporales; consulta Recupera datos de SLO para obtener más información.
Puedes crear políticas de alertas que usen algunos de estos otros selectores de series temporales, pero debes crearlas con la API de Cloud Monitoring.
Descripción general de la creación de una política de alertas en un SLO
Crear una política de alertas en un SLO es similar a crear una para las métricas. En esta sección, se revisan los pasos generales para crear una política de alertas.
Si quieres crear una política de alertas para un SLO, debes seguir estos pasos:
Identifica el SLO en el que deseas basar la política de alertas.
Crea una condición para tu política de alertas que use el SLO elegido. En la condición, debes especificar un selector de series temporales que se usará en la recuperación de datos del SLO. También debes especificar una duración, un límite y una comparación que determine cuándo el SLO no cumple.
Por ejemplo, si usas el selector de series temporales para el ritmo de consumo, los datos recuperados reflejarán el ritmo de consumo del porcentaje de error aceptable del SLO elegido.
En la condición también se especifica el límite y la duración de los incumplimientos del SLO antes de activar una alerta. Por ejemplo, si deseas que el ritmo de consumo sea superior al ritmo deseado durante un período determinado antes de activar una alerta. El valor “superior” es el límite de la condición, y el valor del “período” es la duración de la condición.
Identifica o crea un canal de notificaciones para usar en tu política de alertas.
Proporciona documentación que explique a los usuarios qué fue lo que activó la política de alertas.
Para obtener información general sobre las políticas de alertas y cómo crearlas, consulta Usa políticas de alertas.
Políticas de alertas y períodos de retrospectiva
Cuando recuperas los datos del SLO de una política de alertas, debes especificar un identificador para el SLO y un período de retrospectiva. El período de retrospectiva determina la distancia en el tiempo que quieres retroceder para recuperar los datos. En esencia, el período de retrospectiva también se usa como el período de cumplimiento para calcular el rendimiento del SLO y el porcentaje de error aceptable.
En este momento, no es posible basar las alertas en la tasa de consumo de porcentaje de error aceptable de un SLO mediante un período de cumplimiento de más de 24 horas. En muchos casos, aproximar el período de cumplimiento a largo plazo (por ejemplo, 28 o 30 días) a uno de menos de 24 horas es suficiente para detectar interrupciones y generar una respuesta operativa a corto plazo.
Los períodos de cumplimiento más cortos proporcionan una detección más rápida de los problemas, pero con la salvedad de que los cambios grandes en el tráfico y las tasa de errores durante el transcurso de un día pueden generar alertas muy sensibles durante los períodos de poco tráfico. Considera usar un límite de ritmo de consumo más grande que 1 para reducir la sensibilidad de las alertas durante estos momentos.
Tipos de alertas de porcentaje de error aceptable
Si configuras políticas de alertas para supervisar el porcentaje de error aceptable, se recomienda configurar dos políticas de alertas relacionadas:
Una alerta de consumo rápido, que te advierte de un cambio repentino grande en el consumo que, si no se corrige, agotará tu porcentaje de error aceptable en muy poco tiempo. “A este ritmo, consumiremos el porcentaje de error aceptable de todo el mes en dos días”.
Para una alerta de consumo rápido, usa un período de retrospectiva más corto a fin de que se te notifique con rapidez si surgió y persistió una condición que pueda ser catastrófica, aunque sea por poco tiempo. Si es en verdad catastrófica, no debes esperar demasiado para notarlo.
El límite del ritmo de consumo del que se alerta aquí es mucho más alto que el modelo de referencia ideal para el período de retrospectiva.
Alerta de consumo lento, que te advierte sobre un ritmo de consumo que, si no se altera, agotará el porcentaje de error aceptable antes de que finalice el período de cumplimiento. Este tipo de condición es menos urgente que una condición de consumo rápido. “Estamos un poco por encima de lo que nos gustaría estar en este momento del mes, pero aún no tenemos grandes problemas”.
Para una alerta de consumo lento, usa un período de retrospectiva más largo a fin de reducir las variaciones en el consumo a más corto plazo.
El límite que se alerta en una alerta de consumo lento debe ser superior al rendimiento ideal del período de retrospectiva, pero no mucho más alto. Una política basada en un período de retrospectiva más corto con un límite alto puede generar demasiadas alertas, incluso si los niveles de consumo a largo plazo se igualan. Pero si el consumo se mantiene demasiado alto durante un período más largo, con el tiempo consumirá todo tu porcentaje de error aceptable.
Próximos pasos
- Para crear una política de alertas basada en un SLO mediante la consola de Google Cloud, consulta Crea una política de alertas (consola de Google Cloud).
- Para crear una política de alertas basada en un SLO mediante la API de Monitoring, consulta Crea una política de alertas (API).