Descripción general de los objetivos de nivel de servicio

Los objetivos de nivel de servicio (SLO) son una herramienta central en el kit de herramientas de supervisión de servicios de Google. Los SLO pueden darte una señal concisa y discreta sobre el estado general de tus servicios. Cloud Service Mesh te permite configurar los SLO para tus servicios, además de supervisar y crear alertas sobre los servicios en función de esos SLO.

Con el objetivo de supervisar el estado de un servicio, debes comprender qué comportamientos son importantes para ese servicio y cómo medirlos y evaluarlos. Un indicador de nivel de servicio (SLI) es una medida cuantitativa de algún aspecto del servicio. Los SLI típicos son los siguientes:

  • Latencia: se refiere a cuánto demora la respuesta a una solicitud y, por lo general, se mide en milisegundos (ms). La latencia suele presentarse como un agregado. Es decir, los datos sin procesar se recopilan en un período y se calculan como percentiles. Cloud Service Mesh muestra un gráfico de latencia en la página Métricas de cada uno de tus servicios. En el gráfico de latencia, se muestra la latencia a lo largo del tiempo, lo que puede ayudarte a determinar un límite de latencia o un límite superior para un servicio.
  • Disponibilidad: se refiere a la fracción de tiempo que un servicio responde de forma correcta. Por lo general, se presenta como una proporción de la cantidad de respuestas completadas de forma correcta sobre la cantidad total de respuestas. El gráfico de tasa de errores en la página Métricas puede ayudarte a determinar la disponibilidad de cada servicio.

Un SLO es un objetivo de valor para un nivel de servicio que se mide con un SLI. Un SLO se puede representar así: SLI ≤ upper_bound o SLI ≥ lower_bound. Los SLO son objetivos medibles para el rendimiento durante un período. Por ejemplo, es posible que tengas requisitos como los siguientes para algunos de tus servicios:

  • La latencia puede superar los 300 ms en solo el 5% de las solicitudes durante un período progresivo de 30 días.
  • El sistema debe tener una disponibilidad del 99% durante una semana calendario.

Puedes configurar y ver los SLO de tus servicios en función de sus datos de telemetría en la página Estado. Luego, puedes crear alertas en Cloud Monitoring para que se te advierta si un servicio no funciona como se espera.

¿Qué sigue?