Conceptos de la supervisión de servicios

La supervisión del servicio y la API de supervisión del servicio te ayudan a administrar tus servicios de la misma manera que lo hace Google. Las nociones principales de la supervisión del servicio incluyen lo siguiente:

  • Seleccionar métricas que actúen como indicadores de nivel de servicio (SLI)
  • Usar los SLI a fin de configurar objetivos de nivel de servicio (SLO) para los valores de los SLI
  • Usar el porcentaje de error aceptable implicado en el SLO para mitigar el riesgo en tu servicio

En esta página, se presentan estos conceptos y se describen algunos aspectos que se deben considerar cuando se diseña un SLO. En las otras páginas de esta sección, se ponen en práctica estos conceptos:

Terminología

En la supervisión de servicios se usa un conjunto de conceptos principales que se presentan aquí:

  • Indicador de nivel de servicio (SLI): Es una medición del rendimiento.
  • Objetivos de nivel de servicio (SLO): Son una declaración del rendimiento deseado.
  • Porcentaje de error aceptable: Es una medición de la diferencia entre el rendimiento real y el deseado.

Indicadores de nivel de servicio

Cloud Monitoring recopila métricas que miden el rendimiento de la infraestructura del servicio. Algunos ejemplos de métricas de rendimiento son los siguientes:

  • Recuento de solicitudes: Por ejemplo, la cantidad de solicitudes HTTP por minuto que generan respuestas 2xx o 5xx
  • Latencias de respuesta: Por ejemplo, la latencia de las respuestas HTTP 2xx

Las métricas de rendimiento se identifican de manera automática según un conjunto de tipos de servicio conocidos: App Engine, Istio en Google Kubernetes Engine y Cloud Endpoints. También puedes definir tu propio tipo de servicio y seleccionar métricas de rendimiento para él.

Las métricas de rendimiento son la base de los SLI de tu servicio. Un SLI describe el rendimiento de algún aspecto de tu servicio. Para los servicios en App Engine, Istio en Google Kubernetes Engine y Cloud Endpoints, ya se conocen SLI útiles. Por ejemplo, si tu servicio tiene métricas de recuento de solicitudes o de latencia de respuesta, los indicadores de nivel de servicio estándar (SLI) pueden derivarse de esas métricas mediante la creación de proporciones de la siguiente manera:

  • Un SLI de disponibilidad es la proporción entre la cantidad de respuestas exitosas y la cantidad total de respuestas.
  • Un SLI de latencia es la proporción entre la cantidad de llamadas por debajo de un límite de latencia y la cantidad total de llamadas.

También puedes configurar los SLI específicos del servicio para otra medida que represente un “buen rendimiento”. Por lo general, estos SLI se clasifican en dos categorías:

  • Los SLI basados en solicitudes, en los que el buen servicio se mide mediante el conteo de unidades atómicas de servicio, como la cantidad de solicitudes HTTP exitosas.
  • Los SLI basados en Windows, en los que el buen servicio se mide mediante el conteo de la cantidad de períodos o ventanas durante los cuales el rendimiento cumple un criterio de calidad, como la latencia de respuesta por debajo de un límite determinado.

Estos SLI se describen con más detalle en Cumplimiento en los SLO basados en solicitudes o en ventanas.

Objetivos de nivel de servicio

Un SLO es un valor objetivo para un SLI, medido durante un período. El servicio determina los SLI disponibles y tú especificas los SLO basados en los SLI. El SLO define lo que califica como un buen servicio. Un SLO se basa en los siguientes tipos de información:

  • Un SLI, que mide el rendimiento del servicio
  • Un objetivo de rendimiento que especifica el nivel de rendimiento deseado
  • Un período denominado período de cumplimiento, para medir cómo se compara el SLI con el objetivo de rendimiento

Por ejemplo, es posible que tengas requisitos como los siguientes:

  • La latencia puede superar los 300 ms en solo el 5% de las solicitudes durante un período de 30 días.
  • El sistema debe tener una disponibilidad del 99% durante una semana calendario.

Los requisitos como estos pueden proporcionar la base para los SLO. Consulta Diseña y usa los SLO para obtener ayuda sobre cómo configurar buenos SLO.

Los cambios en el cumplimiento de los SLO también pueden indicar la aparición de fallas. Si se supervisan estos cambios, podrías solucionar un problema antes de que se produzca. Por lo tanto, las políticas de alertas se suelen usar para supervisar el cumplimiento del SLO. Para obtener más información, consulta Alertas sobre el porcentaje de error aceptable.

Un SLO útil es inferior al 100%, porque este determina tu porcentaje de error aceptable. Los SLO suelen describirse como un “número de nueves”: 99% (2 nueves), 99.9% (3 nueves), etcétera. El valor más alto que puedes establecer es del 99.9%, pero puedes usar cualquier valor más bajo que sea apropiado para tu servicio.

Porcentaje de error aceptable

Un SLO especifica el grado de rendimiento que debe tener un servicio durante un período de cumplimiento. Lo que queda en el período de cumplimiento se convierte en el porcentaje de error aceptable. El porcentaje de error aceptable cuantifica el grado en el que un servicio puede dejar de funcionar durante el período de cumplimiento sin dejar de cumplir con el SLO.

Un porcentaje de error aceptable se define como 100% - SLO%. Si tu objetivo de SLO es del 99.99%, tu porcentaje de error aceptable es del 0.01% dentro del período de cumplimiento. Un servicio que debe cumplir con un SLO del 100% no tiene un porcentaje de error aceptable. Establecer un SLO de este tipo es una práctica no recomendada.

El porcentaje de error aceptable te permite realizar un seguimiento de la cantidad de eventos individuales con errores (como las solicitudes) que pueden ocurrir durante el resto del período de cumplimiento antes de infringir el SLO. Puedes usar el porcentaje de error aceptable para administrar las tareas de mantenimiento, como la implementación de versiones nuevas. Si se está cerca de superar el porcentaje de error aceptable, tomar medidas riesgosas, como enviar actualizaciones nuevas, puede ocasionar que infrinjas un SLO.

Por ejemplo, si tu SLO indica que el 85% de las solicitudes deben ser correctas en un período progresivo de 7 días, tu porcentaje de error aceptable permite que el 15% de las solicitudes tengan errores. Si obtienes un promedio de, por ejemplo, 60,480 solicitudes en una semana, tu porcentaje de error aceptable es el 15% de ese total o 9,072 solicitudes que se permite que tengan errores. El porcentaje de error aceptable inicial es de 9,072 solicitudes y, a medida que se producen solicitudes con errores, el porcentaje de error aceptable se consume hasta que llega a 0.

Diseña y usa los SLO

¿Cuáles son las características de un buen SLO? ¿Qué debes tener en cuenta cuando tomas decisiones? En esta sección, se proporciona una descripción general de algunos de los conceptos generales sobre el diseño y el uso de los SLO. Este tema se trata con mucho más detalle en Ingeniería de confiabilidad de sitios: Cómo se ejecuta Google en los sistemas de producción, en el capítulo sobre los SLO.

Los SLO definen el rendimiento objetivo que deseas obtener de tu servicio. En general, los SLO no deben ser superiores a lo que es necesario o significativo. Si los usuarios no pueden determinar la diferencia entre el 99% de disponibilidad y el 99,9% de disponibilidad del servicio, usa el valor más bajo como SLO. El valor más alto es más difícil de cumplir y no hará ninguna diferencia para tus usuarios.

Los SLO suelen ser más estrictos que los compromisos públicos o contractuales. Es preferible que un SLO sea más estricto que un compromiso público. De esta manera, si ocurre algo que infrinja el SLO, estarás al tanto del problema y podrás solucionarlo antes de que se infrinja el compromiso o contrato. La violación de un compromiso o contrato puede tener consecuencias legales, financieras o para la reputación. Un SLO es parte de un sistema de advertencia temprana para evitar que esto suceda.

Períodos de cumplimiento

Existen dos tipos de períodos de cumplimiento para los SLO:

  • Períodos basados en el calendario (de fecha a fecha)
  • Períodos progresivos (desde n días hasta ahora, en los que n varía de 1 a 30 días)

Períodos de cumplimiento basados en el calendario

Los períodos de cumplimiento se pueden establecer en períodos de calendario, como una semana o un mes. El período de cumplimiento y el porcentaje de error aceptable se restablecen en los límites de calendario conocidos. Para conocer los valores posibles, consulta CalendarPeriod.

Con un período de calendario, obtienes una puntuación de rendimiento al final del período. Si se mide con el límite de rendimiento, la puntuación del rendimiento te permite saber si tu servicio cumplió con los requisitos o no. Cuando usas un período de calendario, solo obtienes una calificación de cumplimiento una vez por período de cumplimiento, aunque veas el rendimiento durante todo el período. Sin embargo, la puntuación del final del período te brinda un valor fácil de leer que coincide con facilidad con los períodos de facturación del cliente (si tienes clientes externos que pagan).

Al igual que los meses de un calendario, los períodos mensuales de cumplimiento varían en la cantidad de días que cubren.

Períodos de cumplimiento progresivos basados en ventanas

También puedes medir el cumplimiento durante un período progresivo, de modo que siempre evalúes, por ejemplo, los últimos 30 días. Con un período progresivo, los datos más antiguos del cálculo anterior se eliminan del cálculo actual y se reemplazan por datos nuevos.

Con una ventana progresiva, obtienes más mediciones de cumplimiento, es decir, obtienes una medida de cumplimiento de los últimos 30 días, en lugar de una por mes. Los servicios pueden realizar la transición entre el cumplimiento y el incumplimiento, ya que el estado del SLO cambia a diario, dado que se descartan los datos antiguos y se agregan nuevos.

Cumplimiento de los SLO basados en solicitudes y en ventanas

Para determinar si un SLO cumple con los requisitos, se tienen en cuenta dos factores:

  • Cómo se determina el período de cumplimiento. Esta determinación se analiza en Períodos de cumplimiento.
  • El tipo de SLO. Existen dos tipos de SLO:
    • SLO basados en solicitudes
    • SLO basados en ventanas

El cumplimiento es la proporción entre eventos correctos y eventos totales, que se mide durante el período de cumplimiento. El tipo de SLO determina qué constituye un “evento”.

Si tu SLO es del 99.9%, lo respetas si tu cumplimiento es al menos del 99,9%. El valor máximo es del 100%.

SLO basados en solicitudes

Un SLO basado en solicitudes se basa en un SLI que se define como la proporción entre la cantidad de solicitudes exitosas y la cantidad total de solicitudes. Un SLO basado en solicitudes se cumple cuando esa proporción alcanza o supera el objetivo del período de cumplimiento.

Por ejemplo, considera este SLO basado en solicitudes: “La latencia es inferior a 100 ms para al menos el 95% de las solicitudes”. Una solicitud exitosa es aquella con un tiempo de respuesta inferior a 100 ms, por lo que la medida de cumplimiento es la fracción de solicitudes con tiempos de respuesta menor que 100 ms. El servicio cumple con los requisitos si esta fracción es de al menos 0.95.

Los SLO basados en solicitudes te brindan una idea del porcentaje de trabajo que tu servicio realizó de manera correcta durante todo el período de cumplimiento, sin importar cómo se repartió la carga durante el período de cumplimiento.

SLO basados en ventanas

Un SLO basado en ventanas se basa en un SLI que se define como la proporción entre la cantidad de intervalos de medición que cumplen con algún criterio de calidad y la cantidad total de intervalos. Un SLO basado en ventanas se cumple cuando esa proporción alcanza o supera el objetivo del período de cumplimiento.

Por ejemplo, considera este SLO: “La métrica de latencia del percentil 95 es inferior a 100 ms durante, al menos, el 99% de las ventanas de 10 minutos”. Un buen período de medición es un intervalo de 10 minutos en el que el 95% de las solicitudes tienen una latencia inferior a 100 ms. La medida de cumplimiento es la fracción de dichos períodos buenos. El servicio cumple con los requisitos si esta fracción es de al menos 0.99.

Como otro ejemplo, supongamos que configuras tu período de cumplimiento a fin de que sea progresivo de 30 días, el intervalo de medición sea de un minuto y el objetivo del SLO sea del 99%. Para cumplir con este SLO, tu servicio debe tener 42,768 intervalos “buenos” de 43,200 minutos (el 99% de la cantidad de minutos en 30 días).

Un SLO basado en ventanas te brinda una idea del porcentaje de tiempo que tus clientes consideraron que el servicio funcionó bien o mal. Este tipo de SLO puede ocultar los efectos del comportamiento “inestable”: un intervalo de medición que falló en cada una de sus llamadas se cuenta en el SLO igual que un intervalo de medición que tuvo un error de más. Además, los intervalos con un número bajo de llamadas cuentan igual en el SLO que un intervalo de medición con actividad intensa.

Trayectoria del porcentaje de error aceptable

El porcentaje de error aceptable es la diferencia entre un 100% de buen servicio y tu SLO, el nivel deseado de buen servicio. La diferencia entre ambos es tu margen de maniobra.

En general, un porcentaje de error aceptable comienza como un valor máximo y disminuye con el tiempo, lo que activa un incumplimiento del SLO cuando el porcentaje de error aceptable es inferior a 0.

Hay algunas excepciones notables a este patrón:

  • Si tienes un SLO basado en solicitudes que se mide durante un período de cumplimiento de calendario y el servicio aumentó su actividad durante el período de cumplimiento, el porcentaje de error aceptable restante puede aumentar.

    ¿Cómo puede ser posible? El sistema de SLO no puede saber con anticipación cuánta actividad tendrá el servicio en cada período de cumplimiento. Por lo tanto, extrapola un valor probable. Este valor es la proporción de llamadas hasta el momento actual desde el comienzo del cumplimiento, multiplicada por la duración del período de cumplimiento.

    A medida que la tasa de actividad aumenta, el tráfico esperado para el período también aumenta y, como resultado, aumenta el porcentaje de error aceptable.

  • Si mides un SLO durante un período de cumplimiento progresivo, siempre estarás de forma efectiva al final de un período de cumplimiento. En lugar de comenzar desde cero, los datos antiguos se descartan y se agregan de manera continua datos nuevos.

    Si un período de cumplimiento deficiente excede la ventana de cumplimiento, y si el tiempo presente que lo reemplaza sí cumple con los requisitos, el porcentaje de error aceptable aumenta. En cualquier momento, un porcentaje de error aceptable ≥ 0 indica una ventana de SLO progresivo que cumple con los requisitos, y un porcentaje de error aceptable < 0 indica una ventana de SLO progresivo que no cumple con los requisitos.

Supervisa el porcentaje de error aceptable

Puedes crear políticas de alertas para anticipar si tu porcentaje de error aceptable se consume a un ritmo más rápido que el deseado. Consulta Alertas sobre el porcentaje de error aceptable para obtener más información.

Qué sigue