Acerca de las proporciones de las métricas

En este documento, encontrarás ayuda para elegir el mejor enfoque para graficar o supervisar una proporción de datos de métricas. También incluye vínculos a ejemplos, identifica cuándo puedes calcular proporciones y describe las anomalías que podrías ver cuando graficas una proporción de dos métricas diferentes. Estas anomalías se deben a diferencias en la frecuencia de muestreo o en los parámetros de alineación.

Las proporciones te permiten transformar tus datos de métricas en una forma diferente y, posiblemente, más útil. Por ejemplo, considera un tipo de métrica que cuenta la cantidad de respuestas HTTP por código de respuesta. Los datos de métricas informan la cantidad de errores, pero no la proporción de solicitudes que fallaron. Sin embargo, los requisitos de rendimiento suelen especificarse como un porcentaje, como “La tasa de error debe ser inferior al 0.1%”. Para determinar la tasa de errores con los datos de métricas, debes calcular la proporción de las solicitudes que fallaron con respecto a la cantidad total de solicitudes.

Prácticas recomendadas

Para supervisar o graficar una proporción de datos de métricas, te recomendamos que uses PromQL. Puedes usar PromQL con la API de Cloud Monitoring y con la consola de Google Cloud . La consola de Google Cloud incluye un editor de código que proporciona sugerencias, detección de errores y otro tipo de asistencia para crear consultas de PromQL válidas.

Para crear una política de alertas que supervise una proporción de métricas cuando no estés familiarizado con PromQL, usa la API de Cloud Monitoring y, luego, incluye un filtro de series temporales. Para ver un ejemplo, consulta Proporción de métrica.

Para graficar una proporción de datos de métricas cuando no estás familiarizado con PromQL, te recomendamos que uses la consola de Google Cloud y que uses una interfaz basada en menús. Para obtener instrucciones detalladas, consulta Grafica una proporción de métricas y Agrega gráficos y tablas a un panel personalizado.

Restricciones con proporciones

Cuando configuras una proporción, se aplican las siguientes restricciones:

  • Después de la agregación, las etiquetas de la serie temporal del denominador deben ser las mismas que las de la serie temporal del numerador o un subconjunto de ellas.

    Te recomendamos que selecciones opciones de agregación de modo que, después de la agregación, las series temporales del numerador y del denominador tengan las mismas etiquetas.

    Considera una configuración en la que la serie temporal del numerador tiene etiquetas method, quota_metric y project_id. La serie temporal del denominador tiene etiquetas limit_name, quota_metric y project_id. Las opciones válidas para la agrupación del denominador dependen de las selecciones del numerador:

    • Numerador agrupado por la etiqueta method: Combina las series temporales del denominador en una sola. Ninguna otra agrupación hace que las etiquetas de la serie temporal del denominador sean un subconjunto de las etiquetas de la serie temporal del numerador.
    • Numerador agrupado por la etiqueta quota_metric: agrupa el denominador por esa etiqueta o combina todas las series temporales del denominador en una sola.
    • Numerador agrupado por las etiquetas quota_metric y project_id: agrupa el denominador por ambas etiquetas, por una etiqueta o combina las series temporales del denominador en una sola.

    Las opciones válidas de agregación del denominador siempre eliminan la etiqueta limit_name de las series temporales agrupadas porque esa etiqueta no está presente en las series temporales del numerador.

  • El período de alineación debe ser el mismo para el numerador y el denominador cuando configures un gráfico con la consola de Google Cloud . Sin embargo, estos campos pueden ser diferentes cuando se usa la API de Cloud Monitoring.

    Te recomendamos que uses el mismo período de alineación para el numerador y el denominador, independientemente de la herramienta que uses para crear el gráfico.

  • El numerador y el denominador deben tener el mismo tipo de valor. Por ejemplo, cuando el numerador es de tipo DOUBLE, el denominador también debe ser de tipo DOUBLE.

    Las proporciones requieren que las métricas de numerador y denominador tengan un tipo de valor de DOUBLE o INT64.

  • Las series temporales alineadas del numerador y del denominador deben tener el mismo tipo de métrica. Cuando las dos métricas tienen tipos diferentes, debes usar alineadores para convertirlas en el mismo tipo.

    Considera una configuración en la que se selecciona una métrica DELTA para el numerador y una métrica GAUGE para el denominador. En esta situación, usa el alineador de tasas, ALIGN_RATE, para convertir la métrica DELTA en una métrica GAUGE. Para ver un ejemplo, consulta Políticas de alertas de proporción sobre el uso de la cuota de frecuencia para un límite.

  • Para las proporciones que no se definen con PromQL, el tipo de recurso supervisado debe ser el mismo para el numerador y el denominador.

    Por ejemplo, si el recurso de la métrica del numerador son instancias de Compute Engine, el recurso de la métrica del denominador también debe ser instancias de Compute Engine.

Anomalías debido a discrepancias en el muestreo y la alineación

En general, es mejor calcular las proporciones según las series temporales recopiladas para un solo tipo de métrica mediante el uso de valores de etiquetas. Una proporción calculada en dos tipos de métricas diferentes está sujeta a anomalías debido a diferentes períodos de muestreo y ventanas de alineación.

Por ejemplo, supongamos que tienes dos tipos de métricas, un recuento total de RPC y un recuento de errores de RPC, y deseas calcular la proporción de las RPC del recuento de errores sobre el total de RPC. Las RPC con errores se cuentan en las series temporales de ambos tipos de métricas. Por lo tanto, existe la posibilidad de que, cuando alinees las series temporales, una RPC con errores no aparezca en el mismo intervalo de alineación para ambas series temporales. Esta diferencia puede ocurrir por varias razones, incluidas las siguientes:

  • Debido a que hay dos series temporales diferentes que registran el mismo evento, hay dos valores de contador subyacentes que implementan la colección y no se actualizan de manera atómica.
  • Las tasas de muestreo pueden variar. Cuando las series temporales están alineadas a un período común, los recuentos de un solo evento pueden aparecer en intervalos de alineación adyacentes en la serie temporal para las diferentes métricas.

La diferencia en la cantidad de valores en los intervalos de alineación correspondientes puede generar valores de proporción error/total sin sentido, como 1/0 o 2/1.

Es menos probable que las proporciones de números más grandes generen valores sin sentido. Puedes obtener números más grandes por agregación, ya sea mediante una ventana de alineación más larga que el período de muestreo o mediante la agrupación de datos para ciertas etiquetas. Estas técnicas minimizan el efecto de las pequeñas diferencias en la cantidad de puntos en un intervalo determinado. Es decir, una diferencia de dos puntos es más significativa cuando la cantidad de puntos esperados en un intervalo es 3 que cuando la cantidad esperada es 300.

Si usas tipos de métricas integradas, es posible que no tengas más opción que calcular las proporciones entre los tipos de métricas para obtener el valor que necesitas.

Si diseñas métricas personalizadas que pueden contar lo mismo, como las RPC que muestran el estado del error, en dos métricas diferentes, considera una sola métrica, que incluye cada recuento solo una vez. Por ejemplo, supongamos que estás contando RPC y deseas realizar un seguimiento de la proporción de RPC fallidas en todas las RPC. Para resolver este problema, crea un tipo de métrica único para contar las RPC y usa una etiqueta para registrar el estado de la invocación, incluido el estado “Correcto”. Luego, cada valor de estado, error o “Correcto” se registra mediante la actualización de un solo contador para ese caso.

¿Qué sigue?