Métricas de Cloud Monitoring para Vertex AI

Vertex AI exporta métricas a Cloud Monitoring. Vertex AI también muestra algunas de estas métricas en la consola de Goggle Cloud de Vertex AI. Puedes usar Cloud Monitoring para crear paneles o configurar alertas basadas en las métricas. Por ejemplo, puedes recibir alertas si la latencia de predicción de un modelo en Vertex AI es demasiado alta.

En las siguientes secciones, se describen las métricas proporcionadas en la consola de Goggle Cloud de Vertex AI, que podrían ser métricas directas o calculadas que Vertex AI envía a Cloud Monitoring.

Para ver una lista de la mayoría de las métricas que Vertex AI exporta a Cloud Monitoring, consulta la sección “aiplatform” en la página Supervisión de métricas de Google Cloud. Para las métricas de entrenamiento personalizadas, consulta los tipos de métricas que comienzan con training en la sección “ml” de esa página.

Métricas personalizadas de supervisión de entrenamiento

Cuando realizas un entrenamiento personalizado, puedes supervisar los siguientes tipos de uso de recursos para cada nodo de entrenamiento:

  • Uso de CPU o GPU de cada nodo de entrenamiento
  • Uso de memoria de cada nodo de entrenamiento
  • Uso de red (bytes enviados y recibidos por segundo)

Si usas el ajuste de hiperparámetros, puedes consultar las métricas de cada prueba.

Sigue estos pasos para ver estas métricas después de iniciar el entrenamiento personalizado:

  1. En la consola de Goggle Cloud, ve a una de las siguientes páginas según si usas el ajuste de hiperparámetros:

  2. Haz clic en el nombre de tu recurso de entrenamiento personalizado.

    Si creaste un recurso TrainingPipeline personalizado, haz clic en el nombre del trabajo que creó TrainingPipeline, por ejemplo, TRAINING_PIPELINE_NAME-custom-job o TRAINING_PIPELINE_NAME-hyperparameter-tuning-job.

  3. Haz clic en la pestaña CPU, GPU o Red para ver los gráficos de uso de la métrica que te interesan.

    Si usas el ajuste de hiperparámetros, puedes hacer clic en una fila de la tabla Pruebas de ajuste de hiperparámetros para ver las métricas de una prueba específica.

Para ver métricas más antiguas o personalizar la forma en que ves las métricas, usa Monitoring. Vertex AI exporta métricas de entrenamiento personalizadas a Monitoring como tipos de métricas con el prefijo ml.googleapis.com/training. El tipo de recurso supervisado es cloudml_job.

Ten en cuenta que AI Platform Training exporta métricas a Monitoring con los mismos tipos de métricas y tipos de recursos.

Métricas de supervisión de extremos

Después de implementar un modelo en un extremo, puedes supervisarlo para comprender el rendimiento y uso de recursos del modelo. Puedes hacer un seguimiento de las métricas, como los patrones de tráfico, las tasas de error, la latencia y el uso de recursos para asegurarte de que el modelo responda de manera coherente y predecible a las solicitudes. Por ejemplo, puedes volver a implementar tu modelo con un tipo de máquina diferente para optimizar el costo. Después de realizar el cambio, puedes supervisar el modelo para verificar si tus cambios afectaron de forma negativa su rendimiento.

En Cloud Monitoring, el tipo de recurso supervisado para los modelos implementados es aiplatform.googleapis.com/Endpoint.

Métricas de rendimiento

Las métricas de rendimiento pueden ayudarte a encontrar información sobre los patrones de tráfico, los errores y la latencia del modelo. Encuentra las siguientes métricas de rendimiento en la consola de Goggle Cloud.

  • Predicciones por segundo: La cantidad de predicciones por segundo en predicciones en línea y por lotes. Si tienes más de una instancia por solicitud, cada instancia se cuenta en este gráfico.
  • Porcentaje de errores de predicción: la tasa de errores que produce el modelo. Una tasa de error alta puede indicar un problema con el modelo o con las solicitudes que se realizan al modelo. Consulta el gráfico de códigos de respuesta para determinar qué errores ocurren.
  • Latencia del modelo (solo para modelos tabulares y personalizados): El tiempo dedicado a realizar procesamiento.
  • Latencia general (solo para modelos tabulares y personalizados): Tiempo total dedicado al procesamiento de una solicitud, fuera del procesamiento.
  • Duración total de la latencia: El tiempo total que una solicitud pasa en el servicio, que es la latencia del modelo más la latencia de la sobrecarga.

Uso de recursos

Las métricas de uso de recursos pueden ayudarte a realizar un seguimiento del uso de CPU, del uso de memoria y de la red de tu modelo. Puedes ver las siguientes métricas de uso en la consola de Goggle Cloud.

  • Recuento de réplicas: La cantidad de réplicas activas que usa el modelo implementado
  • Destino de la réplica: La cantidad de réplicas activas necesarias para el modelo implementado
  • Uso de CPU: Tasa de uso actual del núcleo de CPU de la réplica del modelo implementado. El 100% representa un núcleo de CPU completamente usado, por lo que una réplica puede lograr un uso de más del 100% si su tipo de máquina tiene varios núcleos.
  • Uso de la memoria: La cantidad de memoria asignada por la réplica del modelo implementado y actualmente en uso
  • Bytes de red enviados: Es la cantidad de bytes enviados a través de la red por la réplica del modelo implementado.
  • Prueba de red recibida: La cantidad de bytes recibidos por la red a través de la réplica del modelo implementado.
  • Ciclo de trabajo promedio de acelerador: La fracción de tiempo promedio a lo largo del último período de muestra durante el cual se procesaron uno o más aceleradores de manera activa.
  • Uso de la memoria del acelerador: La cantidad de memoria que asigna la réplica del modelo implementado.

Visualiza gráficos de métricas de supervisión de extremos

  1. Ve a la página Extremos de Vertex AI en la consola de Goggle Cloud.

    Ir a la página Estremos

  2. Haz clic en el nombre de un extremo para ver sus métricas.

  3. Debajo de los intervalos del gráfico, haz clic en Rendimiento o Uso de recursos para ver las métricas de rendimiento o uso de recursos.

    Puedes seleccionar diferentes intervalos de gráficos para ver valores de métricas en un período determinado, como 1 hora, 12 horas o 14 días.

    Si tienes varios modelos implementados en el extremo, puedes seleccionar o anular la selección de modelos a fin de ocultar o ver las métricas de modelos específicos. Si seleccionas varios modelos, la consola agrupa algunas métricas del modelo en un solo gráfico. Por ejemplo, si una métrica proporciona solo un valor por modelo, la consola agrupa las métricas del modelo en un solo gráfico, como el uso de CPU. En la métrica que puede tener varios valores por modelo, la consola proporciona un gráfico para cada modelo. Por ejemplo, la consola proporciona un gráfico de código de respuesta para cada modelo.

Métricas de supervisión de Vertex AI Feature Store

Después de compilar un almacén de atributos, puedes supervisar su rendimiento y el uso de recursos, como las latencias de entrega de almacenamiento en línea o la cantidad de nodos de almacenamiento en línea. Por ejemplo, puedes actualizar la cantidad de nodos de almacenamiento en línea de un almacén de atributos y, luego, supervisar los cambios en las métricas de entrega del almacenamiento en línea.

En Cloud Monitoring, el tipo de recurso supervisado de un almacén de atributos es aiplatform.googleapis.com/Featurestore.

Métricas

  • Tamaño de la solicitud: El tamaño de la solicitud por tipo de entidad en tu almacén de atributos.
  • Escritura de almacenamiento sin conexión para la escritura de transmisión: La cantidad de solicitudes de escritura de transmisión procesadas para el almacenamiento sin conexión.
  • Tiempo de demora de escritura en el almacenamiento sin conexión: El tiempo transcurrido (en segundos) entre la llamada a la API de escritura y la escritura en el almacenamiento sin conexión.
  • Recuento de nodos: La cantidad de nodos de entrega en línea de tu almacén de atributos.
  • Latencia: El tiempo total que una solicitud de transferencia en línea o entrega de transmisión pasa en el servicio.
  • Consultas por segundo: La cantidad de consultas en línea de transferencia o entrega de transmisiones que controla tu almacén de atributos.
  • Porcentaje de errores: El porcentaje de errores que produce el almacén de atributos cuando se manejan las solicitudes de transferencia en línea o entrega de transmisión.
  • Uso de CPU: La fracción de CPU asignada por el almacén de atributos y que usa actualmente el almacenamiento en línea. Esta cantidad puede superar el 100% si el almacenamiento de entrega en línea está sobrecargado. Considera aumentar la cantidad de nodos de entrega en línea del almacén de atributos para reducir el uso de CPU.
  • Uso de CPU: nodo más activo: Carga de CPU del nodo más activo del almacén de atributos de la tienda de funciones.
  • Almacenamiento sin conexión total: cantidad de datos almacenados en el almacenamiento sin conexión del almacén de atributos.
  • Almacenamiento en línea total: cantidad de datos almacenados en el almacenamiento en línea del almacén de atributos.
  • Capacidad de procesamiento de entrega en línea: En MB/s, la capacidad de procesamiento para las solicitudes de entrega en línea

Visualiza gráficos de métricas de supervisión del almacén de atributos

  1. Ve a la página Funciones de Vertex AI en la consola de Goggle Cloud.

    Ir a la página Funciones

  2. En la columna Almacén de atributos, haz clic en el nombre de un almacén de atributos para ver sus métricas.

    Puedes seleccionar diferentes intervalos de gráficos para ver los valores de las métricas durante un período en particular, como 1 hora, 1 día o 1 semana.

    Para algunas métricas de entrega en línea, puedes elegir ver las métricas de un método en particular, que desglosan aún más las métricas por tipo de entidad. Por ejemplo, puedes ver la latencia de los métodos ReadFeatureValues o StreamingReadFeatureValues.