Vertex AI exporta métricas a Cloud Monitoring. Vertex AI también muestra algunas de estas métricas en la consola de Vertex AI Google Cloud . Puedes usar Cloud Monitoring para crear paneles o configurar alertas basadas en las métricas. Por ejemplo, puedes recibir alertas si la latencia de predicción de un modelo en Vertex AI es demasiado alta.
En las secciones siguientes se describen las métricas que se proporcionan en la consola de Vertex AI Google Cloud , que pueden ser métricas directas o calculadas que Vertex AI envía a Cloud Monitoring.
Para ver una lista de la mayoría de las métricas que Vertex AI exporta a Cloud Monitoring, consulta aiplatform
. Para las métricas de entrenamiento personalizadas, consulta los tipos de métricas que empiezan por training
en la sección ml
.
Métricas de monitorización de entrenamiento personalizadas
Cuando realizas un entrenamiento personalizado, puedes monitorizar los siguientes tipos de uso de recursos de cada nodo de entrenamiento:
- Utilización de CPU o GPU de cada nodo de entrenamiento
- Utilización de memoria de cada nodo de entrenamiento
- Uso de la red (bytes enviados por segundo y bytes recibidos por segundo)
Si usas el ajuste de hiperparámetros, puedes ver las métricas de cada prueba.
Para ver estas métricas después de iniciar un entrenamiento personalizado, haz lo siguiente:
En la Google Cloud consola, ve a una de las siguientes páginas, en función de si usas el ajuste de hiperparámetros:
Si no usas el ajuste de hiperparámetros, ve a la página Trabajos personalizados.
Si estás usando el ajuste de hiperparámetros, ve a la página Tareas de ajuste de hiperparámetros.
Haga clic en el nombre del recurso de formación personalizado.
Si has creado un recurso
TrainingPipeline
personalizado, haz clic en el nombre del trabajo creado porTrainingPipeline
; por ejemplo,TRAINING_PIPELINE_NAME-custom-job
oTRAINING_PIPELINE_NAME-hyperparameter-tuning-job
.Haga clic en la pestaña CPU, GPU o Red para ver los gráficos de uso de la métrica que le interese.
Si está usando el ajuste de hiperparámetros, puede hacer clic en una fila de la tabla Pruebas de ajuste de hiperparámetros para ver las métricas de una prueba específica.
Para ver métricas anteriores o personalizar la forma en que se muestran, usa Monitoring. Vertex AI exporta métricas de entrenamiento personalizadas a Monitoring como tipos de métricas con el prefijo ml.googleapis.com/training
. El tipo de recurso monitorizado es cloudml_job
.
Ten en cuenta que AI Platform Training exporta métricas a Monitoring con los mismos tipos de métricas y tipos de recursos.
Métricas de monitorización de endpoints
Después de desplegar un modelo en un endpoint, puedes monitorizarlo para conocer el rendimiento del modelo y el uso de recursos. Puedes monitorizar métricas como los patrones de tráfico, las tasas de error, la latencia y el uso de recursos para asegurarte de que tu modelo responde a las solicitudes de forma constante y predecible. Por ejemplo, puedes volver a implementar tu modelo con un tipo de máquina diferente para optimizar los costes. Después de hacer el cambio, puedes monitorizar el modelo para comprobar si los cambios han afectado negativamente a su rendimiento.
En Cloud Monitoring, el tipo de recurso monitorizado de los modelos desplegados es aiplatform.googleapis.com/Endpoint
.
Métricas de rendimiento
Las métricas de rendimiento pueden ayudarte a encontrar información sobre los patrones de tráfico, los errores y la latencia de tu modelo. Puede consultar las siguientes métricas de rendimiento en la consola Google Cloud .
- Predicciones por segundo: el número de predicciones por segundo tanto online como por lotes. Si tienes más de una instancia por solicitud, cada instancia se contabiliza en este gráfico.
- Porcentaje de error de las predicciones: la tasa de errores que genera tu modelo. Una tasa de errores alta puede indicar que hay un problema con el modelo o con las solicitudes que se le envían. Consulta el gráfico de códigos de respuesta para determinar qué errores se están produciendo.
- Latencia del modelo (solo para modelos tabulares y personalizados): tiempo dedicado a realizar cálculos.
- Latencia de sobrecarga (solo para modelos tabulares y personalizados): el tiempo total dedicado a procesar una solicitud, sin incluir el tiempo de computación.
- Duración total de la latencia: tiempo total que una solicitud pasa en el servicio, que es la latencia del modelo más la latencia de sobrecarga.
Uso de recursos
Las métricas de uso de recursos pueden ayudarte a monitorizar el uso de CPU, memoria y red de tu modelo. Puede ver las siguientes métricas de uso en laGoogle Cloud consola.
- Número de réplicas: el número de réplicas activas que usa el modelo implementado.
- Réplica de destino: número de réplicas activas necesarias para el modelo implementado.
- Uso de CPU: tasa de uso actual de los núcleos de CPU de la réplica del modelo implementado. El 100% representa un núcleo de CPU totalmente utilizado, por lo que una réplica puede alcanzar una utilización superior al 100% si su tipo de máquina tiene varios núcleos.
- Uso de memoria: cantidad de memoria asignada por la réplica del modelo implementado y que se está usando.
- Bytes de red enviados: número de bytes enviados a través de la red por la réplica del modelo implementado.
- Bytes de red recibidos: número de bytes recibidos a través de la red por la réplica del modelo desplegado.
- Ciclo de actividad medio del acelerador: la fracción media del tiempo durante el periodo de muestreo en el que uno o varios aceleradores han estado procesando activamente.
- Uso de memoria del acelerador: cantidad de memoria asignada por la réplica del modelo implementado.
Ver gráficos de métricas de monitorización de endpoints
Ve a la página Endpoints (Endpoints) de Vertex AI en la Google Cloud consola.
Haga clic en el nombre de un endpoint para ver sus métricas.
Debajo de los intervalos del gráfico, haga clic en Rendimiento o Uso de recursos para ver las métricas de rendimiento o de uso de recursos.
Puede seleccionar diferentes intervalos de gráficos para ver los valores de las métricas durante un periodo concreto, como 1 hora, 12 horas o 14 días.
Si tienes varios modelos implementados en el endpoint, puedes seleccionar o deseleccionar modelos para ver u ocultar las métricas de modelos concretos. Si seleccionas varios modelos, la consola agrupará algunas métricas de los modelos en un solo gráfico. Por ejemplo, si una métrica solo proporciona un valor por modelo, la consola agrupa las métricas del modelo en un solo gráfico, como el uso de la CPU. En el caso de las métricas que pueden tener varios valores por modelo, la consola proporciona un gráfico para cada modelo. Por ejemplo, la consola proporciona un gráfico de códigos de respuesta para cada modelo.
Métricas de monitorización de Vertex AI Feature Store (antigua)
Después de crear un almacén de características con Vertex AI Feature Store (antigua), puedes monitorizar su rendimiento y el uso de recursos, como las latencias de servicio del almacenamiento online o el número de nodos de almacenamiento online. Por ejemplo, puede que quiera monitorizar los cambios en las métricas de servicio de almacenamiento online después de actualizar el número de nodos de almacenamiento online de un almacén de características.
En Cloud Monitoring, el tipo de recurso monitorizado de un almacén de características es aiplatform.googleapis.com/Featurestore
.
Métricas
- Tamaño de la solicitud: el tamaño de la solicitud por tipo de entidad en su almacén de características.
- Escritura de almacenamiento sin conexión para escritura de streaming: número de solicitudes de escritura de streaming procesadas para el almacenamiento sin conexión.
- Tiempo de retraso de escritura en streaming en el almacenamiento sin conexión: tiempo transcurrido (en segundos) entre la llamada a la API de escritura y la escritura en el almacenamiento sin conexión.
- Recuento de nodos: número de nodos de servicio online de tu almacén de características.
- Latencia: tiempo total que una solicitud de publicación online o de ingesta de streaming pasa en el servicio.
- Consultas por segundo: número de consultas de servicio online o de ingestión de streaming que gestiona tu almacén de características.
- Porcentaje de errores: el porcentaje de errores que genera su almacén de características al gestionar solicitudes de servicio online o de ingestión de streaming.
- Uso de CPU: la fracción de CPU asignada por el almacén de características que utiliza el almacenamiento online. Esta cifra puede superar el 100% si el almacenamiento de servicio online está sobrecargado. Considera la posibilidad de aumentar el número de nodos de servicio online de feature store para reducir la utilización de la CPU.
- Uso de CPU (nodo más activo): carga de CPU del nodo más activo del almacenamiento online de Feature Store.
- Almacenamiento total sin conexión: cantidad de datos almacenados en el almacenamiento sin conexión de la tienda de características.
- Almacenamiento online total: cantidad de datos almacenados en el almacenamiento online de Feature Store.
- Rendimiento de la entrega online: en MBps, el rendimiento de las solicitudes de entrega online.
Ver gráficos de métricas de monitorización de almacén de características
Ve a la página Funciones de Vertex AI en la Google Cloud consola.
En la columna Featurestore, haga clic en el nombre de un almacén de características para ver sus métricas.
Puedes seleccionar diferentes intervalos de los gráficos para ver los valores de las métricas durante un periodo concreto, como 1 hora, 1 día o 1 semana.
En algunas métricas de publicación online, puede ver las métricas de un método concreto, lo que desglosa aún más las métricas por tipo de entidad. Por ejemplo, puedes ver la latencia del método
ReadFeatureValues
o del métodoStreamingReadFeatureValues
.
Métricas de monitorización de Vertex AI Feature Store
Después de configurar el servicio online con Vertex AI Feature Store, puedes monitorizar su rendimiento y el uso de recursos. Por ejemplo, puedes monitorizar las cargas de la CPU, el número de nodos de la entrega online optimizada y el número de solicitudes de entrega.
En Cloud Monitoring, el tipo de recurso supervisado de una instancia de tienda online es aiplatform.googleapis.com/FeatureOnlineStore
.
Métricas
Bytes almacenados: la cantidad de datos en bytes de la instancia de la tienda online.
Carga de CPU: carga media de CPU de los nodos de la instancia de la tienda online.
Carga de CPU (nodo más activo): la carga de CPU del nodo más activo de la instancia de Online Store.
Número de nodos: número de nodos de entrega online de una instancia de tienda online configurada para la entrega online de Bigtable.
Número de nodos optimizado: número de nodos de entrega online de una instancia de tienda online configurada para la entrega online optimizada.
Número de solicitudes: el número de solicitudes recibidas por la instancia de la tienda online.
Latencia de solicitud: latencia de solicitud del lado del servidor de la instancia de la tienda online.
Número de bytes de respuesta: cantidad de datos en bytes enviados en las respuestas de publicación online.
Antigüedad de los datos de publicación: la antigüedad de los datos de publicación en segundos, medida como la diferencia entre la hora actual y la hora de la última sincronización.
Sincronizaciones en curso: número de sincronizaciones en curso en un momento dado.
Datos de servicio por hora de sincronización: desglose de los datos de la instancia de la tienda online por marca de tiempo de sincronización.