Comprender el rendimiento del modelo es una parte importante de la administración de los modelos de aprendizaje automático. Puedes supervisar los patrones de tráfico, las tasas de error, la latencia y el uso de recursos del modelo para detectar problemas en los modelos y encontrar el tipo de máquina adecuado a fin de optimizar la latencia y el costo.
También puedes usar Cloud Monitoring para configurar alertas basadas en las métricas. Por ejemplo, puedes recibir alertas si la latencia de predicción del modelo es demasiado alta. AI Platform Prediction exporta métricas a Cloud Monitoring.
Cada tipo de métrica de AI Platform Prediction contiene “prediction” en su nombre; por ejemplo, ml.googleapis.com/prediction/online/replicas
o ml.googleapis.com/prediction/online/accelerator/duty_cycle
.
Supervisa las métricas de rendimiento
Puedes encontrar información sobre los patrones de tráfico, los errores y la latencia del modelo en la consola de Google Cloud . Los siguientes gráficos están disponibles en la página Detalles de la versión, en la pestaña Rendimiento:
- Predicciones: La cantidad de predicciones por segundo en la predicción en línea y por lotes. Si tienes más de una instancia por solicitud, cada instancia se cuenta en este gráfico.
- Errores: La tasa de errores que produce el modelo. Por lo general, una tasa alta de errores significa que hay un problema con el modelo o sus solicitudes. Los códigos de respuesta pueden usarse para determinar cuáles son los errores que se producen.
- Latencia del modelo y latencia total: La latencia del modelo. La latencia total es el tiempo total que la solicitud le dedica al servicio. La latencia del modelo es el tiempo dedicado al procesamiento.
Para ver los gráficos de rendimiento, sigue estos pasos:
Ve a la página Modelos de AI Platform Prediction en la consola deGoogle Cloud .
Haz clic en el nombre del modelo en la lista para ir a la página Detalles del modelo.
Haz clic en el nombre de la versión en la lista para ir a la página Detalles de la versión.
Si aún no está seleccionado, haz clic en la pestaña Rendimiento.
Desplázate para ver cada uno de los gráficos.
Supervisa el consumo de recursos
Los gráficos de uso de recursos de las versiones del modelo que usan tipos de máquinas (N1) de Compute Engine están disponibles en la consola deGoogle Cloud . Los siguientes gráficos están disponibles en la página Detalles de la versión, en la pestaña Uso de recursos:
- Réplica: La cantidad de réplicas para la versión. Si usas el escalamiento manual, este gráfico muestra la cantidad de nodos que elegiste cuando implementaste o actualizaste la versión por última vez. Si habilitaste el ajuste de escala automático, el gráfico muestra cómo cambia el recuento de réplicas del modelo con el tiempo en respuesta a los cambios en el tráfico
- Uso de CPU y de memoria, y ciclo de trabajo promedio y uso de memoria del acelerador: El uso de memoria, CPU y GPU de la versión por réplica
Bytes de red enviados y recibidos: El uso de red del trabajo, medido en bytes por segundo
Para ver los gráficos de uso de recursos, sigue estos pasos:
Ve a la página Modelos de AI Platform Prediction en la consola deGoogle Cloud .
Haz clic en el nombre del modelo en la lista para ir a la página Detalles del modelo.
Haz clic en el nombre de la versión en la lista para ir a la página Detalles de la versión.
Haz clic en la pestaña Uso de recursos.
Desplázate para ver cada uno de los gráficos.
¿Qué sigue?
- Soluciona problemas con tu versión del modelo.
- Selecciona un tipo de máquina para disminuir la latencia o los costos.