El servicio de evaluación de IA de inferencia te permite evaluar el rendimiento de los modelos en casos prácticos específicos. También puedes referirte a la evaluación como la observabilidad del rendimiento de un modelo. La evaluación de modelos que ofrece Vertex AI se puede adaptar al flujo de trabajo habitual de aprendizaje automático de varias formas:
Después de entrenar el modelo, revisa las métricas de evaluación del modelo antes de desplegarlo. Compara las métricas de evaluación de varios modelos para decidir cuál quieres implementar.
Una vez que hayas implementado tu modelo en producción, evalúalo periódicamente con los nuevos datos que recibas. Si las métricas de evaluación muestran que el rendimiento del modelo está disminuyendo, plantéese volver a entrenarlo. Este proceso se denomina evaluación continua.
La forma en que interpretes y uses esas métricas dependerá de las necesidades de tu empresa y del problema para el que se haya entrenado tu modelo. Por ejemplo, puede que tengas una tolerancia menor a los falsos positivos que a los falsos negativos, o viceversa. Este tipo de preguntas influyen en las métricas en las que te centrarás al iterar tu modelo.
Estas son algunas de las métricas clave que proporciona el servicio de evaluación de modelos de IA predictiva:
Funciones
Para evaluar un modelo con Vertex AI, necesitas un modelo entrenado, un resultado de inferencia por lotes y un conjunto de datos de referencia. A continuación, se muestra un flujo de trabajo de evaluación de modelos típico con Vertex AI:
Entrena un modelo. Puedes hacerlo en Vertex AI con AutoML o con el entrenamiento personalizado.
Ejecuta una tarea de inferencia por lotes en el modelo para generar resultados de inferencia.
Prepara los datos de verdad fundamental, que son los datos "etiquetados correctamente" según la opinión de los humanos. La verdad fundamental suele ser el conjunto de datos de prueba que has usado durante el proceso de entrenamiento del modelo.
Ejecuta una tarea de evaluación en el modelo, que evalúa la precisión de los resultados de inferencia por lotes en comparación con los datos validados.
Analiza las métricas que se obtienen de la tarea de evaluación.
Repite el proceso con tu modelo para ver si puedes mejorar su precisión. Puedes ejecutar varias tareas de evaluación y comparar los resultados de varias tareas en diferentes modelos o versiones de modelos.
Puedes ejecutar la evaluación de modelos en Vertex AI de varias formas:
Crea evaluaciones a través del registro de modelos de Vertex AI en laGoogle Cloud consola.
Usa las evaluaciones de modelos de Vertex AI como componente de flujo de trabajo con Vertex AI Pipelines. Puedes crear ejecuciones y plantillas de flujos de trabajo que incluyan evaluaciones de modelos como parte de tu flujo de trabajo de MLOps automatizado.
Puedes ejecutar el componente de evaluación de modelos por sí solo o con otros componentes de la canalización, como el componente de inferencia por lotes.
Vertex AI admite la evaluación de los siguientes tipos de modelos:
Imagen
Clasificación
Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC el área por debajo de la curva de precisión-recuperación (PR), también denominada "precisión media". Este valor va de cero a uno; cuanto mayor es el valor, más calidad tiene el modelo.
- Pérdida logarítmica: la entropía cruzada entre las inferencias del modelo y los valores objetivo. Va de cero a infinito; cuanto menor es el valor, más calidad tiene el modelo.
- Umbral de confianza: una puntuación de confianza que determina qué inferencias se devuelven. Un modelo devuelve inferencias que tienen este valor o uno superior. Cuanto más alto es el umbral de confianza, mayor es la precisión, pero menor es la recuperación. Vertex AI devuelve métricas de confianza en diferentes valores de umbral para mostrar cómo afecta el umbral a la precisión y a la recuperación.
- Retirada: la fracción de inferencias con esta clase que el modelo ha predicho correctamente. También se denomina tasa de verdaderos positivos.
- Precisión: la fracción de las inferencias de clasificación correctas que produjo el modelo.
- Matriz de confusión: una matriz de confusión muestra con qué frecuencia un modelo ha predicho correctamente un resultado. En el caso de los resultados predichos incorrectamente, la matriz muestra lo que predijo el modelo. La matriz de confusión te ayuda a saber en qué casos tu modelo confunde dos resultados.
Tabular
Clasificación
Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC el área por debajo de la curva de precisión-recuperación (PR), también denominada "precisión media". Este valor va de cero a uno; cuanto mayor es el valor, más calidad tiene el modelo.
- AuROC el área por debajo de la curva de característica operativa del receptor. Va de cero a uno; cuanto mayor es el valor, más calidad tiene el modelo.
- Pérdida logarítmica: la entropía cruzada entre las inferencias del modelo y los valores objetivo. Va de cero a infinito; cuanto menor es el valor, más calidad tiene el modelo.
- Umbral de confianza: una puntuación de confianza que determina qué inferencias se devuelven. Un modelo devuelve inferencias que tienen este valor o uno superior. Cuanto más alto es el umbral de confianza, mayor es la precisión, pero menor es la recuperación. Vertex AI devuelve métricas de confianza en diferentes valores de umbral para mostrar cómo afecta el umbral a la precisión y a la recuperación.
- Retirada: la fracción de inferencias con esta clase que el modelo ha predicho correctamente. También se denomina tasa de verdaderos positivos.
- Retirada en 1: la retirada (tasa de verdaderos positivos) cuando solo se tiene en cuenta la etiqueta que tiene la puntuación de inferencia más alta y no está por debajo del umbral de confianza de cada ejemplo.
- Precisión: la fracción de las inferencias de clasificación correctas que produjo el modelo.
- Precisión en 1: la precisión cuando solo se tiene en cuenta la etiqueta que tiene la puntuación de inferencia más alta y no está por debajo del umbral de confianza de cada ejemplo.
- Puntuación F1: media armónica de la precisión y la recuperación. La métrica F1 resulta útil si buscas un equilibrio entre la precisión y la recuperación, así como si las clases están distribuidas de manera desigual.
- Puntuación F1 en 1: media armónica de la recuperación en 1 y la precisión en 1.
- Matriz de confusión: una matriz de confusión muestra con qué frecuencia un modelo ha predicho correctamente un resultado. En el caso de los resultados predichos incorrectamente, la matriz muestra lo que predijo el modelo. La matriz de confusión te ayuda a saber en qué casos tu modelo confunde dos resultados.
- Número de verdaderos negativos: el número de veces que un modelo ha predicho correctamente una clase negativa.
- Número de verdaderos positivos: el número de veces que un modelo ha predicho correctamente una clase positiva.
- Número de falsos negativos: número de veces que un modelo ha predicho erróneamente una clase negativa.
- Número de falsos positivos: el número de veces que un modelo ha predicho erróneamente una clase positiva.
- Tasa de falsos positivos: la fracción de resultados predichos incorrectamente del total de resultados predichos.
- Tasa de falsos positivos en 1: la tasa de falsos positivos cuando solo se tiene en cuenta la etiqueta que tiene la puntuación de inferencia más alta y no está por debajo del umbral de confianza de cada ejemplo.
- Atribuciones de características del modelo: Vertex AI te muestra el impacto de cada característica en un modelo. Los valores se proporcionan como un porcentaje de cada función: cuanto mayor sea el porcentaje, mayor será el impacto de la función en el entrenamiento del modelo. Revise esta información para asegurarse de que todas las funciones más importantes se ajustan a sus datos y al problema de su empresa.
Regresión
Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE El error absoluto medio (MAE) es la diferencia absoluta media entre los valores objetivo y los valores predichos. Esta métrica va de cero a infinito; cuanto menor es el valor, más calidad tiene el modelo.
- RMSE el error cuadrático medio es la raíz cuadrada de la diferencia cuadrática media entre los valores objetivo y los valores predichos. El RMSE es más sensible a los valores atípicos que el MAE, por lo que, si te preocupan los errores grandes, el RMSE puede ser una métrica más útil para evaluar. Al igual que el MAE, cuanto menor sea el valor, mayor será la calidad del modelo (un 0 representa un predictor perfecto).
- RMSLE la métrica del error logarítmico cuadrático medio de la raíz es similar al RMSE, pero usa el logaritmo natural de los valores predichos y reales más 1. RMSLE penaliza las inferencias insuficientes más que las excesivas. También puede ser una buena métrica cuando no quieras penalizar las diferencias de valores de inferencia grandes más que las de valores de inferencia pequeños. Esta métrica va de cero a infinito; cuanto menor es el valor, más calidad tiene el modelo. La métrica de evaluación RMSLE solo se devuelve si todos los valores de la etiqueta y los valores predichos son no negativos.
- r^2: r cuadrado (r^2) es el valor al cuadrado del coeficiente de correlación de Pearson entre los valores predichos y las etiquetas. Esta métrica va de cero a uno. Cuanto mayor sea el valor, más se ajustará a la línea de regresión.
-
MAPE: El error medio del porcentaje absoluto (MAPE) es la diferencia media de porcentaje absoluto entre las etiquetas y los valores predichos. Esta métrica va de cero a infinito; cuanto menor es el valor, más calidad tiene el modelo.
El MAPE no se muestra si la columna de destino contiene algún valor 0. En este caso, MAPE no está definido. - Atribuciones de características del modelo: Vertex AI te muestra el impacto de cada característica en un modelo. Los valores se proporcionan como un porcentaje de cada función: cuanto mayor sea el porcentaje, mayor será el impacto de la función en el entrenamiento del modelo. Revise esta información para asegurarse de que todas las funciones más importantes se ajustan a sus datos y al problema de su empresa.
Previsión
Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE El error absoluto medio (MAE) es la diferencia absoluta media entre los valores objetivo y los valores predichos. Esta métrica va de cero a infinito; cuanto menor es el valor, más calidad tiene el modelo.
- RMSE el error cuadrático medio es la raíz cuadrada de la diferencia cuadrática media entre los valores objetivo y los valores predichos. El RMSE es más sensible a los valores atípicos que el MAE, por lo que, si te preocupan los errores grandes, el RMSE puede ser una métrica más útil para evaluar. Al igual que el MAE, cuanto menor sea el valor, mayor será la calidad del modelo (un 0 representa un predictor perfecto).
- RMSLE la métrica del error logarítmico cuadrático medio de la raíz es similar al RMSE, pero usa el logaritmo natural de los valores predichos y reales más 1. RMSLE penaliza las inferencias insuficientes más que las excesivas. También puede ser una buena métrica cuando no quieras penalizar las diferencias de valores de inferencia grandes más que las de valores de inferencia pequeños. Esta métrica va de cero a infinito; cuanto menor es el valor, más calidad tiene el modelo. La métrica de evaluación RMSLE solo se devuelve si todos los valores de la etiqueta y los valores predichos son no negativos.
- r^2: r cuadrado (r^2) es el valor al cuadrado del coeficiente de correlación de Pearson entre los valores predichos y las etiquetas. Esta métrica va de cero a uno. Cuanto mayor sea el valor, más se ajustará a la línea de regresión.
-
MAPE: El error medio del porcentaje absoluto (MAPE) es la diferencia media de porcentaje absoluto entre las etiquetas y los valores predichos. Esta métrica va de cero a infinito; cuanto menor es el valor, más calidad tiene el modelo.
El MAPE no se muestra si la columna de destino contiene algún valor 0. En este caso, MAPE no está definido. - WAPE: el error porcentual absoluto ponderado (WAPE) es la diferencia general entre el valor predicho por un modelo y los valores observados. En comparación con el RMSE, el WAPE se centra en las diferencias generales en lugar de en las individuales, que pueden verse muy influenciadas por valores bajos o intermitentes. Cuanto menor sea el valor, mayor será la calidad del modelo.
- RMSPE la raíz cuadrada del error cuadrático medio porcentual (RMSPE) muestra el RMSE como un porcentaje de los valores reales en lugar de como un número absoluto. Cuanto menor sea el valor, mayor será la calidad del modelo.
- Cuantil: el cuantil porcentual, que indica la probabilidad de que un valor observado sea inferior al valor previsto. Por ejemplo, en el cuantil 0,5, se espera que los valores observados sean inferiores a los valores predichos el 50% de las veces.
- Cuantil observado: muestra el porcentaje de valores verdaderos que eran inferiores al valor previsto de un cuantil determinado.
- Pérdida de pinball escalada: la pérdida de pinball escalada en un cuantil concreto. Cuanto menor sea el valor, mayor será la calidad del modelo en el cuantil dado.
Tutoriales de Notebook
AutoML: Tabular
Entrenamiento personalizado: tabular
Registro de modelos de Vertex AI
Siguientes pasos
- Consulta cómo evaluar modelos con Vertex AI.