Evaluación de modelos en Vertex AI

Vertex AI proporciona métricas de evaluación de los modelos, como la precisión y recuperación, para ayudarte a determinar su rendimiento.

La evaluación del modelo que proporciona Vertex AI puede ajustarse al flujo de trabajo típico del aprendizaje automático de varias maneras:

  1. Después de entrenar tu modelo, revisa las métricas de evaluación del modelo antes de implementarlo. Puedes comparar las métricas de evaluación en varios modelos para ayudarte a decidir qué modelo debes implementar.

  2. Después de implementar tu modelo en producción, evalúa tu modelo periódicamente con datos entrantes nuevos. Si las métricas de evaluación muestran que el rendimiento de tu modelo se está degradando, considera volver a entrenar tu modelo. Este proceso se denomina evaluación continua.

La forma de interpretar y usar estas métricas depende de las necesidades de su empresa y del problema para el que entrenó tu modelo. Por ejemplo, es posible que tengas una tolerancia más baja para los falsos positivos que para los falsos negativos, o viceversa. Estos tipos de preguntas afectan las métricas en las que te enfocarás a medida que iteras en el modelo.

Características

Para evaluar un modelo con Vertex AI, debes tener un modelo entrenado, un resultado de predicción por lotes y un conjunto de datos de verdad fundamental. El siguiente es un flujo de trabajo típico de evaluación de modelos que usa Vertex AI:

  1. Entrenar un modelo. Puedes hacerlo en Vertex AI con AutoML o el entrenamiento personalizado.

  2. Ejecuta un trabajo de predicción por lotes en el modelo para generar resultados de predicciones.

  3. Prepara los datos de verdad fundamental, que son los datos “etiquetados de forma correcta” según lo que determinen las personas. La verdad fundamental suele tener el formato del conjunto de datos de prueba que usaste durante el proceso de entrenamiento de modelos.

  4. Ejecuta un trabajo de evaluación en el modelo, que evalúa la exactitud de los resultados de la predicción por lotes en comparación con los datos de verdad fundamental.

  5. Analiza las métricas que resultan del trabajo de evaluación.

  6. Itera en tu modelo para ver si puedes mejorar la exactitud de tu modelo. Puedes ejecutar varios trabajos de evaluación y comparar los resultados de varios trabajos en los modelos o versiones de modelos.

Puedes ejecutar la evaluación de modelos en Vertex AI de varias maneras:

Vertex AI admite la evaluación de los siguientes tipos de modelos:

Imagen

Clasificación

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: el área bajo la curva de precisión y recuperación (PR), también conocida como precisión promedio. Esta medida puede variar de cero a uno y, cuanto más alto sea su valor, mejor será la calidad del modelo.
  • Pérdida logística: La entropía cruzada entre las predicciones del modelo y los valores objetivo. Esta medida puede variar de cero a infinito y, cuanto más bajo sea su valor, mejor será la calidad del modelo.
  • Umbral de confianza: Una puntuación de confianza que determina qué predicciones mostrar. Un modelo muestra predicciones que tienen este valor o uno más alto. Un umbral de confianza mayor aumenta la precisión, pero reduce la recuperación. Vertex AI muestra métricas de confianza con diferentes valores de umbral para mostrar cómo el umbral afecta la precisión y la recuperación.
  • Recuperación: La fracción de predicciones con esta clase que el modelo predijo de forma correcta. También se denomina tasa de verdaderos positivos.
  • Precisión: La fracción de predicciones de clasificación correctas que produjo el modelo.
  • Matriz de confusión: Una matriz de confusión muestra la frecuencia con la que un modelo predijo correctamente un resultado. Para resultados previstos de forma incorrecta, la matriz muestra lo que el modelo predijo en su lugar. La matriz de confusión te ayuda a comprender dónde tu modelo "confunde" dos resultados.

Tabular

Clasificación

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: el área bajo la curva de precisión y recuperación (PR), también conocida como precisión promedio. Esta medida puede variar de cero a uno y, cuanto más alto sea su valor, mejor será la calidad del modelo.
  • AuROC: El área bajo la curva de característica operativa del receptor. Esta puede variar de cero a uno y cuanto más alto sea su valor, mejor será la calidad del modelo.
  • Pérdida logística: La entropía cruzada entre las predicciones del modelo y los valores objetivo. Esta medida puede variar de cero a infinito y, cuanto más bajo sea su valor, mejor será la calidad del modelo.
  • Umbral de confianza: Una puntuación de confianza que determina qué predicciones mostrar. Un modelo muestra predicciones que tienen este valor o uno más alto. Un umbral de confianza mayor aumenta la precisión, pero reduce la recuperación. Vertex AI muestra métricas de confianza con diferentes valores de umbral para mostrar cómo el umbral afecta la precisión y la recuperación.
  • Recuperación: La fracción de predicciones con esta clase que el modelo predijo de forma correcta. También se denomina tasa de verdaderos positivos.
  • Recuperación a 1: La recuperación (tasa de verdaderos positivos) cuando solo se considera la etiqueta que tiene la puntuación de predicción más alta y no el nivel de confianza de cada ejemplo.
  • Precisión: La fracción de predicciones de clasificación correctas que produjo el modelo.
  • Precisión en 1: La precisión solo cuando se considera la etiqueta que tiene la puntuación de predicción más alta y no está debajo del umbral de confianza para cada ejemplo.
  • Puntuación F1: La media armónica de precisión y recuperación. F1 es una métrica útil si lo que buscas es un equilibrio entre la precisión y la recuperación, y tienes una distribución de clases despareja.
  • Puntuación F1 en 1: La media armónica de recuperación en 1 y precisión en 1.
  • Matriz de confusión: Una matriz de confusión muestra la frecuencia con la que un modelo predijo correctamente un resultado. Para resultados previstos de forma incorrecta, la matriz muestra lo que el modelo predijo en su lugar. La matriz de confusión te ayuda a comprender dónde tu modelo "confunde" dos resultados.
  • Conteo de verdaderos negativos: la cantidad de veces que un modelo predijo correctamente una clase negativa.
  • Recuento de verdaderos positivos: La cantidad de veces que un modelo predijo de forma correcta una clase positiva.
  • Recuento de falsos negativos: La cantidad de veces que un modelo predijo de forma incorrecta una clase negativa.
  • Recuento de falsos positivos: La cantidad de veces que un modelo predijo de forma incorrecta una clase positiva.
  • Tasa de falsos positivos: La fracción de resultados previstos de forma incorrecta de todos los resultados previstos.
  • Tasa de falsos positivos en 1: Tasa de falsos positivos cuando solo se considera la etiqueta que tiene la puntuación más alta de la predicción y no está debajo del umbral de confianza de cada ejemplo.
  • Atribución de atributos del modelo: Vertex AI te muestra cuánto afecta cada atributo a un modelo. Los valores se proporcionan como un porcentaje para cada atributo: cuanto más alto sea el porcentaje, más impacto tendrá el atributo en el entrenamiento del modelo. Revisa esta información para asegurarte de que todos los atributos más importantes sean relevantes para tus datos y tu problema empresarial.

Regresión

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: El error absoluto promedio (MAE) es la diferencia absoluta promedio entre los valores objetivo y los valores previstos. Esta métrica puede variar de cero a infinito, y cuanto más bajo sea el valor, mejor será la calidad del modelo.
  • RMSE: El error de la raíz cuadrada de la media es la raíz cuadrada de la diferencia cuadrada promedio entre los valores objetivo y previsto. RMSE es más sensible a los valores atípicos que MAE, por lo que si te preocupan los grandes errores, RMSE puede ser una métrica más útil para evaluar. Al igual que MAE, cuanto más bajo el valor, mayor será la calidad del modelo (0 representa un predictor perfecto).
  • RMSLE: La métrica del error logarítmico de la raíz cuadrada de la media es similar a RMSE, excepto que usa el logaritmo natural de los valores previstos y reales más 1. RMSLE penaliza con mayor peso la subpredicción que la sobrepredicción. También puede ser una buena métrica cuando no se desea penalizar con mayor peso las diferencias para los valores de predicciones grandes que para los valores de predicciones pequeños. Esta métrica puede variar de cero a infinito y, cuanto más bajo sea el valor, mejor será la calidad del modelo. La métrica de evaluación RMSLE se muestra solo si todos los valores previstos y las etiquetas no son negativos.
  • r^2: r al cuadrado es el cuadrado del coeficiente de correlación de Pearson entre las etiquetas y los valores previstos. Esta métrica puede variar entre cero y uno. Un valor más alto indica un ajuste más cercano a la línea de regresión.
  • MAPE: El error porcentual absoluto promedio (MAPE) es el promedio de la diferencia porcentual absoluta entre los valores previstos y las etiquetas. Esta métrica puede variar entre cero y un valor infinito; cuanto más bajo sea el valor, mejor será la calidad del modelo.
    MAPE no se muestra si la columna objetivo contiene valores 0. En este caso, MAPE no está definido.
  • Atribución de atributos del modelo: Vertex AI te muestra cuánto afecta cada atributo a un modelo. Los valores se proporcionan como un porcentaje para cada atributo: cuanto más alto sea el porcentaje, más impacto tendrá el atributo en el entrenamiento del modelo. Revisa esta información para asegurarte de que todos los atributos más importantes sean relevantes para tus datos y tu problema empresarial.

Previsión

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: El error absoluto promedio (MAE) es la diferencia absoluta promedio entre los valores objetivo y los valores previstos. Esta métrica puede variar de cero a infinito, y cuanto más bajo sea el valor, mejor será la calidad del modelo.
  • RMSE: El error de la raíz cuadrada de la media es la raíz cuadrada de la diferencia cuadrada promedio entre los valores objetivo y previsto. RMSE es más sensible a los valores atípicos que MAE, por lo que si te preocupan los grandes errores, RMSE puede ser una métrica más útil para evaluar. Al igual que MAE, cuanto más bajo el valor, mayor será la calidad del modelo (0 representa un predictor perfecto).
  • RMSLE: La métrica del error logarítmico de la raíz cuadrada de la media es similar a RMSE, excepto que usa el logaritmo natural de los valores previstos y reales más 1. RMSLE penaliza con mayor peso la subpredicción que la sobrepredicción. También puede ser una buena métrica cuando no se desea penalizar con mayor peso las diferencias para los valores de predicciones grandes que para los valores de predicciones pequeños. Esta métrica puede variar de cero a infinito y, cuanto más bajo sea el valor, mejor será la calidad del modelo. La métrica de evaluación RMSLE se muestra solo si todos los valores previstos y las etiquetas no son negativos.
  • r^2: r al cuadrado es el cuadrado del coeficiente de correlación de Pearson entre las etiquetas y los valores previstos. Esta métrica puede variar entre cero y uno. Un valor más alto indica un ajuste más cercano a la línea de regresión.
  • MAPE: El error porcentual absoluto promedio (MAPE) es el promedio de la diferencia porcentual absoluta entre los valores previstos y las etiquetas. Esta métrica puede variar entre cero y un valor infinito; cuanto más bajo sea el valor, mejor será la calidad del modelo.
    MAPE no se muestra si la columna objetivo contiene valores 0. En este caso, MAPE no está definido.
  • WAPE: El error porcentual absoluto ponderado (WAPE) es la diferencia general entre el valor que predice un modelo y los valores que se observan sobre los valores observados. En comparación con el RMSE, el WAPE se calcula en función de las diferencias generales, en lugar de las diferencias individuales, que pueden estar muy influenciadas por valores bajos o intermitentes. Un valor más bajo indica un modelo de mejor calidad.
  • RMSPE: La raíz cuadrada del error cuadrático medio (RMPSE) muestra el RMSE como un porcentaje de los valores reales en lugar de como un número absoluto. Un valor más bajo indica un modelo de mejor calidad.
  • Cuantil: Es el porcentaje de cuantil, que indica la probabilidad de que un valor observado esté por debajo del valor previsto. Por ejemplo, en el cuantil 0.5, se espera que los valores observados sean más bajos que los valores previstos el 50% del tiempo.
  • Cuantil observado: Muestra el porcentaje de valores reales que eran inferiores al valor previsto de un cuantil dado.
  • Pérdida de pinball escalado: Es la pérdida de pinball escalada en un cuantil particular. Un valor más bajo indica un modelo de mayor calidad en el cuantil determinado.

Texto

Clasificación

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: el área bajo la curva de precisión y recuperación (PR), también conocida como precisión promedio. Esta medida puede variar de cero a uno y, cuanto más alto sea su valor, mejor será la calidad del modelo.
  • Pérdida logística: La entropía cruzada entre las predicciones del modelo y los valores objetivo. Esta medida puede variar de cero a infinito y, cuanto más bajo sea su valor, mejor será la calidad del modelo.
  • Umbral de confianza: Una puntuación de confianza que determina qué predicciones mostrar. Un modelo muestra predicciones que tienen este valor o uno más alto. Un umbral de confianza mayor aumenta la precisión, pero reduce la recuperación. Vertex AI muestra métricas de confianza con diferentes valores de umbral para mostrar cómo el umbral afecta la precisión y la recuperación.
  • Recuperación: La fracción de predicciones con esta clase que el modelo predijo de forma correcta. También se denomina tasa de verdaderos positivos.
  • Recuperación a 1: La recuperación (tasa de verdaderos positivos) cuando solo se considera la etiqueta que tiene la puntuación de predicción más alta y no el nivel de confianza de cada ejemplo.
  • Precisión: La fracción de predicciones de clasificación correctas que produjo el modelo.
  • Precisión en 1: La precisión solo cuando se considera la etiqueta que tiene la puntuación de predicción más alta y no está debajo del umbral de confianza para cada ejemplo.
  • Matriz de confusión: Una matriz de confusión muestra la frecuencia con la que un modelo predijo correctamente un resultado. Para resultados previstos de forma incorrecta, la matriz muestra lo que el modelo predijo en su lugar. La matriz de confusión te ayuda a comprender dónde tu modelo "confunde" dos resultados.
  • Puntuación F1: La media armónica de precisión y recuperación. F1 es una métrica útil si lo que buscas es un equilibrio entre la precisión y la recuperación, y tienes una distribución de clases despareja.
  • Puntuación F1 en 1: La media armónica de recuperación en 1 y precisión en 1.

Video

Clasificación

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: el área bajo la curva de precisión y recuperación (PR), también conocida como precisión promedio. Esta medida puede variar de cero a uno y, cuanto más alto sea su valor, mejor será la calidad del modelo.
  • Umbral de confianza: Una puntuación de confianza que determina qué predicciones mostrar. Un modelo muestra predicciones que tienen este valor o uno más alto. Un umbral de confianza mayor aumenta la precisión, pero reduce la recuperación. Vertex AI muestra métricas de confianza con diferentes valores de umbral para mostrar cómo el umbral afecta la precisión y la recuperación.
  • Recuperación: La fracción de predicciones con esta clase que el modelo predijo de forma correcta. También se denomina tasa de verdaderos positivos.
  • Precisión: La fracción de predicciones de clasificación correctas que produjo el modelo.
  • Matriz de confusión: Una matriz de confusión muestra la frecuencia con la que un modelo predijo correctamente un resultado. Para resultados previstos de forma incorrecta, la matriz muestra lo que el modelo predijo en su lugar. La matriz de confusión te ayuda a comprender dónde tu modelo "confunde" dos resultados.
  • Puntuación F1: La media armónica de precisión y recuperación. F1 es una métrica útil si lo que buscas es un equilibrio entre la precisión y la recuperación, y tienes una distribución de clases despareja.

Instructivos para uso de notebooks

Datos tabulares de AutoML

AutoML: Texto

AutoML: Video

Entrenamiento personalizado: Tabular

Vertex AI Model Registry

¿Qué sigue?