Evaluación de modelos en Vertex AI

Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Vertex AI proporciona métricas de evaluación de modelos, como precisión y recuperación, para ayudarte a determinar el rendimiento de tus modelos.

La evaluación del modelo que proporciona Vertex AI se puede ajustar al flujo de trabajo típico de aprendizaje automático de varias maneras:

  1. Después de entrenar tu modelo, revisa las métricas de evaluación del modelo antes de implementarlo. Puedes comparar las métricas de evaluación de varios modelos para decidir qué modelo debes implementar.

  2. Después de implementar tu modelo en producción, evalúa tu modelo con datos entrantes nuevos de forma periódica. Si las métricas de evaluación muestran que el rendimiento de tu modelo se está degradando, considera volver a entrenar tu modelo. Este proceso se denomina evaluación continua.

La forma de interpretar y usar estas métricas depende de las necesidades de su empresa y del problema para el que entrenó tu modelo. Por ejemplo, es posible que tengas una tolerancia más baja para los falsos positivos que para los falsos negativos, o viceversa. Este tipo de preguntas afecta las métricas en las que te enfocarías a medida que iteras en tu modelo.

Características

Para evaluar un modelo con Vertex AI, debes tener un modelo entrenado, un resultado de predicción por lotes y un conjunto de datos de verdad fundamental. El siguiente es un flujo de trabajo típico de evaluación del modelo que usa Vertex AI:

  1. Entrenar un modelo. Puedes hacerlo en Vertex AI mediante AutoML o el entrenamiento personalizado.

  2. Ejecuta un trabajo de predicción por lotes en el modelo para generar resultados de predicciones.

  3. Prepara los datos de verdad fundamental, que son los datos “etiquetados de forma correcta” según lo que determinen las personas. La verdad fundamental suele tener la forma del conjunto de datos de prueba que usaste durante el proceso de entrenamiento de modelos.

  4. Ejecuta un trabajo de evaluación en el modelo, que evalúa la exactitud de los resultados de la predicción por lotes en comparación con los datos de verdad fundamental.

  5. Analiza las métricas que resultan del trabajo de evaluación.

  6. Itera en tu modelo para ver si puedes mejorar la exactitud de tu modelo. Puedes ejecutar varios trabajos de evaluación y comparar los resultados de varios trabajos en modelos o versiones de modelos.

Puedes ejecutar la evaluación de modelos en Vertex AI de varias maneras:

  • Crea evaluaciones a través de Vertex AI Model Registry en la consola de Google Cloud.

  • Usa las evaluaciones de modelo de Vertex AI como un componente de canalización con Vertex AI Pipelines. Puedes crear ejecuciones de canalizaciones y plantillas que incluyan evaluaciones de modelos como parte de tu flujo de trabajo automatizado de MLOps.

Vertex AI admite la evaluación de los siguientes tipos de modelos:

Imagen

Clasificación

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: el área bajo la curva de precisión y recuperación (PR), también conocida como precisión promedio. Esta medida puede variar de cero a uno y, cuanto más alto sea su valor, mejor será la calidad del modelo.
  • Pérdida logística: La entropía cruzada entre las predicciones del modelo y los valores objetivo. Esta medida puede variar de cero a infinito y, cuanto más bajo sea su valor, mejor será la calidad del modelo.
  • Umbral de confianza: Una puntuación de confianza que determina qué predicciones mostrar. Un modelo muestra predicciones que tienen este valor o uno más alto. Un umbral de confianza mayor aumenta la precisión, pero reduce la recuperación. Vertex AI muestra métricas de confianza con diferentes valores de umbral para mostrar cómo el umbral afecta la precisión y la recuperación.
  • Recuperación: La fracción de predicciones con esta clase que el modelo predijo de forma correcta. También se denomina tasa de verdaderos positivos.
  • Precisión: La fracción de predicciones de clasificación correctas que produjo el modelo.
  • Matriz de confusión: Una matriz de confusión muestra la frecuencia con la que un modelo predijo correctamente un resultado. Para resultados previstos de forma incorrecta, la matriz muestra lo que el modelo predijo en su lugar. La matriz de confusión te ayuda a comprender dónde tu modelo "confunde" dos resultados.

Tabular

Clasificación

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: el área bajo la curva de precisión y recuperación (PR), también conocida como precisión promedio. Esta medida puede variar de cero a uno y, cuanto más alto sea su valor, mejor será la calidad del modelo.
  • AuROC: El área bajo la curva de característica operativa del receptor. Esta puede variar de cero a uno y cuanto más alto sea su valor, mejor será la calidad del modelo.
  • Pérdida logística: La entropía cruzada entre las predicciones del modelo y los valores objetivo. Esta medida puede variar de cero a infinito y, cuanto más bajo sea su valor, mejor será la calidad del modelo.
  • Umbral de confianza: Una puntuación de confianza que determina qué predicciones mostrar. Un modelo muestra predicciones que tienen este valor o uno más alto. Un umbral de confianza mayor aumenta la precisión, pero reduce la recuperación. Vertex AI muestra métricas de confianza con diferentes valores de umbral para mostrar cómo el umbral afecta la precisión y la recuperación.
  • Recuperación: La fracción de predicciones con esta clase que el modelo predijo de forma correcta. También se denomina tasa de verdaderos positivos.
  • Recuperación a 1: La recuperación (tasa de verdaderos positivos) cuando solo se considera la etiqueta que tiene la puntuación de predicción más alta y no el nivel de confianza de cada ejemplo.
  • Precisión: La fracción de predicciones de clasificación correctas que produjo el modelo.
  • Precisión en 1: La precisión solo cuando se considera la etiqueta que tiene la puntuación de predicción más alta y no está debajo del umbral de confianza para cada ejemplo.
  • Puntuación F1: La media armónica de precisión y recuperación. F1 es una métrica útil si lo que buscas es un equilibrio entre la precisión y la recuperación, y tienes una distribución de clases despareja.
  • Puntuación F1 en 1: La media armónica de recuperación en 1 y precisión en 1.
  • Matriz de confusión: Una matriz de confusión muestra la frecuencia con la que un modelo predijo correctamente un resultado. Para resultados previstos de forma incorrecta, la matriz muestra lo que el modelo predijo en su lugar. La matriz de confusión te ayuda a comprender dónde tu modelo "confunde" dos resultados.
  • Conteo de verdaderos negativos: la cantidad de veces que un modelo predijo correctamente una clase negativa.
  • Recuento de verdaderos positivos: La cantidad de veces que un modelo predijo de forma correcta una clase positiva.
  • Recuento de falsos negativos: La cantidad de veces que un modelo predijo de forma incorrecta una clase negativa.
  • Recuento de falsos positivos: La cantidad de veces que un modelo predijo de forma incorrecta una clase positiva.
  • Tasa de falsos positivos: La fracción de resultados previstos de forma incorrecta de todos los resultados previstos.
  • Tasa de falsos positivos en 1: Tasa de falsos positivos cuando solo se considera la etiqueta que tiene la puntuación más alta de la predicción y no está debajo del umbral de confianza de cada ejemplo.
  • Atribución de atributos del modelo: Vertex AI te muestra cuánto afecta cada atributo a un modelo. Los valores se proporcionan como un porcentaje para cada atributo: cuanto más alto sea el porcentaje, más impacto tendrá el atributo en el entrenamiento del modelo. Revisa esta información para asegurarte de que todos los atributos más importantes sean relevantes para tus datos y tu problema empresarial.

Regresión

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: El error absoluto promedio (MAE) es la diferencia absoluta promedio entre los valores objetivo y los valores previstos. Esta métrica puede variar de cero a infinito, y cuanto más bajo sea el valor, mejor será la calidad del modelo.
  • RMSE: El error de la raíz cuadrada de la media es la raíz cuadrada de la diferencia cuadrada promedio entre los valores objetivo y previsto. RMSE es más sensible a los valores atípicos que MAE, por lo que si te preocupan los grandes errores, RMSE puede ser una métrica más útil para evaluar. Al igual que MAE, cuanto más bajo el valor, mayor será la calidad del modelo (0 representa un predictor perfecto).
  • RMSLE: La métrica del error logarítmico de la raíz cuadrada de la media es similar a RMSE, excepto que usa el logaritmo natural de los valores previstos y reales más 1. RMSLE penaliza con mayor peso la subpredicción que la sobrepredicción. También puede ser una buena métrica cuando no se desea penalizar con mayor peso las diferencias para los valores de predicciones grandes que para los valores de predicciones pequeños. Esta métrica puede variar de cero a infinito y, cuanto más bajo sea el valor, mejor será la calidad del modelo. La métrica de evaluación RMSLE se muestra solo si todos los valores previstos y las etiquetas no son negativos.
  • r^2: r al cuadrado es el cuadrado del coeficiente de correlación de Pearson entre las etiquetas y los valores previstos. Esta métrica puede variar entre cero y uno; cuanto más alto sea el valor, mejor será la calidad del modelo.
  • MAPE: El error porcentual absoluto promedio (MAPE) es el promedio de la diferencia porcentual absoluta entre los valores previstos y las etiquetas. Esta métrica puede variar entre cero y un valor infinito; cuanto más bajo sea el valor, mejor será la calidad del modelo.
    MAPE no se muestra si la columna objetivo contiene valores 0. En este caso, MAPE no está definido.
  • Atribución de atributos del modelo: Vertex AI te muestra cuánto afecta cada atributo a un modelo. Los valores se proporcionan como un porcentaje para cada atributo: cuanto más alto sea el porcentaje, más impacto tendrá el atributo en el entrenamiento del modelo. Revisa esta información para asegurarte de que todos los atributos más importantes sean relevantes para tus datos y tu problema empresarial.

Previsión

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: El error absoluto promedio (MAE) es la diferencia absoluta promedio entre los valores objetivo y los valores previstos. Esta métrica puede variar de cero a infinito, y cuanto más bajo sea el valor, mejor será la calidad del modelo.
  • RMSE: El error de la raíz cuadrada de la media es la raíz cuadrada de la diferencia cuadrada promedio entre los valores objetivo y previsto. RMSE es más sensible a los valores atípicos que MAE, por lo que si te preocupan los grandes errores, RMSE puede ser una métrica más útil para evaluar. Al igual que MAE, cuanto más bajo el valor, mayor será la calidad del modelo (0 representa un predictor perfecto).
  • RMSLE: La métrica del error logarítmico de la raíz cuadrada de la media es similar a RMSE, excepto que usa el logaritmo natural de los valores previstos y reales más 1. RMSLE penaliza con mayor peso la subpredicción que la sobrepredicción. También puede ser una buena métrica cuando no se desea penalizar con mayor peso las diferencias para los valores de predicciones grandes que para los valores de predicciones pequeños. Esta métrica puede variar de cero a infinito y, cuanto más bajo sea el valor, mejor será la calidad del modelo. La métrica de evaluación RMSLE se muestra solo si todos los valores previstos y las etiquetas no son negativos.
  • r^2: r al cuadrado es el cuadrado del coeficiente de correlación de Pearson entre las etiquetas y los valores previstos. Esta métrica puede variar entre cero y uno; cuanto más alto sea el valor, mejor será la calidad del modelo.
  • MAPE: El error porcentual absoluto promedio (MAPE) es el promedio de la diferencia porcentual absoluta entre los valores previstos y las etiquetas. Esta métrica puede variar entre cero y un valor infinito; cuanto más bajo sea el valor, mejor será la calidad del modelo.
    MAPE no se muestra si la columna objetivo contiene valores 0. En este caso, MAPE no está definido.
  • WAPE: El error porcentual absoluto ponderado (WAPE) es la diferencia general entre el valor que predice un modelo y los valores que se observan sobre los valores observados. En comparación con el RMSE, el WAPE se calcula en función de las diferencias generales, en lugar de las diferencias individuales, que pueden estar muy influenciadas por valores bajos o intermitentes. Un valor más bajo indica un modelo de mejor calidad.
  • RMSPE: La raíz cuadrada del error cuadrático medio (RMPSE) muestra el RMSE como un porcentaje de los valores reales en lugar de como un número absoluto. Un valor más bajo indica un modelo de mejor calidad.
  • Cuantil: Es el porcentaje de cuantil, que indica la probabilidad de que un valor observado esté por debajo del valor previsto. Por ejemplo, en el cuantil 0.5, se espera que los valores observados sean más bajos que los valores previstos el 50% del tiempo.
  • Cuantil observado: Muestra el porcentaje de valores reales que eran inferiores al valor previsto de un cuantil dado.
  • Pérdida de pinball escalado: Es la pérdida de pinball escalada en un cuantil particular. Un valor más bajo indica un modelo de mayor calidad en el cuantil determinado.

Texto

Clasificación

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: el área bajo la curva de precisión y recuperación (PR), también conocida como precisión promedio. Esta medida puede variar de cero a uno y, cuanto más alto sea su valor, mejor será la calidad del modelo.
  • Pérdida logística: La entropía cruzada entre las predicciones del modelo y los valores objetivo. Esta medida puede variar de cero a infinito y, cuanto más bajo sea su valor, mejor será la calidad del modelo.
  • Umbral de confianza: Una puntuación de confianza que determina qué predicciones mostrar. Un modelo muestra predicciones que tienen este valor o uno más alto. Un umbral de confianza mayor aumenta la precisión, pero reduce la recuperación. Vertex AI muestra métricas de confianza con diferentes valores de umbral para mostrar cómo el umbral afecta la precisión y la recuperación.
  • Recuperación: La fracción de predicciones con esta clase que el modelo predijo de forma correcta. También se denomina tasa de verdaderos positivos.
  • Recuperación a 1: La recuperación (tasa de verdaderos positivos) cuando solo se considera la etiqueta que tiene la puntuación de predicción más alta y no el nivel de confianza de cada ejemplo.
  • Precisión: La fracción de predicciones de clasificación correctas que produjo el modelo.
  • Precisión en 1: La precisión solo cuando se considera la etiqueta que tiene la puntuación de predicción más alta y no está debajo del umbral de confianza para cada ejemplo.
  • Matriz de confusión: Una matriz de confusión muestra la frecuencia con la que un modelo predijo correctamente un resultado. Para resultados previstos de forma incorrecta, la matriz muestra lo que el modelo predijo en su lugar. La matriz de confusión te ayuda a comprender dónde tu modelo "confunde" dos resultados.
  • Puntuación F1: La media armónica de precisión y recuperación. F1 es una métrica útil si lo que buscas es un equilibrio entre la precisión y la recuperación, y tienes una distribución de clases despareja.
  • Puntuación F1 en 1: La media armónica de recuperación en 1 y precisión en 1.
  • Matriz de confusión: Una matriz de confusión muestra la frecuencia con la que un modelo predijo correctamente un resultado. Para resultados previstos de forma incorrecta, la matriz muestra lo que el modelo predijo en su lugar. La matriz de confusión te ayuda a comprender dónde tu modelo "confunde" dos resultados.

Video

Clasificación

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: el área bajo la curva de precisión y recuperación (PR), también conocida como precisión promedio. Esta medida puede variar de cero a uno y, cuanto más alto sea su valor, mejor será la calidad del modelo.
  • Umbral de confianza: Una puntuación de confianza que determina qué predicciones mostrar. Un modelo muestra predicciones que tienen este valor o uno más alto. Un umbral de confianza mayor aumenta la precisión, pero reduce la recuperación. Vertex AI muestra métricas de confianza con diferentes valores de umbral para mostrar cómo el umbral afecta la precisión y la recuperación.
  • Recuperación: La fracción de predicciones con esta clase que el modelo predijo de forma correcta. También se denomina tasa de verdaderos positivos.
  • Precisión: La fracción de predicciones de clasificación correctas que produjo el modelo.
  • Matriz de confusión: Una matriz de confusión muestra la frecuencia con la que un modelo predijo correctamente un resultado. Para resultados previstos de forma incorrecta, la matriz muestra lo que el modelo predijo en su lugar. La matriz de confusión te ayuda a comprender dónde tu modelo "confunde" dos resultados.
  • Puntuación F1: La media armónica de precisión y recuperación. F1 es una métrica útil si lo que buscas es un equilibrio entre la precisión y la recuperación, y tienes una distribución de clases despareja.

¿Qué sigue?