Évaluation de modèles dans Vertex AI

Vertex AI fournit des métriques d'évaluation de modèle pour les modèles d'IA prédictive et d'IA générative. Cette page présente le service d'évaluation pour les modèles d'IA prédictive. Pour évaluer un modèle d'IA générative, consultez Présentation du service d'évaluation de l'IA générative.

Le service d'évaluation de l'IA prédictive vous permet d'évaluer les performances des modèles dans des cas d'utilisation spécifiques. Vous pouvez également désigner l'évaluation comme une observabilité des performances d'un modèle. L'évaluation du modèle fournie par Vertex AI peut s'intégrer au workflow de machine learning classique de plusieurs manières :

  • Après avoir entraîné votre modèle, consultez les métriques d'évaluation du modèle avant de le déployer. Vous pouvez comparer les métriques d'évaluation de plusieurs modèles pour vous aider à choisir celui à déployer.

  • Une fois votre modèle déployé en production, évaluez-le régulièrement avec de nouvelles données entrantes. Si les métriques d'évaluation indiquent que les performances de votre modèle se dégradent, envisagez de l'entraîner à nouveau. Ce processus est appelé évaluation continue.

La manière dont vous interprétez et utilisez ces métriques dépend des besoins de votre entreprise et du problème que votre modèle est entraîné à résoudre. Par exemple, vous pouvez obtenir une tolérance plus faible pour les faux positifs que pour les faux négatifs, ou inversement. Ce genre de questions a une incidence sur les métriques sur lesquelles vous devez vous concentrer lorsque vous effectuez des itérations sur votre modèle.

Voici quelques métriques clés fournies par le service d'évaluation des modèles d'IA prédictive :

Fonctionnalités

Pour évaluer un modèle avec Vertex AI, vous devez disposer d'un modèle entraîné, d'une sortie de prédiction par lot et d'un ensemble de données de vérité terrain. Voici un workflow d'évaluation de modèle classique utilisant Vertex AI :

  1. Entraîner un modèle Vous pouvez le faire dans Vertex AI à l'aide d'AutoML ou de l'entraînement personnalisé.

  2. Exécutez une tâche de prédiction par lot sur le modèle pour générer des résultats de prédiction.

  3. Préparez les données de vérité terrain, qui correspondent aux données "correctement étiquetées" telles que déterminées par les humains. La vérité terrain se présente généralement sous la forme de l'ensemble de données de test que vous avez utilisé lors du processus d'entraînement du modèle.

  4. Exécutez une tâche d'évaluation sur le modèle, qui évalue la justesse des résultats de la prédiction par lot par rapport aux données de vérité terrain.

  5. Analysez les métriques résultant de la tâche d'évaluation.

  6. Effectuez une itération sur votre modèle pour voir si vous pouvez améliorer sa justesse. Vous pouvez exécuter plusieurs tâches d'évaluation et comparer les résultats de plusieurs tâches sur plusieurs modèles ou versions de modèle.

Vous pouvez exécuter l'évaluation de modèles de Vertex AI de plusieurs manières :

  • Créez des évaluations via Vertex AI Model Registry dans la console Google Cloud.

  • Utilisez les évaluations de modèle de Vertex AI en tant que composant de pipeline avec Vertex AI Pipelines. Vous pouvez créer des exécutions de pipeline et des modèles qui incluent des évaluations de modèle dans le cadre de votre workflow MLOps automatisé.

    Vous pouvez exécuter le composant d'évaluation de modèle seul ou avec d'autres composants de pipeline, tels que le composant de prédiction par lot.

Vertex AI est compatible avec l'évaluation des types de modèles suivants :

Image

Classification

Vous pouvez afficher et télécharger des fichiers de schéma à partir de l'emplacement Cloud Storage suivant :
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC : zone sous la courbe de précision/rappel, également appelée précision moyenne. Cette valeur est comprise entre zéro et un. Plus elle est élevée, plus le modèle est de bonne qualité.
  • Perte logistique : entropie croisée entre les prédictions du modèle et les valeurs cibles. Cette valeur varie de zéro à l'infini. Plus elle est faible, plus le modèle est de bonne qualité.
  • Seuil de confiance : score de confiance qui détermine les prédictions à renvoyer. Un modèle renvoie des prédictions d'une valeur égale ou supérieure. Un seuil de confiance élevé augmente la précision, mais diminue le rappel. Vertex AI renvoie des métriques de confiance à différentes valeurs de seuil pour montrer l'impact du seuil sur la précision et le rappel.
  • Rappel : fraction des prédictions comportant cette classe que le modèle a correctement prédites. Également appelé taux de vrais positifs.
  • Précision : fraction des prédictions de classification produites par le modèle qui étaient correctes.
  • Matrice de confusion : une matrice de confusion indique la fréquence à laquelle un modèle prédit correctement un résultat. Pour les résultats prédits de manière incorrecte, la matrice indique ce que le modèle a prédit à la place. La matrice de confusion vous permet de comprendre où votre modèle "confond" deux résultats.

Tabulaire

Classification

Vous pouvez afficher et télécharger des fichiers de schéma à partir de l'emplacement Cloud Storage suivant :
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC : zone sous la courbe de précision/rappel, également appelée précision moyenne. Cette valeur est comprise entre zéro et un. Plus elle est élevée, plus le modèle est de bonne qualité.
  • AuROC : zone sous la courbe ROC (Receiver Operating Characteristic). Cette valeur est comprise entre zéro et un. Plus elle est élevée, plus le modèle est de bonne qualité.
  • Perte logistique : entropie croisée entre les prédictions du modèle et les valeurs cibles. Cette valeur varie de zéro à l'infini. Plus elle est faible, plus le modèle est de bonne qualité.
  • Seuil de confiance : score de confiance qui détermine les prédictions à renvoyer. Un modèle renvoie des prédictions d'une valeur égale ou supérieure. Un seuil de confiance élevé augmente la précision, mais diminue le rappel. Vertex AI renvoie des métriques de confiance à différentes valeurs de seuil pour montrer l'impact du seuil sur la précision et le rappel.
  • Rappel : fraction des prédictions comportant cette classe que le modèle a correctement prédites. Également appelé taux de vrais positifs.
  • Rappel à 1 : le rappel (taux de vrais positifs) lorsque vous ne tenez compte que de l'étiquette dont le score de prédiction est à la fois le plus élevé et supérieur ou égal au seuil de confiance de chaque exemple.
  • Précision : fraction des prédictions de classification produites par le modèle qui étaient correctes.
  • Précision 1 : précision lorsque vous ne tenez compte que de l'étiquette dont le score de prédiction est à la fois le plus élevé et supérieur ou égal au seuil de confiance de chaque exemple.
  • Score F1 : moyenne harmonique de précision et du rappel. F1 est une métrique utile si vous souhaitez équilibrer précision et rappel, et que les classes sont réparties de façon inégale.
  • Score F1 à 1 : moyenne harmonique du rappel à 1 et de précision à 1.
  • Matrice de confusion : une matrice de confusion indique la fréquence à laquelle un modèle prédit correctement un résultat. Pour les résultats prédits de manière incorrecte, la matrice indique ce que le modèle a prédit à la place. La matrice de confusion vous permet de comprendre où votre modèle "confond" deux résultats.
  • Nombre de vrais négatifs : nombre de fois qu'un modèle a correctement prédit une classe négative.
  • Nombre de vrais positifs : nombre de fois qu'un modèle a correctement prédit une classe positive.
  • Nombre de faux négatifs : nombre de fois où un modèle a prédit par erreur une classe négative.
  • Nombre de faux positifs : nombre de fois où un modèle a prédit par erreur une classe positive.
  • Taux de faux positifs : fraction de résultats prédits de manière incorrecte sur tous les résultats prédits.
  • Taux de faux positifs à 1 : taux de faux positifs lorsque vous ne tenez compte que de l'étiquette dont le score de prédiction est à la fois le plus élevé et supérieur ou égal au seuil de confiance de chaque exemple.
  • Attributions des caractéristiques du modèle : Vertex AI indique l'impact de chaque caractéristique sur un modèle. Les valeurs sont fournies sous la forme d'un pourcentage pour chaque caractéristique : plus le pourcentage est élevé, plus l'impact de la caractéristique sur l'entraînement du modèle est important. Examinez ces informations pour vous assurer que toutes les caractéristiques les plus importantes sont pertinentes pour vos données et votre problème commercial.

Régression

Vous pouvez afficher et télécharger des fichiers de schéma à partir de l'emplacement Cloud Storage suivant :
gs://google-cloud-aiplatform/schema/modelevaluation/

  • EAM : l'erreur absolue moyenne (EAM) représente l'écart absolu moyen entre les valeurs cibles et les valeurs prédites. Cette valeur varie de zéro à l'infini. Plus elle est faible, plus le modèle est de bonne qualité.
  • RMSE : la racine carrée de l'erreur quadratique moyenne est la racine carrée de la différence carrée moyenne entre les valeurs cibles et prédites. La RMSE est plus sensible aux anomalies que l'EAM. Par conséquent, si vous craignez des erreurs importantes, cette métrique est sans doute plus utile à évaluer. Comme pour l'EAM, une valeur inférieure indique un modèle de qualité supérieure (0 représentant un prédicteur parfait).
  • RMSLE : la racine carrée de l'erreur logarithmique quadratique moyenne est semblable à la RMSE, à ceci près qu'elle utilise le logarithme naturel des valeurs prédictives et réelles plus 1. La RMSLE pénalise davantage la sous-prédiction que la sur-prédiction. Cette métrique est également utile si vous ne souhaitez pas pénaliser plus fortement les différences dans les grandes valeurs de prédiction par rapport aux valeurs plus petites. Cette valeur varie de zéro à l'infini. Plus elle est faible, plus le modèle est de bonne qualité. La métrique d'évaluation RMSLE ne s'affiche que si toutes les valeurs et étiquettes de prédiction sont non négatives.
  • r^2 : r-carré (r^2) correspond au carré du coefficient de corrélation Pearson entre les valeurs observées et les valeurs prédites. Cette métrique est comprise entre zéro et un. Une valeur plus élevée indique une meilleure adéquation avec la ligne de régression.
  • MAPE : l'erreur absolue moyenne en pourcentage (EAMP) représente l'écart absolu moyen en pourcentage entre les étiquettes et les valeurs prédites. Cette valeur varie de zéro à l'infini. Plus elle est faible, plus le modèle est de bonne qualité.
    L'EAMP ne s'affiche pas si la colonne cible contient des valeurs nulles. Dans ce cas, l'EAMP n'est pas définie.
  • Attributions des caractéristiques du modèle : Vertex AI indique l'impact de chaque caractéristique sur un modèle. Les valeurs sont fournies sous la forme d'un pourcentage pour chaque caractéristique : plus le pourcentage est élevé, plus l'impact de la caractéristique sur l'entraînement du modèle est important. Examinez ces informations pour vous assurer que toutes les caractéristiques les plus importantes sont pertinentes pour vos données et votre problème commercial.

Prévision

Vous pouvez afficher et télécharger des fichiers de schéma à partir de l'emplacement Cloud Storage suivant :
gs://google-cloud-aiplatform/schema/modelevaluation/

  • EAM : l'erreur absolue moyenne (EAM) représente l'écart absolu moyen entre les valeurs cibles et les valeurs prédites. Cette valeur varie de zéro à l'infini. Plus elle est faible, plus le modèle est de bonne qualité.
  • RMSE : la racine carrée de l'erreur quadratique moyenne est la racine carrée de la différence carrée moyenne entre les valeurs cibles et prédites. La RMSE est plus sensible aux anomalies que l'EAM. Par conséquent, si vous craignez des erreurs importantes, cette métrique est sans doute plus utile à évaluer. Comme pour l'EAM, une valeur inférieure indique un modèle de qualité supérieure (0 représentant un prédicteur parfait).
  • RMSLE : la racine carrée de l'erreur logarithmique quadratique moyenne est semblable à la RMSE, à ceci près qu'elle utilise le logarithme naturel des valeurs prédictives et réelles plus 1. La RMSLE pénalise davantage la sous-prédiction que la sur-prédiction. Cette métrique est également utile si vous ne souhaitez pas pénaliser plus fortement les différences dans les grandes valeurs de prédiction par rapport aux valeurs plus petites. Cette valeur varie de zéro à l'infini. Plus elle est faible, plus le modèle est de bonne qualité. La métrique d'évaluation RMSLE ne s'affiche que si toutes les valeurs et étiquettes de prédiction sont non négatives.
  • r^2 : r-carré (r^2) correspond au carré du coefficient de corrélation Pearson entre les valeurs observées et les valeurs prédites. Cette métrique est comprise entre zéro et un. Une valeur plus élevée indique une meilleure adéquation avec la ligne de régression.
  • MAPE : l'erreur absolue moyenne en pourcentage (EAMP) représente l'écart absolu moyen en pourcentage entre les étiquettes et les valeurs prédites. Cette valeur varie de zéro à l'infini. Plus elle est faible, plus le modèle est de bonne qualité.
    L'EAMP ne s'affiche pas si la colonne cible contient des valeurs nulles. Dans ce cas, l'EAMP n'est pas définie.
  • WAPE : l'erreur absolue agrégée en pourcentage (WAPE) représente la différence globale entre la valeur prédite par un modèle et les valeurs observées sur les valeurs observées. Par rapport à la RMSE, le système WAPE est pondéré en fonction des différences globales plutôt que des différences individuelles, qui peuvent être fortement influencées par des valeurs faibles ou intermittentes. Une valeur inférieure indique un modèle de qualité supérieure.
  • RMSPE : la racine carrée de l'erreur quadratique moyenne en pourcentage (RMPSE) affiche la RMSE sous la forme d'un pourcentage des valeurs réelles et non d'un nombre absolu. Une valeur inférieure indique un modèle de meilleure qualité.
  • Quantile : Quantile en pourcentage, qui indique la probabilité qu'une valeur observée soit inférieure à la valeur prédite. Par exemple, à un quantile de 0,5, les valeurs observées sont censées être inférieures aux valeurs prédites dans 50 % des cas.
  • quantile observé : affiche le pourcentage de valeurs réelles qui sont inférieures à la valeur prédite pour un quantile donné.
  • Perte pinball mise à l'échelle : perte pinball mise à l'échelle à un quantile particulier. Une valeur inférieure indique un modèle de qualité supérieure au quantile donné.

Texte

Classification

Vous pouvez afficher et télécharger des fichiers de schéma à partir de l'emplacement Cloud Storage suivant :
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC : zone sous la courbe de précision/rappel, également appelée précision moyenne. Cette valeur est comprise entre zéro et un. Plus elle est élevée, plus le modèle est de bonne qualité.
  • Perte logistique : entropie croisée entre les prédictions du modèle et les valeurs cibles. Cette valeur varie de zéro à l'infini. Plus elle est faible, plus le modèle est de bonne qualité.
  • Seuil de confiance : score de confiance qui détermine les prédictions à renvoyer. Un modèle renvoie des prédictions d'une valeur égale ou supérieure. Un seuil de confiance élevé augmente la précision, mais diminue le rappel. Vertex AI renvoie des métriques de confiance à différentes valeurs de seuil pour montrer l'impact du seuil sur la précision et le rappel.
  • Rappel : fraction des prédictions comportant cette classe que le modèle a correctement prédites. Également appelé taux de vrais positifs.
  • Rappel à 1 : le rappel (taux de vrais positifs) lorsque vous ne tenez compte que de l'étiquette dont le score de prédiction est à la fois le plus élevé et supérieur ou égal au seuil de confiance de chaque exemple.
  • Précision : fraction des prédictions de classification produites par le modèle qui étaient correctes.
  • Précision 1 : précision lorsque vous ne tenez compte que de l'étiquette dont le score de prédiction est à la fois le plus élevé et supérieur ou égal au seuil de confiance de chaque exemple.
  • Matrice de confusion : une matrice de confusion indique la fréquence à laquelle un modèle prédit correctement un résultat. Pour les résultats prédits de manière incorrecte, la matrice indique ce que le modèle a prédit à la place. La matrice de confusion vous permet de comprendre où votre modèle "confond" deux résultats.
  • Score F1 : moyenne harmonique de précision et du rappel. F1 est une métrique utile si vous souhaitez équilibrer précision et rappel, et que les classes sont réparties de façon inégale.
  • Score F1 à 1 : moyenne harmonique du rappel à 1 et de précision à 1.

Vidéo

Classification

Vous pouvez afficher et télécharger des fichiers de schéma à partir de l'emplacement Cloud Storage suivant :
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC : zone sous la courbe de précision/rappel, également appelée précision moyenne. Cette valeur est comprise entre zéro et un. Plus elle est élevée, plus le modèle est de bonne qualité.
  • Seuil de confiance : score de confiance qui détermine les prédictions à renvoyer. Un modèle renvoie des prédictions d'une valeur égale ou supérieure. Un seuil de confiance élevé augmente la précision, mais diminue le rappel. Vertex AI renvoie des métriques de confiance à différentes valeurs de seuil pour montrer l'impact du seuil sur la précision et le rappel.
  • Rappel : fraction des prédictions comportant cette classe que le modèle a correctement prédites. Également appelé taux de vrais positifs.
  • Précision : fraction des prédictions de classification produites par le modèle qui étaient correctes.
  • Matrice de confusion : une matrice de confusion indique la fréquence à laquelle un modèle prédit correctement un résultat. Pour les résultats prédits de manière incorrecte, la matrice indique ce que le modèle a prédit à la place. La matrice de confusion vous permet de comprendre où votre modèle "confond" deux résultats.
  • Score F1 : moyenne harmonique de précision et du rappel. F1 est une métrique utile si vous souhaitez équilibrer précision et rappel, et que les classes sont réparties de façon inégale.

Tutoriels sur les notebooks

AutoML : Tabulaire

AutoML : Texte

AutoML : Vidéo

Entraînement personnalisé : Tabulaire

Vertex AI Model Registry

Étapes suivantes