Cette page a été traduite par l'API Cloud Translation.

Évaluation de modèles dans Vertex AI

Le service d'évaluation de l'IA d'inférence vous permet d'évaluer les performances des modèles dans des cas d'utilisation spécifiques. Vous pouvez également désigner l'évaluation comme une observabilité des performances d'un modèle. L'évaluation du modèle fournie par Vertex AI peut s'intégrer au workflow de machine learning classique de plusieurs manières :

Après avoir entraîné votre modèle, consultez les métriques d'évaluation du modèle avant de le déployer. Comparez les métriques d'évaluation de plusieurs modèles pour vous aider à choisir celui à déployer.
Une fois votre modèle déployé en production, évaluez-le régulièrement avec de nouvelles données entrantes. Si les métriques d'évaluation indiquent que les performances de votre modèle se dégradent, envisagez de l'entraîner à nouveau. Ce processus est appelé évaluation continue.

La manière dont vous interprétez et utilisez ces métriques dépend des besoins de votre entreprise et du problème que votre modèle est entraîné à résoudre. Par exemple, vous pouvez obtenir une tolérance plus faible pour les faux positifs que pour les faux négatifs, ou inversement. Ce genre de questions a une incidence sur les métriques sur lesquelles vous devez vous concentrer lorsque vous effectuez des itérations sur votre modèle.

Voici quelques métriques clés fournies par le service d'évaluation des modèles d'IA prédictive :

Fonctionnalités

Pour évaluer un modèle avec Vertex AI, vous avez besoin d'un modèle entraîné, d'une sortie d'inférence par lot et d'un ensemble de données de vérité terrain. Voici un workflow d'évaluation de modèle classique utilisant Vertex AI :

Entraîner un modèle Vous pouvez le faire dans Vertex AI à l'aide d'AutoML ou de l'entraînement personnalisé.
Exécutez un job d'inférence par lot sur le modèle pour générer des résultats d'inférence.
Préparez les données de vérité terrain, qui correspondent aux données "correctement étiquetées" telles que déterminées par les humains. La vérité terrain correspond généralement à l'ensemble de données de test que vous avez utilisé lors du processus d'entraînement du modèle.
Exécutez une tâche d'évaluation sur le modèle, qui évalue la justesse des résultats de l'inférence par lot par rapport aux données de vérité terrain.
Analysez les métriques résultant de la tâche d'évaluation.
Effectuez une itération sur votre modèle pour voir si vous pouvez améliorer sa justesse. Vous pouvez exécuter plusieurs tâches d'évaluation et comparer les résultats de plusieurs tâches sur plusieurs modèles ou versions de modèle.

Vous pouvez exécuter l'évaluation de modèles de Vertex AI de plusieurs manières :

Créez des évaluations via Vertex AI Model Registry dans la consoleGoogle Cloud .
Utilisez les évaluations de modèle de Vertex AI en tant que composant de pipeline avec Vertex AI Pipelines. Vous pouvez créer des exécutions de pipeline et des modèles qui incluent des évaluations de modèle dans le cadre de votre workflow MLOps automatisé.

Vous pouvez exécuter le composant d'évaluation de modèle seul ou avec d'autres composants de pipeline, tels que le composant d'inférence par lot.

Vertex AI est compatible avec l'évaluation des types de modèles suivants :

Image

Classification

Vous pouvez afficher et télécharger des fichiers de schéma à partir de l'emplacement Cloud Storage suivant :
gs://google-cloud-aiplatform/schema/modelevaluation/

AuPRC : zone sous la courbe de précision/rappel, également appelée précision moyenne. Cette valeur est comprise entre zéro et un. Plus elle est élevée, plus le modèle est de bonne qualité.
Perte logistique : entropie croisée entre les inférences du modèle et les valeurs cibles. Ce score varie de zéro à l'infini. Plus la valeur est faible, plus le modèle est de bonne qualité.
Seuil de confiance : score de confiance qui détermine les inférences à renvoyer. Un modèle renvoie des inférences d'une valeur égale ou supérieure. Un seuil de confiance élevé augmente la précision, mais diminue le rappel. Vertex AI renvoie des métriques de confiance à différentes valeurs de seuil pour montrer l'impact du seuil sur la précision et le rappel.
Rappel : fraction des inférences comportant cette classe que le modèle a correctement prédites. également appelé taux de vrais positifs.
Précision : fraction des inférences de classification produites par le modèle qui étaient correctes.
Matrice de confusion : une matrice de confusion indique la fréquence à laquelle un modèle prédit correctement un résultat. Pour les résultats prédits de manière incorrecte, la matrice indique ce que le modèle a prédit à la place. La matrice de confusion vous permet de comprendre où votre modèle "confond" deux résultats.

Tabulaire

Classification

Vous pouvez afficher et télécharger des fichiers de schéma à partir de l'emplacement Cloud Storage suivant :
gs://google-cloud-aiplatform/schema/modelevaluation/

AuPRC : zone sous la courbe de précision/rappel, également appelée précision moyenne. Cette valeur est comprise entre 0 et 1. Plus elle est élevée, plus le modèle est de bonne qualité.
AuROC : zone sous la courbe ROC (Receiver Operating Characteristic). Cette valeur est comprise entre 0 et 1. Plus elle est élevée, plus le modèle est de bonne qualité.
Perte logistique : entropie croisée entre les inférences du modèle et les valeurs cibles. Ce score varie de zéro à l'infini. Plus la valeur est faible, plus le modèle est de bonne qualité.
Seuil de confiance : score de confiance qui détermine les inférences à renvoyer. Un modèle renvoie des inférences d'une valeur égale ou supérieure. Un seuil de confiance élevé augmente la précision, mais diminue le rappel. Vertex AI renvoie des métriques de confiance à différentes valeurs de seuil pour montrer l'impact du seuil sur la précision et le rappel.
Rappel : fraction des inférences comportant cette classe que le modèle a correctement prédites. également appelé taux de vrais positifs.
Rappel à 1 : le rappel (taux de vrais positifs) lorsque vous ne tenez compte que de l'étiquette dont le score d'inférence est à la fois le plus élevé et supérieur ou égal au seuil de confiance de chaque exemple.
Précision : fraction des inférences de classification produites par le modèle qui étaient correctes.
Précision à 1 : précision lorsque vous ne tenez compte que de l'étiquette dont le score d'inférence est à la fois le plus élevé et supérieur ou égal au seuil de confiance de chaque exemple.
Score F1 : moyenne harmonique de précision et du rappel. F1 est une métrique utile si vous souhaitez équilibrer précision et rappel, et que les classes sont réparties de façon inégale.
Score F1 à 1 : moyenne harmonique du rappel à 1 et de précision à 1.
Matrice de confusion : une matrice de confusion indique la fréquence à laquelle un modèle prédit correctement un résultat. Pour les résultats prédits de manière incorrecte, la matrice indique ce que le modèle a prédit à la place. La matrice de confusion vous permet de comprendre où votre modèle "confond" deux résultats.
Nombre de vrais négatifs : nombre de fois qu'un modèle a correctement prédit une classe négative.
Nombre de vrais positifs : nombre de fois qu'un modèle a correctement prédit une classe positive.
Nombre de faux négatifs : nombre de fois où un modèle a prédit par erreur une classe négative.
Nombre de faux positifs : nombre de fois où un modèle a prédit par erreur une classe positive.
Taux de faux positifs : fraction de résultats prédits de manière incorrecte sur tous les résultats prédits.
Taux de faux positifs à 1 : taux de faux positifs lorsque vous ne tenez compte que de l'étiquette dont le score d'inférence est à la fois le plus élevé et supérieur ou égal au seuil de confiance de chaque exemple.
Attributions des caractéristiques du modèle : Vertex AI indique l'impact de chaque caractéristique sur un modèle. Les valeurs sont fournies sous la forme d'un pourcentage pour chaque caractéristique : plus il est élevé, plus l'impact de la caractéristique sur l'entraînement du modèle est important. Examinez ces informations pour vous assurer que toutes les caractéristiques les plus importantes sont pertinentes pour vos données et votre problème commercial.

Régression

Vous pouvez afficher et télécharger des fichiers de schéma à partir de l'emplacement Cloud Storage suivant :
gs://google-cloud-aiplatform/schema/modelevaluation/

EAM : l'erreur absolue moyenne (EAM) représente l'écart absolu moyen entre les valeurs cibles et les valeurs prédites. Cette valeur varie de zéro à l'infini. Plus elle est faible, plus le modèle est de bonne qualité.
RMSE : la racine carrée de l'erreur quadratique moyenne correspond à la racine carrée de l'écart moyen au carré entre les valeurs cibles et prédites. La RMSE est plus sensible aux anomalies que l'EAM. Par conséquent, si vous craignez des erreurs importantes, cette métrique est sans doute plus utile pour procéder à une évaluation. Comme pour l'EAM, une valeur inférieure indique un modèle de qualité supérieure (0 représentant un prédicteur parfait).
RMSLE : la racine carrée de l'erreur logarithmique quadratique moyenne est semblable à la RMSE, à ceci près qu'elle utilise le logarithme naturel des valeurs prédictives et réelles plus 1. La RMSLE pénalise davantage la sous-inférence que la sur-inférence. Cette métrique est également utile si vous ne souhaitez pas pénaliser plus fortement les différences dans les grandes valeurs d'inférence par rapport aux valeurs plus petites. Cette valeur varie de zéro à l'infini. Plus elle est faible, plus le modèle est de bonne qualité. La métrique d'évaluation RMSLE ne s'affiche que si toutes les valeurs d'étiquettes et de prédiction sont non négatives.
r^2 : r-carré (r^2) correspond au carré du coefficient de corrélation de Pearson entre les étiquettes et les valeurs prédites. Cette métrique varie de 0 à 1. Une valeur plus élevée indique une meilleure adéquation avec la ligne de régression.
EAMP : l'erreur absolue moyenne en pourcentage (EAMP) représente l'écart absolu moyen en pourcentage entre les étiquettes et les valeurs prédites. Cette valeur varie de zéro à l'infini. Plus elle est faible, plus le modèle est de bonne qualité.
L'EAMP ne s'affiche pas si la colonne cible contient des valeurs nulles. Dans ce cas, l'EAMP n'est pas définie.
Attributions des caractéristiques du modèle : Vertex AI indique l'impact de chaque caractéristique sur un modèle. Les valeurs sont fournies sous la forme d'un pourcentage pour chaque caractéristique : plus il est élevé, plus l'impact de la caractéristique sur l'entraînement du modèle est important. Examinez ces informations pour vous assurer que toutes les caractéristiques les plus importantes sont pertinentes pour vos données et votre problème commercial.

Prévision

Vous pouvez afficher et télécharger des fichiers de schéma à partir de l'emplacement Cloud Storage suivant :
gs://google-cloud-aiplatform/schema/modelevaluation/

EAM : l'erreur absolue moyenne (EAM) représente l'écart absolu moyen entre les valeurs cibles et les valeurs prédites. Cette valeur varie de zéro à l'infini. Plus elle est faible, plus le modèle est de bonne qualité.
RMSE : la racine carrée de l'erreur quadratique moyenne correspond à la racine carrée de l'écart moyen au carré entre les valeurs cibles et prédites. La RMSE est plus sensible aux anomalies que l'EAM. Par conséquent, si vous craignez des erreurs importantes, cette métrique est sans doute plus utile pour procéder à une évaluation. Comme pour l'EAM, une valeur inférieure indique un modèle de qualité supérieure (0 représentant un prédicteur parfait).
RMSLE : la racine carrée de l'erreur logarithmique quadratique moyenne est semblable à la RMSE, à ceci près qu'elle utilise le logarithme naturel des valeurs prédictives et réelles plus 1. La RMSLE pénalise davantage la sous-inférence que la sur-inférence. Cette métrique est également utile si vous ne souhaitez pas pénaliser plus fortement les différences dans les grandes valeurs d'inférence par rapport aux valeurs plus petites. Cette valeur varie de zéro à l'infini. Plus elle est faible, plus le modèle est de bonne qualité. La métrique d'évaluation RMSLE ne s'affiche que si toutes les valeurs d'étiquettes et de prédiction sont non négatives.
r^2 : r-carré (r^2) correspond au carré du coefficient de corrélation de Pearson entre les étiquettes et les valeurs prédites. Cette métrique varie de 0 à 1. Une valeur plus élevée indique une meilleure adéquation avec la ligne de régression.
EAMP : l'erreur absolue moyenne en pourcentage (EAMP) représente l'écart absolu moyen en pourcentage entre les étiquettes et les valeurs prédites. Cette valeur varie de zéro à l'infini. Plus elle est faible, plus le modèle est de bonne qualité.
L'EAMP ne s'affiche pas si la colonne cible contient des valeurs nulles. Dans ce cas, l'EAMP n'est pas définie.
WAPE : l'erreur absolue agrégée en pourcentage (WAPE) représente la différence globale entre la valeur prédite par un modèle et les valeurs observées sur les valeurs observées. Par rapport à la RMSE, le système WAPE est pondéré en fonction des différences globales plutôt que des différences individuelles, qui peuvent être fortement influencées par des valeurs faibles ou intermittentes. Une valeur inférieure indique un modèle de qualité supérieure.
RMSPE : la racine carrée de l'erreur quadratique moyenne en pourcentage (RMPSE) affiche la RMSE sous la forme d'un pourcentage des valeurs réelles et non d'un nombre absolu. Une valeur inférieure indique un modèle de meilleure qualité.
Quantile : Quantile en pourcentage, qui indique la probabilité qu'une valeur observée soit inférieure à la valeur prédite. Par exemple, à un quantile de 0,5, les valeurs observées sont censées être inférieures aux valeurs prédites dans 50 % des cas.
quantile observé : affiche le pourcentage de valeurs réelles qui sont inférieures à la valeur prédite pour un quantile donné.
Perte pinball mise à l'échelle : perte pinball mise à l'échelle à un quantile particulier. Une valeur inférieure indique un modèle de qualité supérieure au quantile donné.

Tutoriels sur les notebooks

AutoML : Tabulaire

Pour en savoir plus, exécutez les notebooks suivants dans l'environnement de votre choix :

"Vertex AI : évaluer les résultats de prédiction par lot à partir d'un modèle de classification tabulaire AutoML" :
Ouvrir dans Colab | Ouvrir dans Colab Enterprise | Ouvrir dans Vertex AI Workbench | Afficher sur GitHub
"Vertex AI Pipelines : évaluer les résultats de prédiction par lot à partir d'un modèle de régression tabulaire AutoML" :
Ouvrir dans Colab | Ouvrir dans Colab Enterprise | Ouvrir dans Vertex AI Workbench | Afficher sur GitHub

Entraînement personnalisé : Tabulaire

Pour en savoir plus, exécutez les notebooks suivants dans l'environnement de votre choix :

"Vertex AI Pipelines : évaluer les résultats de BatchPrediction à partir d'un modèle de classification tabulaire personnalisé" :
Ouvrir dans Colab | Ouvrir dans Colab Enterprise | Ouvrir dans Vertex AI Workbench | Afficher sur GitHub
"Vertex AI Pipelines : évaluer les résultats de prédiction par lot à partir d'un modèle de régression tabulaire personnalisé" :
Ouvrir dans Colab | Ouvrir dans Colab Enterprise | Ouvrir dans Vertex AI Workbench | Afficher sur GitHub

Vertex AI Model Registry

Étapes suivantes

Découvrez comment effectuer une évaluation de modèle à l'aide de Vertex AI.