L'évaluation continue permet d'échantillonner régulièrement les données d'entrée et de sortie de prédiction des modèles de machine learning que vous avez déployés sur AI Platform Prediction. Le service d'étiquetage de données AI Platform affecte ensuite des évaluateurs manuels pour fournir des étiquettes de vérité terrain à vos entrées de prédiction. Vous pouvez également fournir vos propres étiquettes de vérité terrain. Le service d'étiquetage de données compare les prédictions de vos modèles aux étiquettes de vérité terrain et vous transmet continuellement des informations sur les performances du modèle.
Fonctionnement
Pour utiliser l'évaluation continue, vous devez avoir déjà déployé un modèle de machine learning entraîné en tant que version de modèle dans AI Platform Prediction. Vous pouvez ensuite créer une tâche d'évaluation pour la version de modèle.
La création d'une tâche d'évaluation pour une version de modèle entraîne deux événements :
- Lorsque la version de modèle diffuse des prédictions en ligne, les entrées et les sorties de certaines de ces prédictions sont enregistrées dans une table BigQuery. Cet échantillonnage est fréquemment effectué, chaque fois que votre modèle diffuse des prédictions. Vous pouvez personnaliser le volume de données échantillonnées.
- La tâche d'évaluation est exécutée par intermittence, générant des métriques d'évaluation.
Vous pouvez consulter les métriques d'évaluation qui en résultent dans Google Cloud Console.
Vérité terrain
Les étiquettes de vérité terrain sont les étiquettes que des utilisateurs humains considèrent comme appropriées pour votre tâche de machine learning. L'évaluation continue les utilise comme une clé de réponse et calcule les métriques en comparant les prédictions de votre version de modèle aux étiquettes de vérité terrain. Lorsque vous créez une tâche d'évaluation, vous devez décider de la façon dont vous souhaitez générer des étiquettes de vérité terrain pour vos données de prédiction. Deux options sont disponibles :
- Le service d'étiquetage de données peut affecter des évaluateurs manuels pour fournir des étiquettes de vérité terrain à vos données de prédiction.
- Vous pouvez fournir vous-même des étiquettes de vérité terrain.
Exécution des tâches d'évaluation
Par défaut, les tâches d'évaluation s'exécutent tous les jours à 10h UTC. Le déroulement d'une exécution dépend de la manière dont vous décidez de générer les étiquettes de vérité terrain.
Si les étiquettes sont fournies par Data Labeling Service
Lorsque la tâche d'évaluation s'exécute, le service d'étiquetage de données crée un ensemble de données comprenant toutes les nouvelles lignes dans BigQuery depuis la dernière exécution. Elles incluent les données d'entrée et de sortie de prédiction échantillonnées à partir de votre version de modèle.
Ensuite, le service d'étiquetage de données envoie une demande d'étiquetage basée sur cet ensemble de données pour permettre aux évaluateurs manuels de fournir des étiquettes de vérité terrain.
Une fois la demande d'étiquetage traitée, le service d'étiquetage de données calcule les métriques d'évaluation à l'aide des nouvelles étiquettes de vérité terrain et des résultats de prédiction de la version de modèle.
Les étiqueteurs manuels peuvent mettre plus d'une journée à traiter votre demande d'étiquetage, en particulier si vous échantillonnez une grande quantité de données de prédiction dans votre table BigQuery. Dans ce cas, la tâche d'évaluation est de nouveau exécutée le jour suivant, conformément à sa programmation. Cela signifie que la tâche est exécutée plusieurs fois en parallèle. Chaque exécution s'applique à un échantillon distinct de données de prédiction, qui correspond aux prédictions de votre version de modèle la veille de l'exécution. Quelle que soit leur durée, les exécutions génèrent des métriques d'évaluation pour un jour donné de prédictions.
Si vous fournissez vous-même des étiquettes de vérité terrain
Comme dans la section précédente, lorsque la tâche d'évaluation s'exécute, le service d'étiquetage de données crée un ensemble de données comprenant toutes les nouvelles lignes dans BigQuery depuis la dernière exécution. Mais dans ce cas, vous devez avoir déjà ajouté des étiquettes de vérité terrain à la colonne groundtruth
du tableau avant l'exécution. La tâche d'évaluation ignore les lignes sans étiquette de vérité terrain, qui ne peuvent pas être incluses dans une prochaine tâche d'évaluation.
Une fois l'ensemble de données créé, le service d'étiquetage de données calcule immédiatement les métriques d'évaluation.
Si vous utilisez cette méthode, vous devez ajouter quotidiennement des étiquettes de vérité terrain pour les nouvelles prédictions, avant l'exécution de la tâche d'évaluation.
Tarification
Si le service d'étiquetage de données affecte des évaluateurs manuels pour fournir des étiquettes de vérité terrain, les tarifs d'étiquetage des données s'appliquent. Hormis ce cas de figure, l'évaluation continue n'entraîne aucuns frais spécifiques.
Pour exploiter l'évaluation continue, vous devez également utiliser AI Platform Prediction, BigQuery et Cloud Storage. Ces produits peuvent entraîner des frais.
Étapes suivantes
Découvrez la démarche préalable à suivre avant de pouvoir créer une tâche d'évaluation.