Cette page décrit comment utiliser la méthode projects.locations.datasets.annotationStores.evaluate
pour évaluer la qualité des enregistrements d'annotations générés par un algorithme de machine learning.
Présentation
La méthode evaluate
compare les enregistrements d'annotations d'un magasin d'annotations (eval_store
) à un magasin d'annotations de vérité terrain manuelles (golden_store
) qui décrit la même ressource.
La ressource d'annotation est définie dans la source AnnotationSource
de chaque magasin.
Les enregistrements d'annotations dans eval_store
ou golden_store
peuvent être générés individuellement par projects.locations.datasets.annotationStores.annotations.create
ou par:
- L'appel de
datasets.deidentify
avec un objetAnnotationConfig
- L'appel de
projects.locations.datasets.annotationStores.import
Exigences d'évaluation
Pour effectuer une évaluation, vous devez remplir les conditions suivantes:
Dans
eval_store
, chaque ressource annotée définie dansAnnotationSource
ne peut avoir qu'un seul enregistrement d'annotation pour chaque type d'annotation:SensitiveTextAnnotation
doit stocker les valeursquote
obtenues à partir de la ressource annotée. Si vous avez généré des enregistrements d'annotations à l'aide dedatasets.deidentify
, définissezstore_quote
dansAnnotationConfig
surtrue
.
Résultat de l'évaluation
La méthode evaluate
signale les métriques d'évaluation à BigQuery. Elle génère une ligne dans une table BigQuery spécifiée avec le schéma suivant:
fieldName | Type | Mode | Description |
---|---|---|---|
opTimestamp |
TIMESTAMP |
NULLABLE |
Horodatage de l'appel de la méthode. |
opName |
STRING |
NULLABLE |
Nom de l'opération d'évaluation de longue durée (LRO) |
evalStore |
STRING |
NULLABLE |
Nom de eval_store |
goldenStore |
STRING |
NULLABLE |
Nom de golden_store |
goldenCount |
INTEGER |
NULLABLE |
Nombre d'enregistrements d'annotations dans golden_store |
matchedCount
|
INTEGER
|
NULLABLE
|
Nombre d'enregistrements d'annotations dans eval_store correspondant aux enregistrements d'annotation dans golden_store |
averageResults |
RECORD |
NULLABLE |
Moyenne des résultats de tous les infoTypes |
averageResults. sensitiveTextMetrics |
RECORD
|
NULLABLE
|
Moyennes des résultats pour SensitiveTextAnnotation |
averageResults. sensitiveTextMetrics. truePositives |
INTEGER
|
NULLABLE
|
Nombre de prédictions correctes |
averageResults. sensitiveTextMetrics. falsePositives |
INTEGER
|
NULLABLE
|
Nombre de prédictions incorrectes |
averageResults. sensitiveTextMetrics. falseNegatives |
INTEGER
|
NULLABLE
|
Nombre de prédictions manquées |
averageResults. sensitiveTextMetrics. precision |
FLOAT
|
NULLABLE
|
truePositives / (truePositives + falsePositives) ,plage de [0..1] , où 1.0 indique toutes les prédictions correctes |
averageResults. sensitiveTextMetrics. recall |
FLOAT
|
NULLABLE
|
truePositives / (truePositives + falseNegatives) ,plage de [0..1] , où 1.0 indique une prédiction manquée |
averageResults. sensitiveTextMetrics. fScore |
FLOAT
|
NULLABLE
|
2 * precision * recall / (precision + recall) ,moyenne harmonique de la précision et du rappel ; plage de [0..1] , où 1.0 indique des prédictions parfaites |
infoResults |
RECORD |
REPEATED |
semblable à averageResults , mais ventilé par infoType |
infoResults. sensitiveTextMetrics |
RECORD
|
NULLABLE
|
Résultats de l'infoType pour SensitiveTextAnnotation |
infoResults. sensitiveTextMetrics. infoType |
STRING
|
NULLABLE
|
Catégorie d'infoType |
infoResults. sensitiveTextMetrics. truePositives |
INTEGER
|
NULLABLE
|
Nombre de prédictions correctes |
infoResults. sensitiveTextMetrics. falsePositives |
INTEGER
|
NULLABLE
|
Nombre de prédictions incorrectes |
infoResults. sensitiveTextMetrics. falseNegatives |
INTEGER
|
NULLABLE
|
Nombre de prédictions manquées |
infoResults. sensitiveTextMetrics. precision |
FLOAT
|
NULLABLE
|
truePositives / (truePositives + falsePositives) ,plage de [0..1] , où 1.0 indique toutes les prédictions correctes |
infoResults. sensitiveTextMetrics. recall |
FLOAT
|
NULLABLE
|
truePositives / (truePositives + falseNegatives) ,plage de [0..1] , où 1.0 indique une prédiction manquée |
infoResults. sensitiveTextMetrics. fScore |
FLOAT
|
NULLABLE
|
2 * precision * recall / (precision + recall) ,moyenne harmonique de la précision et du rappel ; plage de [0..1] , où 1.0 indique des prédictions parfaites |
Reportez-vous à EvaluateAnnotationStore
pour obtenir une définition détaillée de la méthode.