En esta página, se describe cómo usar el método projects.locations.datasets.annotationStores.evaluate
para evaluar la calidad de los registros de anotaciones que genera un algoritmo de aprendizaje automático.
Descripción general
El método evaluate
compara los registros de anotaciones de un almacén de anotaciones (eval_store
) con un almacén de anotaciones de verdad fundamental con anotación manual (golden_store
) que describe el mismo recurso.
El recurso de anotación se define en el AnnotationSource
de cada almacén.
Los registros de anotaciones en eval_store
o golden_store
pueden generarse individualmente por projects.locations.datasets.annotationStores.annotations.create
o con lo siguiente:
- Llama a
datasets.deidentify
con un objetoAnnotationConfig
- Llama a
projects.locations.datasets.annotationStores.import
Requisitos de evaluación
Para realizar la evaluación, se deben cumplir las siguientes condiciones:
En el
eval_store
, cada recurso anotado definido enAnnotationSource
solo puede tener un registro de anotaciones para cada tipo de anotación:SensitiveTextAnnotation
debe almacenar losquote
obtenidos del recurso anotado. Si generaste registros de anotaciones condatasets.deidentify
, configurastore_quote
enAnnotationConfig
comotrue
.
Resultado de la evaluación
El método evaluate
informa las métricas de evaluación a BigQuery. El método genera una fila en una tabla especificada de BigQuery con el siguiente esquema:
Nombre del campo | Tipo | Modo | Descripción |
---|---|---|---|
opTimestamp |
TIMESTAMP |
NULLABLE |
Marca de tiempo del momento en que se llamó al método |
opName |
STRING |
NULLABLE |
Nombre de la operación de larga duración de evaluación (LRO) |
evalStore |
STRING |
NULLABLE |
Nombre de eval_store |
goldenStore |
STRING |
NULLABLE |
Nombre de golden_store |
goldenCount |
INTEGER |
NULLABLE |
Cantidad de registros de anotaciones en golden_store |
matchedCount
|
INTEGER
|
NULLABLE
|
Cantidad de registros de anotación en el eval_store que coinciden con los registros de anotación en el golden_store |
averageResults |
RECORD |
NULLABLE |
Resultados promedio en todos los infotipos |
averageResults. sensitiveTextMetrics |
RECORD
|
NULLABLE
|
Resultados promedio para SensitiveTextAnnotation
|
averageResults. sensitiveTextMetrics. truePositives |
INTEGER
|
NULLABLE
|
Cantidad de predicciones correctas |
averageResults. sensitiveTextMetrics. falsePositives |
INTEGER
|
NULLABLE
|
Cantidad de predicciones incorrectas |
averageResults. sensitiveTextMetrics. falseNegatives |
INTEGER
|
NULLABLE
|
Cantidad de predicciones que se perdieron |
averageResults. sensitiveTextMetrics. precision |
FLOAT
|
NULLABLE
|
truePositives / (truePositives + falsePositives) , varía de [0..1] , donde 1.0 indica todas las predicciones correctas |
averageResults. sensitiveTextMetrics. recall |
FLOAT
|
NULLABLE
|
truePositives / (truePositives + falseNegatives) , varía de [0..1] , en el que 1.0 indica que no falta ninguna predicción. |
averageResults. sensitiveTextMetrics. fScore |
FLOAT
|
NULLABLE
|
2 * precision * recall / (precision + recall) ,promedio armónico de la precisión y recuperación, varía de [0..1] , en el que 1.0 indica las predicciones perfectas |
infoResults |
RECORD |
REPEATED |
similar a averageResults , pero desglosado por Infotipo |
infoResults. sensitiveTextMetrics |
RECORD
|
NULLABLE
|
Resultados de Infotipo para SensitiveTextAnnotation
|
infoResults. sensitiveTextMetrics. infoType |
STRING
|
NULLABLE
|
Categoría de infotipo |
infoResults. sensitiveTextMetrics. truePositives |
INTEGER
|
NULLABLE
|
Cantidad de predicciones correctas |
infoResults. sensitiveTextMetrics. falsePositives |
INTEGER
|
NULLABLE
|
Cantidad de predicciones incorrectas |
infoResults. sensitiveTextMetrics. falseNegatives |
INTEGER
|
NULLABLE
|
Cantidad de predicciones que se perdieron |
infoResults. sensitiveTextMetrics. precision |
FLOAT
|
NULLABLE
|
truePositives / (truePositives + falsePositives) , varía de [0..1] , donde 1.0 indica todas las predicciones correctas |
infoResults. sensitiveTextMetrics. recall |
FLOAT
|
NULLABLE
|
truePositives / (truePositives + falseNegatives) , varía de [0..1] , en el que 1.0 indica que no falta ninguna predicción. |
infoResults. sensitiveTextMetrics. fScore |
FLOAT
|
NULLABLE
|
2 * precision * recall / (precision + recall) ,promedio armónico de la precisión y recuperación, varía de [0..1] , en el que 1.0 indica las predicciones perfectas |
Puedes consultar EvaluateAnnotationStore
para obtener una definición detallada del método.