Halaman ini menjelaskan cara menggunakan metode projects.locations.datasets.annotationStores.evaluate
untuk mengevaluasi kualitas data anotasi yang dihasilkan oleh algoritma
machine learning.
Ringkasan
Metode evaluate
membandingkan data anotasi dalam satu penyimpanan anotasi (eval_store
) dengan penyimpanan anotasi kebenaran dasar (golden_store
) yang dianotasikan secara manual yang menjelaskan resource yang sama.
Resource anotasi ditentukan di
AnnotationSource
setiap toko.
Data anotasi di eval_store
atau golden_store
dapat
dibuat satu per satu oleh projects.locations.datasets.annotationStores.annotations.create
atau dengan:
- Memanggil
datasets.deidentify
dengan objekAnnotationConfig
- Memanggil
projects.locations.datasets.annotationStores.import
Persyaratan evaluasi
Untuk melakukan evaluasi, kondisi berikut harus terpenuhi:
Di
eval_store
, setiap resource yang dianotasi yang ditentukan dalamAnnotationSource
hanya dapat memiliki satu data anotasi untuk setiap jenis anotasi:SensitiveTextAnnotation
harus menyimpanquote
yang diperoleh dari resource yang dianotasi. Jika Anda membuat data anotasi menggunakandatasets.deidentify
, tetapkanstore_quote
diAnnotationConfig
ketrue
.
Output evaluasi
Metode
evaluate
melaporkan metrik evaluasi ke BigQuery. Metode ini menghasilkan baris dalam tabel BigQuery yang ditentukan dengan skema berikut:
Nama kolom | Jenis | Mode | Deskripsi |
---|---|---|---|
opTimestamp |
TIMESTAMP |
NULLABLE |
Stempel waktu saat metode dipanggil |
opName |
STRING |
NULLABLE |
Nama operasi yang berjalan lama (LRO) yang dievaluasi |
evalStore |
STRING |
NULLABLE |
Nama eval_store |
goldenStore |
STRING |
NULLABLE |
Nama golden_store |
goldenCount |
INTEGER |
NULLABLE |
Jumlah data anotasi di golden_store |
matchedCount
|
INTEGER
|
NULLABLE
|
Jumlah data anotasi di eval_store yang cocok dengan
data anotasi di golden_store |
averageResults |
RECORD |
NULLABLE |
Hasil rata-rata di semua infoType |
averageResults. sensitiveTextMetrics |
RECORD
|
NULLABLE
|
Hasil rata-rata untuk SensitiveTextAnnotation
|
averageResults. sensitiveTextMetrics. truePositives |
INTEGER
|
NULLABLE
|
Jumlah prediksi yang benar |
averageResults. sensitiveTextMetrics. falsePositives |
INTEGER
|
NULLABLE
|
Jumlah prediksi yang salah |
averageResults. sensitiveTextMetrics. falseNegatives |
INTEGER
|
NULLABLE
|
Jumlah prediksi yang terlewat |
averageResults. sensitiveTextMetrics. precision |
FLOAT
|
NULLABLE
|
truePositives / (truePositives + falsePositives) ,berkisar dari [0..1]
dengan 1.0 menunjukkan semua prediksi yang benar |
averageResults. sensitiveTextMetrics. recall |
FLOAT
|
NULLABLE
|
truePositives / (truePositives + falseNegatives) ,berkisar dari [0..1]
dengan 1.0 menunjukkan tidak ada prediksi yang hilang |
averageResults. sensitiveTextMetrics. fScore |
FLOAT
|
NULLABLE
|
2 * precision * recall / (precision + recall) ,rata-rata harmonis presisi dan recall, berkisar dari [0..1] dengan 1.0 menunjukkan prediksi yang sempurna |
infoResults |
RECORD |
REPEATED |
mirip dengan averageResults , tetapi dikelompokkan per infoType |
infoResults. sensitiveTextMetrics |
RECORD
|
NULLABLE
|
Hasil infoType untuk SensitiveTextAnnotation
|
infoResults. sensitiveTextMetrics. infoType |
STRING
|
NULLABLE
|
Kategori infoType |
infoResults. sensitiveTextMetrics. truePositives |
INTEGER
|
NULLABLE
|
Jumlah prediksi yang benar |
infoResults. sensitiveTextMetrics. falsePositives |
INTEGER
|
NULLABLE
|
Jumlah prediksi yang salah |
infoResults. sensitiveTextMetrics. falseNegatives |
INTEGER
|
NULLABLE
|
Jumlah prediksi yang terlewat |
infoResults. sensitiveTextMetrics. precision |
FLOAT
|
NULLABLE
|
truePositives / (truePositives + falsePositives) ,berkisar dari [0..1]
dengan 1.0 menunjukkan semua prediksi yang benar |
infoResults. sensitiveTextMetrics. recall |
FLOAT
|
NULLABLE
|
truePositives / (truePositives + falseNegatives) ,berkisar dari [0..1]
dengan 1.0 menunjukkan tidak ada prediksi yang hilang |
infoResults. sensitiveTextMetrics. fScore |
FLOAT
|
NULLABLE
|
2 * precision * recall / (precision + recall) ,rata-rata harmonik presisi dan recall, berkisar dari [0..1] dengan 1.0 menunjukkan prediksi yang sempurna |
Anda dapat melihat EvaluateAnnotationStore
untuk mengetahui definisi metode secara mendetail.