Mengevaluasi performa
Document AI menghasilkan metrik evaluasi, seperti presisi dan perolehan, untuk membantu Anda menentukan performa prediktif pemroses.
Metrik evaluasi ini dihasilkan dengan membandingkan entitas yang ditampilkan oleh pemroses (prediksi) dengan anotasi dalam dokumen pengujian. Jika pemroses tidak memiliki set pengujian, Anda harus membuat set data dan memberi label pada dokumen pengujian terlebih dahulu.
Menjalankan evaluasi
Evaluasi otomatis dijalankan setiap kali Anda melatih atau melatih ulang versi prosesor.
Anda juga dapat menjalankan evaluasi secara manual. Hal ini diperlukan untuk menghasilkan metrik yang diperbarui setelah Anda mengubah set pengujian, atau jika Anda mengevaluasi versi pemroses terlatih.
UI Web
Di konsol Google Cloud, buka halaman Processors dan pilih prosesor Anda.
Di tab Evaluate & Test, pilih Version prosesor yang akan dievaluasi, lalu klik Run new evaluation.
Setelah selesai, halaman akan berisi metrik evaluasi untuk semua label dan untuk setiap label individual.
Python
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Document AI.
Untuk melakukan autentikasi ke Document AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Mendapatkan hasil evaluasi
UI Web
Di konsol Google Cloud, buka halaman Processors dan pilih prosesor Anda.
Di tab Evaluate & Test, pilih Version dari prosesor untuk melihat evaluasi.
Setelah selesai, halaman akan berisi metrik evaluasi untuk semua label dan untuk setiap label individual.
Python
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Document AI.
Untuk melakukan autentikasi ke Document AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Mencantumkan semua evaluasi untuk versi pemroses
Python
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Document AI.
Untuk melakukan autentikasi ke Document AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Metrik evaluasi untuk semua label
Metrik untuk Semua label dihitung berdasarkan jumlah positif benar, positif palsu, dan negatif palsu dalam set data di semua label, sehingga diberi bobot berdasarkan frekuensi kemunculan setiap label dalam set data. Untuk definisi istilah ini, lihat Metrik evaluasi untuk setiap label.
Presisi: proporsi prediksi yang cocok dengan anotasi dalam set pengujian. Ditentukan sebagai
True Positives / (True Positives + False Positives)
Perolehan: proporsi anotasi dalam set pengujian yang diprediksi dengan benar. Ditentukan sebagai
True Positives / (True Positives + False Negatives)
Skor F1: rata-rata harmonis presisi dan perolehan, yang menggabungkan presisi dan perolehan menjadi satu metrik, dengan memberikan bobot yang sama untuk keduanya. Ditentukan sebagai
2 * (Precision * Recall) / (Precision + Recall)
Metrik evaluasi untuk setiap label
Positif Benar: entitas yang diprediksi yang cocok dengan anotasi dalam dokumen pengujian. Untuk mengetahui informasi selengkapnya, lihat perilaku pencocokan.
Positif Palsu: entity yang diprediksi yang tidak cocok dengan anotasi apa pun dalam dokumen pengujian.
Negatif Palsu: anotasi dalam dokumen pengujian yang tidak cocok dengan entitas yang diprediksi.
- Negatif Palsu (Di Bawah Nilai Minimum): anotasi dalam dokumen pengujian yang akan cocok dengan entitas yang diprediksi, tetapi nilai keyakinan entitas yang diprediksi berada di bawah nilai minimum keyakinan yang ditentukan.
Ambang batas keyakinan
Logika evaluasi mengabaikan prediksi apa pun dengan keyakinan di bawah Nilai Minimum Keyakinan yang ditentukan, meskipun prediksi tersebut benar. AI Dokumen menyediakan daftar Negatif Palsu (Di Bawah Nilai Minimum), yang merupakan anotasi yang akan memiliki kecocokan jika nilai minimum keyakinan ditetapkan lebih rendah.
AI Dokumen secara otomatis menghitung nilai minimum optimal, yang memaksimalkan scor F1, dan secara default, menetapkan nilai minimum keyakinan ke nilai optimal ini.
Anda bebas memilih nilai minimum keyakinan Anda sendiri dengan memindahkan panel penggeser. Secara umum, nilai minimum keyakinan yang lebih tinggi akan menghasilkan:
- presisi yang lebih tinggi, karena prediksi lebih cenderung benar.
- recall yang lebih rendah, karena ada lebih sedikit prediksi.
Entitas tabular
Metrik untuk label induk tidak dihitung dengan langsung menghitung rata-rata metrik turunan, tetapi dengan menerapkan nilai minimum keyakinan induk ke semua label turunannya dan menggabungkan hasilnya.
Nilai minimum yang optimal untuk induk adalah nilai nilai minimum keyakinan yang, jika diterapkan ke semua turunan, akan menghasilkan skor F1 maksimum untuk induk.
Perilaku pencocokan
Entity yang diprediksi cocok dengan anotasi jika:
- jenis entity yang diprediksi
(
entity.type
) cocok dengan nama label anotasi - nilai entity yang diprediksi
(
entity.mention_text
atauentity.normalized_value.text
) cocok dengan nilai teks anotasi, tunduk pada pencocokan fuzzy jika diaktifkan.
Perhatikan bahwa jenis dan nilai teks adalah satu-satunya yang digunakan untuk pencocokan. Informasi lainnya, seperti anchor teks dan kotak pembatas (kecuali entitas tabel yang dijelaskan di bawah) tidak digunakan.
Label kemunculan tunggal versus multi-kejadian
Label kemunculan tunggal memiliki satu nilai per dokumen (misalnya, ID invoice) meskipun nilai tersebut dianotasi beberapa kali dalam dokumen yang sama (misalnya, ID invoice muncul di setiap halaman dokumen yang sama). Meskipun beberapa anotasi memiliki teks yang berbeda, anotasi tersebut dianggap sama. Dengan kata lain, jika entity yang diprediksi cocok dengan anotasi, entity tersebut akan dihitung sebagai kecocokan. Anotasi tambahan dianggap sebagai sebutan duplikat dan tidak berkontribusi pada jumlah positif benar, positif palsu, atau negatif palsu.
Label multi-kejadian dapat memiliki beberapa nilai yang berbeda. Dengan demikian, setiap entity dan anotasi yang diprediksi akan dipertimbangkan dan dicocokkan secara terpisah. Jika dokumen berisi N anotasi untuk label multi-kejadian, maka dapat ada N kecocokan dengan entitas yang diprediksi. Setiap entity dan anotasi yang diprediksi dihitung secara independen sebagai positif benar, positif palsu, atau negatif palsu.
Pencocokan Fuzzy
Tombol Pencocokan Buram memungkinkan Anda memperketat atau melonggarkan beberapa aturan pencocokan untuk mengurangi atau meningkatkan jumlah kecocokan.
Misalnya, tanpa pencocokan fuzzy, string ABC
tidak cocok dengan abc
karena
huruf besar. Namun, dengan pencocokan fuzzy, keduanya cocok.
Jika pencocokan fuzzy diaktifkan, berikut adalah perubahan aturan:
Normalisasi spasi kosong: menghapus spasi kosong di awal dan di akhir serta mengabungkan spasi kosong perantara yang berurutan (termasuk baris baru) menjadi satu spasi.
Penghapusan tanda baca di awal/akhir: menghapus karakter tanda baca awal-akhir berikut
!,.:;-"?|
.Pencocokan yang tidak peka huruf besar/kecil: mengonversi semua karakter menjadi huruf kecil.
Normalisasi uang: Untuk label dengan jenis data
money
, hapus simbol mata uang di awal dan akhir.
Entitas tabular
Entitas dan anotasi induk tidak memiliki nilai teks dan dicocokkan berdasarkan kotak pembatas gabungan turunannya. Jika hanya ada satu induk yang diprediksi dan satu induk yang dianotasi, keduanya akan otomatis dicocokkan, terlepas dari bounding box.
Setelah induk dicocokkan, turunannya akan dicocokkan seolah-olah merupakan entity non-tabel. Jika induk tidak cocok, Document AI tidak akan mencoba mencocokkan turunan induk tersebut. Artinya, entity turunan dapat dianggap salah, bahkan dengan konten teks yang sama, jika entity induknya tidak cocok.
Entitas induk / turunan adalah fitur Pratinjau dan hanya didukung untuk tabel dengan satu lapisan bertingkat.
Mengekspor metrik evaluasi
Di konsol Google Cloud, buka halaman Processors dan pilih prosesor Anda.
Di tab Evaluasi & Pengujian, klik Download Metrik, untuk mendownload metrik evaluasi sebagai file JSON.