Ekstraksi berbasis template
Anda dapat melatih model berperforma tinggi dengan hanya tiga dokumen pelatihan dan tiga dokumen pengujian untuk kasus penggunaan tata letak tetap. Percepat pengembangan dan kurangi waktu produksi untuk jenis dokumen dengan template seperti W9, 1040, ACORD, survei, dan kuesioner.
Konfigurasi set data
Set data dokumen diperlukan untuk melatih, melakukan up-train, atau mengevaluasi versi pemroses. Pemroses Document AI belajar dari contoh, sama seperti manusia. Set data mendorong stabilitas prosesor dalam hal performa.Set data pelatihan
Untuk meningkatkan model dan akurasinya, latih set data pada dokumen Anda. Model ini terdiri dari dokumen dengan kebenaran dasar. Anda memerlukan minimal tiga dokumen untuk melatih model baru.Set data pengujian
Set data pengujian adalah yang digunakan model untuk menghasilkan skor F1 (akurasi). Set data ini terdiri dari dokumen dengan kebenaran dasar. Untuk melihat seberapa sering model benar, kebenaran dasar digunakan untuk membandingkan prediksi model (kolom yang diekstrak dari model) dengan jawaban yang benar. Set data pengujian harus memiliki minimal tiga dokumen.Sebelum memulai
Jika belum dilakukan, aktifkan:
Praktik terbaik pelabelan mode template
Pelabelan yang tepat adalah salah satu langkah terpenting untuk mencapai akurasi tinggi. Mode template memiliki beberapa metodologi pemberian label unik yang berbeda dari mode pelatihan lainnya:
- Gambar kotak pembatas di sekitar seluruh area yang Anda harapkan berisi data (per label) dalam dokumen, meskipun label kosong dalam dokumen pelatihan yang Anda beri label.
- Anda dapat memberi label pada kolom kosong untuk pelatihan berbasis template. Jangan beri label pada kolom kosong untuk pelatihan berbasis model.
Mem-build dan mengevaluasi ekstraktor kustom dengan mode template
Buat ekstraktor kustom. Buat pemroses dan tentukan kolom yang ingin diekstrak dengan mengikuti praktik terbaik, yang penting karena memengaruhi kualitas ekstraksi.
Menetapkan lokasi set data. Pilih folder opsi default (terkelola Google). Tindakan ini mungkin dilakukan secara otomatis segera setelah membuat pemroses.
Buka tab Build, lalu pilih Import documents dengan label otomatis diaktifkan. Menambahkan lebih banyak dokumen daripada tiga dokumen minimum yang diperlukan biasanya tidak meningkatkan kualitas untuk pelatihan berbasis template. Daripada menambahkan lebih banyak, fokuslah pada pemberian label pada kumpulan kecil dengan sangat akurat.
Memperluas kotak pembatas. Kotak ini untuk mode template akan terlihat seperti contoh sebelumnya. Perluas kotak pembatas, dengan mengikuti praktik terbaik untuk hasil yang optimal.
Melatih model.
- Pilih Train new version.
- Beri nama versi pemroses.
- Buka Tampilkan opsi lanjutan dan pilih pendekatan model berbasis template.
Evaluasi.
- Buka Evaluasi & uji.
- Pilih versi yang baru saja Anda latih, lalu pilih Lihat Evaluasi Lengkap.
Sekarang Anda akan melihat metrik seperti F1, presisi, dan recall untuk seluruh dokumen dan setiap kolom. 1. Tentukan apakah performa memenuhi sasaran produksi Anda, dan jika tidak, evaluasi ulang set pelatihan dan pengujian.
Tetapkan versi baru sebagai default.
- Buka Kelola versi.
- Pilih untuk melihat menu setelan, lalu tandai Tetapkan sebagai default.
Model Anda kini di-deploy dan dokumen yang dikirim ke pemroses ini menggunakan versi kustom Anda. Anda ingin mengevaluasi performa model (detail selengkapnya tentang cara melakukannya) untuk memeriksa apakah model memerlukan pelatihan lebih lanjut.
Referensi evaluasi
Mesin evaluasi dapat melakukan pencocokan persis atau pencocokan fuzzy. Untuk kecocokan persis, nilai yang diekstrak harus sama persis dengan kebenaran dasar atau dihitung sebagai tidak cocok.
Ekstraksi pencocokan fuzzy yang memiliki sedikit perbedaan seperti perbedaan kapitalisasi masih dihitung sebagai kecocokan. Hal ini dapat diubah di layar Evaluasi.
Pelabelan otomatis dengan model dasar
Model dasar dapat mengekstrak kolom secara akurat untuk berbagai jenis dokumen, tetapi Anda juga dapat memberikan data pelatihan tambahan untuk meningkatkan akurasi model untuk struktur dokumen tertentu.
Document AI menggunakan nama label yang Anda tentukan dan anotasi sebelumnya untuk mempercepat dan mempermudah pemberian label pada dokumen dalam skala besar dengan pelabelan otomatis.
- Setelah membuat pemroses kustom, buka tab Mulai.
Pilih Buat Kolom Baru.
Buka tab Build, lalu pilih Import documents.
Pilih jalur dokumen dan set tempat dokumen akan diimpor. Centang kotak centang pemberian label otomatis dan pilih model dasar.
Di tab Build, pilih Kelola set data. Anda akan melihat dokumen yang diimpor. Pilih salah satu dokumen Anda.
Anda melihat prediksi dari model yang ditandai dengan warna ungu, Anda perlu meninjau setiap label yang diprediksi oleh model dan memastikannya sudah benar. Jika ada kolom yang tidak ada, Anda juga harus menambahkannya.
Setelah dokumen ditinjau, pilih Tandai sebagai telah diberi label.
Dokumen kini siap digunakan oleh model. Pastikan dokumen berada dalam set pengujian atau pelatihan.