Melatih ulang pemroses terlatih
Dengan menggunakan Parser Invoice, Anda dapat meng-uptrain pemroses terlatih untuk meningkatkan akurasi. Anda memulai dengan model siap pakai, lalu melatihnya dengan data Anda, dengan menambahkan kolom kustom. Format invoice beragam, dan melakukan pelatihan ulang Parser Invoice generik dengan data Anda dapat meningkatkan akurasi pada format tertentu dan memungkinkan parser mengekstrak kolom yang tidak didukung oleh model terlatih. Contoh data disediakan, tetapi Anda dapat mengikuti prosedur yang sama menggunakan data Anda sendiri.
Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Membuat pemroses
Di menu navigasi konsol Google Cloud, pilih Document AI, lalu pilih Processor Gallery.
Di Galeri Prosesor,
telusuri Invoice Parser, lalu pilih Buat.Masukkan Processor name, seperti
invoice-parser-for-uptraining
.Pilih wilayah yang terdekat dengan Anda.
Pilih Create. Tab Processor Details akan muncul.
Membuat bucket Cloud Storage untuk set data
Untuk melatih prosesor baru ini, Anda harus membuat set data dengan data pelatihan dan pengujian untuk membantu prosesor mengidentifikasi entitas yang ingin diekstrak.
Set data ini memerlukan bucket Cloud Storage baru. Jangan gunakan bucket yang sama dengan bucket tempat dokumen Anda disimpan.
Buka tab
Latih pemroses Anda.Pilih
Setel Lokasi Set Data . Anda akan diminta untuk memilih atau membuat bucket atau folder Cloud Storage kosong.Pilih
Browse untuk membuka Select folder.Pilih
Create a new bucket dan ikuti petunjuk untuk membuat bucket baru. Untuk informasi selengkapnya tentang cara membuat bucket Cloud Storage, lihat Bucket Cloud Storage.Catatan: Bucket adalah entitas penyimpanan tingkat atas, tempat Anda dapat menyusun folder secara bertingkat. Daripada membuat dan memilih bucket, Anda juga dapat membuat dan memilih folder kosong di dalam bucket yang ada, jika mau. Lihat folder simulasi.
Setelah Anda membuat bucket, halaman Select folder akan muncul untuk bucket tersebut.
Di halaman Select folder untuk bucket Anda, pilih
Select di bagian bawah dialog.Pastikan jalur tujuan diisi dengan nama bucket yang Anda pilih. Pilih
Create Dataset . Pembuatan set data mungkin memerlukan waktu beberapa menit.
Lanjutkan langsung ke pelatihan ulang: Langsung ke mengimpor data pra-label. Daripada mengimpor contoh dokumen, gunakan alat untuk memberi label pada kolom secara manual, dan tambahkan dokumen ke data pelatihan.
Memberi label dan menambahkan dokumen secara manual ke set pelatihan: Sebelum melanjutkan pelatihan ulang, lanjutkan ke Mengimpor contoh dokumen untuk pemberian label manual, dengan menyelesaikan petunjuk di sana.
Mengimpor contoh dokumen untuk pelabelan manual
Selanjutnya, impor contoh file PDF invoice ke set data Anda. Anda akan memberi label pada kolom dalam dokumen ini untuk membantu proses pelatihan ulang berikutnya.
Dalam panduan ini, Anda akan mendapatkan file perwakilan untuk menjadi dokumen contoh.
Di tab Pelatihan, pilih
Impor dokumen .Untuk contoh ini, masukkan nama bucket ini di
Jalur sumber . Link ini tertaut langsung ke satu dokumen.cloud-samples-data/documentai/codelabs/uptraining/pdfs
Untuk Pembagian data, pilih Tidak ditetapkan. Dokumen dalam folder ini tidak ditetapkan ke set pengujian atau pelatihan. Biarkan Import with auto-labeling tidak dicentang.
Pilih Impor Document AI membaca dokumen dari bucket ke dalam set data. Fungsi ini tidak mengubah bucket impor atau membaca dari bucket setelah impor selesai.
Saat mengimpor dokumen, Anda dapat menetapkan dokumen ke set Pelatihan atau Pengujian saat diimpor, atau menunggu untuk menetapkannya nanti.
Jika Anda ingin menghapus dokumen yang telah diimpor, pilih dokumen tersebut di tab Pelajari, lalu pilih Hapus.
Untuk informasi selengkapnya tentang cara menyiapkan data untuk diimpor, lihat Panduan persiapan data.
Menentukan skema pemroses
Set data Anda mungkin tidak berisi semua label yang didukung oleh Parser Invoice.
Jika demikian, Anda harus menandai label yang tidak digunakan sebagai Inactive
sebelum
memulai pelatihan. Anda juga dapat menambahkan satu atau beberapa label kustom sebelum
memulai pelatihan ulang.
Di tab Pelajari, pilih
Edit Skema di kiri bawah. Halaman Kelola label akan terbuka.Untuk menonaktifkan label yang tidak digunakan, centang
kotak untuk kolom yang tidak ada dalam daftar berikut, lalu pilih Nonaktifkan. Kolom berikut harus tetap diaktifkan:invoice_date line_item amount description receiver_address receiver_name supplier_address supplier_name total_amount
Catatan: Label tidak dapat dihapus. Sebagai gantinya, Anda dapat menonaktifkan label apa pun yang tidak ingin digunakan.
Pilih
Simpan setelah label selesai.Pilih
Panah Kembali untuk kembali ke halaman Pelatihan.
Memberi label pada dokumen
Proses memilih teks dalam dokumen, dan menerapkan label dikenal sebagai anotasi.
Kembali ke tab Pelajari, lalu pilih
dokumen untuk membuka konsol Pengelolaan label.Selanjutnya, Anda memilih dari label skema di panel sebelah kiri yang sesuai dengan nilai yang ingin dianotasi, dan menerapkan label.
Gunakan alat
Bounding box secara default, atau alatSelect text untuk nilai multibaris, guna memilih konten dan menerapkan label.Misalnya, dalam invoice ini, teks "McWilliam Piping International Piping Company" harus diberi label
supplier_name
. Anda dapat menggunakan filter teks untuk menelusuri nama label.Catatan: Alat Select text tidak berfungsi untuk semua nilai teks, jadi gunakan Bounding box jika sesuai. Anda juga dapat memilih kolom non-teks seperti kotak centang menggunakan alat Bounding box.
Tinjau nilai teks yang terdeteksi untuk memastikan nilai tersebut mencerminkan teks yang benar dari dokumen.
Saat memilih teks yang sesuai dengan label, pastikan Anda hanya menyertakan teks yang relevan. Misalnya, untuk label
invoice_id
, jangan sertakan karakter seperti#
yang sering kali mendahului nilai numerik. Jangan sertakan simbol mata uang seperti$
untuk uang.- Pastikan Anda menganotasi semua instance entity. Misalnya,
supplier_name
atauinvoice_id
mungkin muncul beberapa kali dalam dokumen, dan setiap instance harus dianotasi.
- Pastikan Anda menganotasi semua instance entity. Misalnya,
Ulangi untuk setiap kolom yang ingin diberi label.
Berikut adalah contoh kumpulan label lengkap dengan teks yang sesuai.
Nama Label | Teks |
---|---|
supplier_name |
McWilliam Piping International Piping Company |
supplier_address |
14368 Pipeline Ave Chino, CA 91710 |
invoice_id |
10001 |
due_date |
2020-01-02 |
line_item/description |
Coupler Knuckle |
line_item/quantity |
9 |
line_item/unit_price |
74,43 |
line_item/amount |
669,87 |
line_item/description |
Pipa PVC 12 Inci |
line_item/quantity |
7 |
line_item/unit_price |
15,90 |
line_item/amount |
111,30 |
line_item/description |
Pipa Tembaga |
line_item/quantity |
7 |
line_item/unit_price |
91,20 |
line_item/amount |
638,40 |
net_amount |
1.419,57 |
total_tax_amount |
113,57 |
total_amount |
1.533,14 |
currency |
$ |
Pilih
Tandai sebagai Dilabeli setelah Anda selesai menganotasi dokumen.Di tab Latih, panel sebelah kiri menunjukkan bahwa 1 dokumen telah diberi label.
Menetapkan dokumen yang dianotasi ke set pelatihan
Setelah memberi label pada contoh dokumen ini, Anda dapat menetapkannya ke set pelatihan.
Di tab Pelatihan, pilih kotak centang
Select All .Dari daftar
Tetapkan ke Set , pilih Pelatihan.
Di panel kiri, Anda dapat menemukan bahwa 1 dokumen telah ditetapkan ke set pelatihan.
Mengimpor data pra-label ke set pelatihan dan pengujian
Pelatihan ulang Document AI memerlukan minimal 10 dokumen dalam set pelatihan dan pengujian, bersama dengan 10 instance dari setiap label di setiap set.
Sebaiknya Anda memiliki minimal 50 dokumen di setiap set, dengan 50 instance dari setiap label, untuk mendapatkan performa terbaik. Makin banyak data pelatihan, umumnya makin tinggi akurasinya.
Dalam panduan ini, Anda akan diberi data yang telah diberi label. Jika mengerjakan project Anda sendiri, Anda harus menentukan cara memberi label pada data. Lihat Opsi pemberian label.
Pilih
Impor dokumen .Masukkan jalur berikut di
Source path . Bucket ini berisi dokumen yang telah diberi label sebelumnya dalam format JSON Dokumen.cloud-samples-data/documentai/Custom/Invoices/JSON
Dari daftar Pembagian data, pilih Pembagian otomatis. Tindakan ini akan otomatis membagi dokumen menjadi 80% dalam set pelatihan, dan 20% dalam set pengujian. Biarkan Import with auto-labeling tidak dicentang.
Pilih Impor Proses impor mungkin memerlukan waktu beberapa menit. Setelah itu, Anda akan menemukan dokumen di tab Latih.
Opsional: Otomatis melabeli dokumen yang baru diimpor
Saat mengimpor dokumen yang tidak berlabel untuk pemroses dengan versi pemroses yang sudah di-deploy, Anda dapat menggunakan Pelabelan otomatis untuk menghemat waktu pelabelan.
Di halaman Train,
Impor dokumen .Salin dan tempel jalur Cloud Storage berikut. Direktori ini berisi lima PDF invoice tanpa label. Dari menu drop-down Pembagian data, pilih Pelatihan.
cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
Di bagian Auto-labeling, pilih kotak centang
Import with auto-labeling .Pilih versi prosesor yang ada untuk melabeli dokumen.
- Contoh:
pretrained-invoice-v1.3-2022-07-15
- Contoh:
Pilih Import dan tunggu hingga dokumen selesai diimpor. Anda dapat meninggalkan halaman ini dan kembali lagi nanti.
- Setelah selesai, dokumen akan muncul di halaman Train di bagian Auto-labeled.
Anda tidak dapat menggunakan dokumen berlabel otomatis untuk pelatihan atau pengujian tanpa menandainya sebagai berlabel. Buka bagian
Auto-labeled untuk melihat dokumen berlabel otomatis.Pilih dokumen pertama untuk masuk ke konsol pelabelan.
Verifikasi label untuk memastikan label sudah benar. Sesuaikan jika salah.
Pilih
Tandai sebagai Dilabeli setelah selesai.Ulangi verifikasi label untuk setiap dokumen yang diberi label otomatis, lalu kembali ke halaman Train untuk menggunakan data tersebut untuk pelatihan.
Melatih pemroses
Setelah mengimpor data pelatihan dan pengujian, Anda dapat melatih pemroses. Karena pelatihan mungkin memerlukan waktu beberapa jam, pastikan Anda telah menyiapkan pemroses dengan data dan label yang sesuai sebelum memulai pelatihan.
Pilih
Uptrain New Version .Di kolom
Nama versi , masukkan nama untuk versi prosesor ini, sepertiinvoice-uptrain-1
.(Opsional) Pilih View Label Stats untuk menemukan informasi tentang label dokumen. Hal ini dapat membantu menentukan cakupan Anda. Pilih Tutup untuk kembali ke penyiapan pelatihan.
Pilih
Mulai pelatihan Anda dapat memeriksa statusnya di panel sebelah kanan.Halaman Pengelolaan set data akan terbuka. Anda dapat melihat status pelatihan di sisi kanan. Pelatihan kemungkinan akan memerlukan waktu beberapa jam, bergantung pada ukuran set data Anda. Anda dapat meninggalkan halaman ini dan kembali lagi nanti.
Men-deploy versi pemroses
Setelah pelatihan selesai, buka tab
Kelola Versi . Anda dapat melihat detail tentang versi yang baru saja dilatih.Pilih
tiga titik vertikal di sebelah kanan versi yang ingin Anda deploy, lalu pilih Deploy versi.Pilih
Deploy dari jendela pop-up.Deployment memerlukan waktu beberapa menit hingga selesai.
Mengevaluasi dan menguji pemroses
Setelah deployment selesai, buka tab
Evaluate & Test .Di halaman ini, Anda dapat melihat metrik evaluasi termasuk skor F1, Presisi, dan Perolehan untuk dokumen lengkap, serta masing-masing label. Untuk mengetahui informasi selengkapnya tentang evaluasi dan statistik, lihat Mengevaluasi pemroses.
Download dokumen yang belum pernah digunakan dalam pelatihan atau pengujian sebelumnya sehingga Anda dapat menggunakannya untuk mengevaluasi versi prosesor. Jika menggunakan data Anda sendiri, Anda akan menggunakan dokumen yang disediakan untuk tujuan ini.
Pilih
Upload Test Document , lalu pilih dokumen yang baru saja Anda download.Halaman Invoice Parser analysis akan terbuka. Output layar menunjukkan seberapa baik dokumen diklasifikasikan.
Anda juga dapat menjalankan ulang evaluasi terhadap set pengujian atau versi pemroses yang berbeda.
Menggunakan prosesor
Anda telah berhasil membuat dan mengupdate pemroses Parser Invoice.
Anda dapat mengelola versi prosesor yang dilatih kustom seperti versi prosesor lainnya, seperti saat bermigrasi ke prosesor yang lebih baru saat prosesor tidak digunakan lagi. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.
Anda dapat Mengirim permintaan pemrosesan ke pemroses kustom, dan respons dapat ditangani sama seperti pemroses ekstraksi entity lainnya.
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan di halaman ini, ikuti langkah-langkah berikut.
Untuk menghindari tagihan Google Cloud yang tidak perlu, gunakan konsol Google Cloud untuk menghapus prosesor dan project jika Anda tidak membutuhkannya.
Jika Anda membuat project baru untuk mempelajari Document AI dan tidak lagi memerlukan project tersebut, [hapus project][delete-project].
Jika Anda menggunakan project Google Cloud yang sudah ada, hapus resource yang dibuat untuk menghindari tagihan pada akun Anda:
Di menu navigasi konsol Google Cloud, pilih Document AI, lalu pilih My Processors.
Pilih
Tindakan lainnya di baris yang sama dengan prosesor yang ingin Anda hapus.Pilih Hapus prosesor, masukkan nama prosesor, lalu pilih Hapus lagi untuk mengonfirmasi.