Pemisah kustom
Pemisah kustom dirancang untuk digunakan memisahkan dokumen komposit (dokumen yang terdiri dari beberapa class) menjadi sejumlah dokumen class tunggal dengan mengidentifikasi setiap dokumen logis. Misalnya, paket hipotek yang berisi beberapa class di dalamnya seperti pendaftaran, verifikasi penghasilan, dan tanda pengenal berfoto. Agar dapat digunakan, pemroses pemisah kustom dilatih dari awal menggunakan dokumen dan class kustom Anda sendiri.
Deskripsi dan penggunaan pemisah
Anda membuat pemisah kustom yang secara khusus cocok dengan dokumen Anda, serta dilatih dan dievaluasi dengan data Anda. Pemroses ini mengidentifikasi class dokumen dari kumpulan class yang ditentukan pengguna. Kemudian, Anda dapat menggunakan pemroses terlatih ini pada dokumen produksi. Anda biasanya akan menggunakan pemisah kustom pada file yang terdiri dari berbagai jenis dokumen logis, lalu menggunakan identifikasi class masing-masing untuk meneruskan dokumen ke pemroses ekstraksi yang sesuai untuk mengekstrak entity.
Karena model ML tidak sempurna dan memiliki tingkat error tertentu, dan karena error dalam pemisahan biasanya sangat bermasalah (pemisahan yang buruk membuat dua dokumen salah dan menyebabkan error ekstraksi), praktik terbaiknya adalah selalu memiliki langkah peninjauan manusia setelah prediksi pemisahan, tetapi sebelum pemisahan file yang sebenarnya. Berdasarkan persyaratan bisnis, ada alternatif untuk selalu melakukan peninjauan manusia:
- Gunakan skor keyakinan dalam prediksi untuk memutuskan apakah akan mengabaikan peninjauan manual (jika cukup tinggi). Nilai minimum skor keyakinan tersebut harus ditentukan berdasarkan data historis tentang rasio error pada skor keyakinan tertentu. Hal ini harus merupakan keputusan bisnis berdasarkan toleransi proses bisnis terhadap error dan persyaratan untuk mengabaikan peninjauan manual.
- Dalam beberapa kasus penggunaan, dokumen yang dipisah dapat dirutekan langsung ke ekstraktor yang sesuai sesuai dengan class yang diprediksi. Kemudian, jika ekstraksi tidak lengkap atau memiliki skor keyakinan rendah, isolasi dokumen yang dipisah dan picu dokumen gabungan asli dan keputusan pemisahan untuk ditinjau. Hal ini memiliki persyaratan alur kerja yang agak kompleks.
Membuat pemisah kustom di konsol Google Cloud
Panduan memulai ini menjelaskan cara menggunakan Document AI untuk membuat dan melatih pemisah kustom yang memisahkan dan mengklasifikasikan dokumen pengadaan. Sebagian besar persiapan dokumen telah selesai, sehingga Anda dapat berfokus pada pembuatan pemisah kustom.
Alur kerja umum untuk membuat dan menggunakan pemisah kustom adalah sebagai berikut:
- Membuat pemisah kustom di Document AI.
- Buat set data menggunakan bucket Cloud Storage kosong.
- Menentukan dan membuat skema (class) pemroses.
- Mengimpor dokumen.
- Tetapkan dokumen ke set pelatihan dan pengujian.
- Menganotasi dokumen secara manual di Document AI atau dengan tugas pelabelan.
- Latih pemroses.
- Evaluasi pemroses.
- Deploy pemroses.
- Uji prosesor.
- Gunakan pemroses pada dokumen Anda.
Jika dokumen Anda berada dalam folder terpisah berdasarkan kelas, Anda dapat melewati langkah 6 dengan menentukan kelas pada waktu impor.
Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Membuat pemroses
Di konsol Google Cloud, di bagian Document AI, buka halaman Workbench.
Untuk Custom Document Splitter, pilih
Create processor .Di menu Create processor, masukkan nama untuk pemroses Anda, seperti
my-custom-document-splitter
.Pilih wilayah yang terdekat dengan Anda.
Pilih Create. Tab Processor Details akan muncul.
Mengonfigurasi set data
Untuk melatih prosesor baru ini, Anda harus membuat set data dengan data pelatihan dan pengujian untuk membantu prosesor mengidentifikasi dokumen yang ingin Anda bagi dan klasifikasikan.
Set data ini memerlukan lokasi baru. Ini dapat berupa folder atau bucket Cloud Storage kosong, atau Anda dapat mengizinkan lokasi Dikelola Google (internal).
- Jika Anda menginginkan penyimpanan yang dikelola Google, pilih opsi tersebut.
- Jika Anda ingin menggunakan penyimpanan Anda sendiri untuk menggunakan Kunci Enkripsi yang Dikelola Pelanggan (CMEK), pilih Saya akan menentukan lokasi penyimpanan saya sendiri dan ikuti prosedur selanjutnya.
Membuat bucket Cloud Storage untuk set data
Buka tab
Latih pemroses Anda.Pilih Setel lokasi set data. Anda akan diminta untuk memilih atau membuat bucket atau folder Cloud Storage kosong.
Pilih Cari untuk membuka Pilih folder.
Pilih ikon Create a new bucket dan ikuti petunjuk untuk membuat bucket baru. Setelah Anda membuat bucket, halaman Select folder akan muncul untuk bucket tersebut. Untuk informasi selengkapnya tentang cara membuat bucket Cloud Storage, lihat Bucket Cloud Storage.
Di halaman Pilih folder untuk bucket Anda, pilih Tombol pilih di bagian bawah dialog.
Pastikan jalur tujuan diisi dengan nama bucket yang Anda pilih. Pilih Create dataset. Pembuatan set data mungkin memerlukan waktu beberapa menit.
Menentukan skema pemroses
Anda dapat membuat skema pemroses sebelum atau setelah mengimpor dokumen ke dalam set data. Skema menyediakan label yang Anda gunakan untuk menganotasi dokumen.
Di tab Pelajari, pilih
Edit Skema di kiri bawah. Halaman Kelola label akan terbuka.Pilih
Buat label .Masukkan nama untuk label. Pilih Create. Lihat Menentukan skema pemroses untuk mengetahui petunjuk mendetail tentang cara membuat dan mengedit skema.
Buat setiap label berikut untuk skema prosesor.
bank_statement
form_1040
form_w2
form_w9
paystub
Pilih
Simpan setelah label selesai.
Mengimpor dokumen tanpa label ke set data
Langkah berikutnya adalah mulai mengimpor dokumen yang tidak berlabel ke set data Anda dan memberi label pada dokumen tersebut. Alternatif yang direkomendasikan adalah mengimpor dokumen yang diatur dalam folder berdasarkan kelas, jika tersedia.
Jika mengerjakan project sendiri, Anda menentukan cara memberi label pada data. Lihat Opsi pemberian label.
Prosesor kustom Document AI memerlukan minimal 10 dokumen dalam set pelatihan dan pengujian, bersama dengan 10 instance dari setiap label di setiap set. Sebaiknya gunakan setidaknya 50 dokumen dalam setiap set, dengan 50 instance dari setiap label untuk mendapatkan performa terbaik. Secara umum, makin banyak data pelatihan, makin tinggi akurasinya.
Di tab Pelatihan, pilih
Impor dokumen .Untuk contoh ini, masukkan jalur ini di
Jalur sumber . File ini berisi satu PDF dokumen.cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-Unlabeled
Tetapkan
Label dokumen sebagai Tidak ada.Tetapkan dropdown
Pembagian set data ke Tidak ditetapkan.Dokumen dalam folder ini tidak diberi label atau ditetapkan ke set pengujian atau pelatihan secara default.
Pilih
Impor . Document AI membaca dokumen dari bucket ke set data. Tindakan ini tidak mengubah bucket impor atau membaca dari bucket setelah impor selesai.
Saat mengimpor dokumen, Anda dapat menetapkan dokumen ke set Pelatihan atau Pengujian saat diimpor, atau menunggu untuk menetapkannya nanti.
Jika Anda ingin menghapus dokumen yang telah diimpor, pilih dokumen tersebut di tab Pelajari, lalu pilih Hapus.
Untuk informasi selengkapnya tentang cara menyiapkan data untuk diimpor, lihat Panduan persiapan data.
Opsional: Melabeli dokumen secara massal saat mengimpor
Anda dapat memberi label pada semua dokumen yang berada dalam direktori tertentu saat mengimpor untuk menghemat waktu dengan pemberian label. Jika dokumen pelatihan Anda diatur berdasarkan class dalam folder, Anda dapat menggunakan kolom Label dokumen untuk menentukan class untuk dokumen tersebut dan menghindari pemberian label manual pada setiap dokumen.
Dalam gambar, Bank_statements dan Invoice adalah label yang ditentukan
(class dokumen) yang tersedia dan dapat Anda pilih. Atau, Anda dapat menggunakan CREATE LABEL
dan menentukan class
baru.
- Klik Impor dokumen.
Masukkan jalur berikut di Source path. Bucket ini berisi dokumen tanpa label dalam format PDF.
cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
Dari daftar Pembagian data, pilih Pembagian otomatis. Tindakan ini akan otomatis membagi dokumen menjadi 80% dalam set pelatihan, dan 20% dalam set pengujian.
Di bagian Terapkan label, pilih Pilih label.
Untuk contoh dokumen ini, pilih lainnya.
Klik Import dan tunggu hingga dokumen selesai diimpor. Anda dapat meninggalkan halaman ini dan kembali lagi nanti.
Memberi label pada dokumen
Proses penerapan label ke dokumen dikenal sebagai anotasi.
Kembali ke tab Pelajari, lalu pilih
dokumen untuk membuka konsol Pengelolaan label.Dokumen ini berisi beberapa grup halaman yang perlu diidentifikasi dan diberi label. Pertama, Anda perlu mengidentifikasi titik pemisahan. Gerakkan mouse di antara halaman 1 dan 2 dalam tampilan gambar, lalu pilih
simbol + .Buat titik pemisahan sebelum nomor halaman berikut: 2, 3, 4, 5.
Konsol Anda akan terlihat seperti ini setelah selesai.
Di
dropdown Document type , pilih label yang sesuai untuk setiap grup halaman.Halaman Jenis dokumen 1 paystub
2 form_w9
3 bank_statement
4 form_w2
5 & 6 form_1040
Dokumen berlabel akan terlihat seperti ini setelah selesai:
Pilih
Tandai sebagai Dilabeli setelah Anda selesai menganotasi dokumen.Di tab Latih, panel sebelah kiri menunjukkan bahwa 1 dokumen telah diberi label.
Menetapkan dokumen yang dianotasi ke set pelatihan
Setelah memberi label pada contoh dokumen ini, Anda dapat menetapkannya ke set pelatihan.
Di tab Pelatihan, pilih kotak centang
Select All .Dari daftar
Tetapkan ke Set , pilih Pelatihan.
Di panel kiri, Anda dapat menemukan bahwa 1 dokumen telah ditetapkan ke set pelatihan.
Mengimpor data dengan pelabelan batch
Selanjutnya, Anda mengimpor file PDF tanpa label yang diurutkan ke dalam folder Cloud Storage yang berbeda berdasarkan jenisnya. Pemberian label secara massal membantu menghemat waktu pemberian label dengan menetapkan label pada waktu impor berdasarkan jalur.
Di tab Pelatihan, pilih
Impor dokumen .Masukkan jalur berikut di
Source path . Folder ini berisi PDF laporan mutasi bank.cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/bank-statement
Tetapkan
Label dokumen sebagaibank_statement
.Tetapkan, di menu
Dataset split , ke Auto-split. Tindakan ini akan otomatis membagi dokumen menjadi 80% dalam set pelatihan dan 20% dalam set pengujian.Pilih
Tambahkan Folder Lain untuk menambahkan lebih banyak folder.Ulangi langkah sebelumnya dengan jalur dan label dokumen berikut:
Jalur bucket Label dokumen cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/1040
form_1040
cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w2
form_w2
cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w9
form_w9
cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/paystub
paystub
Konsol akan terlihat seperti ini setelah selesai:
Pilih
Impor . Proses impor memerlukan waktu beberapa menit.
Setelah impor selesai, temukan dokumen di tab Train.
Mengimpor data pra-label
Dalam panduan ini, Anda akan diberi data yang telah diberi label dalam format Document
sebagai file JSON.
Ini adalah format yang sama dengan yang dihasilkan Document AI saat memproses dokumen, memberi label dengan Human-in-the-Loop, atau mengekspor set data.
Di tab Pelatihan, pilih
Impor dokumen .Masukkan jalur berikut di
Source path .cloud-samples-data/documentai/Custom/Lending-Splitter/JSON-Labeled
Tetapkan
Label dokumen sebagai Tidak ada.Tetapkan dropdown
Pemisahan set data ke Pemisahan otomatis.Pilih
Impor .
Setelah impor selesai, temukan dokumen di tab Train.
Melatih pemroses
Setelah mengimpor data pelatihan dan pengujian, Anda dapat melatih pemroses. Karena pelatihan mungkin memerlukan waktu beberapa jam, pastikan Anda telah menyiapkan pemroses dengan data dan label yang sesuai sebelum memulai pelatihan.
Pilih
Train New Version .Di kolom
Nama versi , masukkan nama untuk versi prosesor ini, sepertimy-cds-version-1
.(Opsional) Pilih View Label Stats untuk menemukan informasi tentang label dokumen. Hal ini dapat membantu menentukan cakupan Anda. Pilih Tutup untuk kembali ke penyiapan pelatihan.
Pilih
Mulai pelatihan Anda dapat memeriksa statusnya di panel sebelah kanan.
Men-deploy versi pemroses
Setelah pelatihan selesai, buka tab
Kelola Versi . Anda dapat melihat detail tentang versi yang baru saja dilatih.Pilih
tiga titik vertikal di sebelah kanan versi yang ingin Anda deploy, lalu pilih Deploy versi.Pilih
Deploy dari jendela pop-up.Deployment memerlukan waktu beberapa menit hingga selesai.
Mengevaluasi dan menguji pemroses
Setelah deployment selesai, buka tab
Evaluate & Test .Di halaman ini, Anda dapat melihat metrik evaluasi termasuk skor F1, presisi, dan recall untuk dokumen lengkap, serta masing-masing label. Untuk informasi selengkapnya tentang evaluasi dan statistik, lihat Mengevaluasi prosesor.
Download dokumen yang belum pernah digunakan dalam pelatihan atau pengujian sebelumnya sehingga Anda dapat menggunakannya untuk mengevaluasi versi pemroses. Jika menggunakan data Anda sendiri, Anda akan menggunakan dokumen yang disediakan untuk tujuan ini.
Pilih
Upload Test Document , lalu pilih dokumen yang baru saja Anda download.Halaman Custom splitter analysis akan terbuka. Output layar menunjukkan seberapa baik dokumen dibagi dan diklasifikasikan.
Konsol akan terlihat seperti ini setelah selesai:
Anda juga dapat menjalankan ulang evaluasi terhadap set pengujian atau versi pemroses yang berbeda.
(Opsional) Mengimpor data dengan pelabelan otomatis
Setelah menerapkan versi prosesor terlatih, Anda dapat menggunakan Pelabelan otomatis untuk menghemat waktu pelabelan saat mengimpor dokumen baru.
Di tab Pelatihan, pilih
Impor dokumen .Masukkan jalur berikut di
Source path . Folder ini berisi PDF tanpa label dari beberapa jenis dokumen.cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-AutoLabel
Tetapkan
Label dokumen sebagai Label otomatis.Tetapkan dropdown
Pemisahan set data ke Pemisahan otomatis.Di bagian Auto-labeling, tetapkan
Version sebagai versi yang telah Anda latih sebelumnya.- Contoh:
2af620b2fd4d1fcf
- Contoh:
Pilih
Import dan tunggu hingga dokumen selesai diimpor.Anda tidak dapat menggunakan dokumen berlabel otomatis untuk pelatihan atau pengujian tanpa menandainya sebagai berlabel. Buka bagian
Auto-labeled untuk melihat dokumen berlabel otomatis.Pilih dokumen pertama untuk masuk ke konsol pelabelan.
Verifikasi label untuk memastikan label sudah benar, dan sesuaikan jika tidak.
Pilih
Tandai sebagai Dilabeli setelah selesai.Ulangi verifikasi label untuk setiap dokumen yang diberi label otomatis.
Kembali ke halaman Train dan pilih Train New Version untuk menggunakan data tersebut untuk pelatihan.
Menggunakan prosesor
Anda telah berhasil membuat dan melatih pemroses pemisah kustom.
Anda dapat mengelola versi prosesor yang dilatih secara kustom seperti versi prosesor lainnya. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.
Setelah di-deploy, Anda dapat Mengirim permintaan pemrosesan ke pemroses kustom, dan respons dapat ditangani sama seperti pemroses pemisah lainnya.
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan di halaman ini, ikuti langkah-langkah berikut.
Untuk menghindari tagihan Google Cloud yang tidak perlu, gunakan konsol Google Cloud untuk menghapus prosesor dan project jika Anda tidak membutuhkannya.
Jika Anda membuat project baru untuk mempelajari Document AI dan Anda tidak lagi memerlukan project tersebut, hapus project tersebut.
Jika Anda menggunakan project Google Cloud yang sudah ada, hapus resource yang dibuat untuk menghindari tagihan pada akun Anda:
Di menu navigasi konsol Google Cloud, pilih Document AI, lalu pilih My Processors.
Pilih
Tindakan lainnya di baris yang sama dengan prosesor yang ingin Anda hapus.Pilih Hapus prosesor, ketik nama prosesor, lalu pilih Hapus lagi untuk mengonfirmasi.