Mekanisme ekstraktor kustom
Anda dapat membuat ekstraktor kustom yang secara khusus cocok dengan dokumen Anda, dan dilatih serta dievaluasi dengan data Anda. Pemroses ini mengidentifikasi dan mengekstrak entitas dari dokumen Anda. Kemudian, Anda dapat menggunakan prosesor terlatih ini pada dokumen tambahan.
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Membuat pemroses
Di konsol Google Cloud, di bagian Document AI, buka halaman Workbench.
Untuk ekstraktor kustom, pilih
Create processor .Di menu Create processor, masukkan nama untuk pemroses Anda, seperti
my-custom-document-extractor
.Pilih wilayah yang terdekat dengan Anda.
Opsional: Buka Advanced options.
Anda memiliki opsi untuk mengizinkan Google membuat bucket Cloud Storage untuk Anda, atau Anda dapat membuat bucket Anda sendiri. Untuk tutorial ini, pilih Penyimpanan yang dikelola Google.
Anda juga memiliki opsi untuk menggunakan kunci enkripsi yang dikelola Google atau Kunci enkripsi yang dikelola pelanggan (CMEK). Untuk tutorial ini, pilih yang dikelola Google yang didukung Google Cloud.
Pilih Create untuk membuat pemroses.
Menentukan kolom prosesor
Anda sekarang berada di halaman Ringkasan prosesor dari prosesor yang baru saja Anda buat.
Anda dapat menentukan kolom yang ingin diekstrak oleh pemroses dan mulai memberi label pada dokumen.
Pilih tab
Mulai . Menu kolom akan muncul.Pilih Buat kolom baru.
Masukkan nama untuk kolom. Pilih Jenis data dan Kejadian. Berikan Deskripsi yang deskriptif dan berbeda untuk label. Deskripsi properti memungkinkan Anda memberikan konteks, insight, dan pengetahuan sebelumnya tambahan untuk setiap entity guna meningkatkan akurasi dan performa ekstraksi.
- Pilih Create. Lihat Menentukan skema pemroses untuk mengetahui petunjuk mendetail tentang cara membuat dan mengedit skema.
Buat setiap label berikut untuk skema prosesor.
Nama Jenis Data Kejadian control_number
Angka Beberapa opsional employees_social_security_number
Angka Required multiple employer_identification_number
Angka Required multiple employers_name_address_and_zip_code
Address Required multiple federal_income_tax_withheld
Money Required multiple social_security_tax_withheld
Money Required multiple social_security_wages
Money Required multiple wages_tips_other_compensation
Money Required multiple Anda juga dapat membuat dan menggunakan jenis label lainnya dalam skema pemroses, seperti kotak centang dan entitas tabel. Misalnya, formulir W-2 berisi kotak centang karyawan statutori, rencana pensiun, dan gaji sakit pihak ketiga yang juga dapat Anda tambahkan ke skema.
Mengupload dokumen contoh
Uji dengan dokumen contoh.
Pilih Upload contoh dokumen.
Di sidebar, pilih Import documents from Cloud Storage.
Untuk contoh ini, masukkan nama bucket ini di
Jalur sumber . Link ini tertaut langsung ke satu dokumen.cloud-samples-data/documentai/Custom/W2/PDF/W2_XL_input_clean_2950.pdf
Pilih Impor
Anda akan dialihkan ke konsol pemberian label.
Memberi label pada dokumen
Proses memilih teks dalam dokumen dan menerapkan label dikenal sebagai anotasi atau pelabelan.
Saat Anda berada di konsol pemberian label, perhatikan bahwa banyak label sudah diisi. Hal ini karena jenis model ekstraktor kustom default adalah model dasar, yang dapat melakukan prediksi zero-shot, yaitu tanpa pelatihan.
Untuk menggunakan label yang disarankan, tahan kursor ke setiap
label di panel samping, lalu pilih tanda centang untuk mengonfirmasi bahwa label sudah benar. Jangan mengedit teks, meskipun OCR membaca teks dengan salah.Dalam contoh ini, nilai di bagian bawah dokumen tidak diidentifikasi secara otomatis, sehingga Anda perlu memberi label secara manual.
Gunakan ikon di toolbar di atas dokumen untuk memberi label. Gunakan alat
bounding box secara default, atau alatSelect text untuk nilai multibaris, guna memilih konten dan menerapkan label.Setelah teks dipilih, menu drop-down akan muncul dengan semua kolom (entity) yang ditentukan agar Anda dapat memilih salah satunya. Dalam contoh ini, nilai
wages_tips_other_compensation
dipilih dengan alat bounding box, dan label tersebut diterapkan.Tinjau nilai teks yang terdeteksi untuk memastikan nilai tersebut mencerminkan lokasi teks yang benar untuk setiap kolom. Dokumen W2 berlabel akan terlihat seperti ini setelah selesai:
Jika perlu, Anda dapat memilih
Buat kolom baru untuk menambahkan kolom baru ke skema dari halaman ini.Pilih
Tandai sebagai diberi label setelah Anda selesai menganotasi dokumen. Anda akan dialihkan ke tab Mulai.
Mem-build versi pemroses menggunakan model dasar
Setelah melabeli satu dokumen, Anda dapat membuat versi pemroses menggunakan model dasar yang telah dilatih sebelumnya untuk mengekstrak entity.
Pilih tab
Build .Di bagian Model dasar panggilan, pilih Buat versi baru.
Masukkan nama untuk versi prosesor Anda, seperti
w2-foundation-model
.Pilih Buat versi. Pembuatannya memerlukan waktu beberapa menit.
Opsional: pilih tab
Deploy & use . Di halaman ini, Anda dapat melihat versi prosesor yang tersedia dan status deployment versi baru.
Menggunakan AI generatif untuk memberi label otomatis pada dokumen
Model dasar dapat mengekstrak kolom secara akurat untuk berbagai jenis dokumen, tetapi Anda juga dapat memberikan data pelatihan tambahan untuk meningkatkan akurasi model untuk struktur dokumen tertentu.
Ekstraktor kustom menggunakan nama label yang Anda tentukan dan anotasi sebelumnya untuk mempercepat dan mempermudah pemberian label pada dokumen dalam skala besar dengan pemberian label otomatis.
Buka halaman
Build .Pilih
Impor dokumen .Di sidebar, pilih Import documents from Google Cloud Storage.
Masukkan nama bucket ini yang berisi dokumen Anda.
Dari daftar Pembagian data, pilih Pembagian otomatis. Tindakan ini akan otomatis membagi dokumen menjadi 80% dalam set pelatihan dan 20% dalam set pengujian.
Di bagian Auto-labeling, pilih kotak centang
Import with auto-labeling .Pilih versi prosesor model dasar untuk melabeli dokumen.
pilih Import dan tunggu hingga dokumen selesai diimpor. Anda dapat meninggalkan halaman ini dan kembali lagi nanti.
Anda harus memverifikasi dokumen berlabel otomatis sebelum dapat menggunakannya untuk pelatihan atau pengujian. Pilih
Mulai pelabelan untuk melihat dokumen berlabel otomatis.Untuk menggunakan label yang disarankan, arahkan kursor ke setiap
anotasi , dan pilih tanda centang untuk mengonfirmasi bahwa label sudah benar. Untuk tujuan pelatihan, jangan edit nilai jika tidak cocok dengan teks dokumen. Hanya ubah kotak pembatas jika teks yang salah dipilih.Pilih
Tandai sebagai diberi label setelah Anda selesai menganotasi dokumen.Ulangi untuk setiap dokumen yang diberi label otomatis.
Mengimpor dokumen pelatihan yang telah diberi label
Buka halaman
Build .Pilih
Impor dokumen .Di sidebar, pilih Import documents from Cloud Storage.
Masukkan jalur Anda di Source path yang berisi dokumen Anda. Bucket ini harus berisi dokumen yang telah diberi label dalam format Document JSON.
Dari daftar Pembagian data, pilih Pembagian otomatis. Tindakan ini akan otomatis membagi dokumen menjadi 80% dalam set pelatihan, dan 20% dalam set pengujian. Biarkan Import with auto-labeling tidak dicentang.
Pilih Impor Proses impor memerlukan waktu beberapa menit.
Opsional: Melihat dan mengelola set data
- Dari halaman Build, Anda dapat mengakses konsol
Manage dataset untuk melihat dan mengedit semua dokumen dan label dalam set data.
Melatih pemroses berbasis model kustom
Pelatihan mungkin memerlukan waktu beberapa jam. Pastikan Anda telah menyiapkan pemroses dengan data dan label yang sesuai sebelum memulai pelatihan.
Untuk mengetahui informasi tentang persyaratan set data, di bagian Latih model kustom, pilih Buat versi baru atau Lihat persyaratan lengkap. Ini bukan model AI generatif. Setidaknya 10 instance pelatihan dan 10 instance pengujian dari setiap kolom diperlukan untuk prosesor berbasis model kustom.
Di kolom Nama versi, masukkan nama untuk versi prosesor ini, seperti
w2-custom-model
.Opsional: pilih Lihat statistik label untuk menemukan informasi tentang label dokumen. Hal ini dapat membantu menentukan cakupan Anda. Pilih Tutup untuk kembali ke penyiapan pelatihan.
Di bagian Model training method, pilih Model based.
Pilih Mulai pelatihan. Pelatihan memerlukan waktu beberapa jam. Anda dapat menutup halaman ini dan kembali lagi nanti.
Opsional: pilih tab
Deploy & use . Di halaman ini, Anda dapat melihat versi prosesor yang tersedia dan status pelatihan versi baru.
Men-deploy versi pemroses
Setelah pelatihan selesai, pilih tab
Deploy & use .Centang kotak di sebelah kiri versi yang ingin di-deploy, lalu pilih Deploy.
Pilih Deploy dari jendela dialog. Deployment memerlukan waktu beberapa menit.
Saat versi di-deploy, Anda dapat menetapkannya sebagai
Versi default , atau Anda dapat memberikan ID versi saat memproses dokumen dengan API.
Mengevaluasi dan menguji pemroses
Pilih tab
Evaluate untuk menguji versi prosesor. Di halaman ini, Anda dapat melihat metrik evaluasi termasuk skor F1, presisi, dan recall untuk dokumen lengkap, serta masing-masing label. Untuk mengetahui informasi selengkapnya tentang evaluasi dan statistik, lihat mengevaluasi prosesor.Pilih pemilih
Version , lalu pilih versi menggunakan model dasar.Download dokumen yang belum pernah digunakan dalam pelatihan atau pengujian sebelumnya sehingga Anda dapat menggunakannya untuk mengevaluasi versi pemroses. Jika menggunakan data Anda sendiri, Anda akan menggunakan dokumen yang disediakan untuk tujuan ini.
Pilih
Upload Test Document , lalu pilih dokumen yang baru saja Anda download. Halaman Analisis Pengekstrak Dokumen Kustom akan terbuka. Output layar menunjukkan seberapa baik dokumen diekstrak.Uji dokumen lagi menggunakan versi dengan model terlatih kustom.
Menggunakan prosesor
Anda telah berhasil membuat dan melatih pemroses ekstraktor kustom.
Anda dapat mengelola versi prosesor terlatih kustom seperti versi prosesor lainnya. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.
Untuk menggunakan Document AI API:
- Ikuti contoh kode di mengirim permintaan pemrosesan
untuk menggunakan pemrosesan online atau batch.
- Lihat Kuota dan batas untuk mengetahui jumlah halaman yang didukung untuk pemrosesan online dan batch.
- Ikuti contoh kode ekstraktor kustom di Menangani respons pemrosesan untuk mendapatkan entitas yang diekstrak dari pemroses.
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan di halaman ini, ikuti langkah-langkah berikut.
Untuk menghindari tagihan Google Cloud yang tidak perlu, gunakan konsol Google Cloud untuk menghapus prosesor dan project jika Anda tidak membutuhkannya.
Jika Anda membuat project baru untuk mempelajari Document AI dan Anda tidak lagi memerlukan project tersebut, hapus project tersebut.
Jika Anda menggunakan project Google Cloud yang sudah ada, hapus resource yang dibuat untuk menghindari tagihan pada akun Anda:
Di menu navigasi konsol Google Cloud, pilih Document AI, lalu pilih My Processors.
Pilih
Tindakan lainnya di baris yang sama dengan prosesor yang ingin Anda hapus.Pilih Hapus prosesor, masukkan nama prosesor, lalu pilih Hapus lagi untuk mengonfirmasi.
Langkah selanjutnya
Untuk mengetahui detailnya, lihat Panduan.