Mekanisme pengekstrak kustom
Anda dapat membuat ekstraktor kustom yang secara khusus cocok dengan dokumen Anda, serta dilatih dan dievaluasi dengan data Anda. Pemroses ini mengidentifikasi dan mengekstrak entity dari dokumen Anda. Selanjutnya, Anda dapat menggunakan pemroses terlatih ini pada dokumen tambahan.
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. Di konsol Google Cloud , di bagian Document AI, buka halaman Workbench.
Untuk custom extractor, pilih
Create processor .Di menu Buat pemroses, masukkan nama untuk pemroses Anda, misalnya
my-custom-document-extractor
.Pilih wilayah yang terdekat dengan Anda.
Opsional: Buka Advanced options.
Anda memiliki opsi untuk mengizinkan Google membuat bucket Cloud Storage untuk Anda, atau Anda dapat membuat bucket Anda sendiri. Untuk tutorial ini, pilih Penyimpanan yang dikelola Google.
Anda juga memiliki opsi untuk menggunakan kunci enkripsi yang dikelola Google atau Kunci enkripsi yang dikelola pelanggan (CMEK). Untuk tutorial ini, pilih Google-managed encryption key.
Pilih Create untuk membuat pemroses.
Pilih tab
Mulai . Menu kolom akan muncul.Pilih Buat kolom baru.
Masukkan nama untuk kolom tersebut. Pilih Data type dan Occurrence. Beri label Deskripsi yang deskriptif dan berbeda. Deskripsi properti memungkinkan Anda memberikan konteks, insight, dan pengetahuan sebelumnya tambahan untuk setiap entity guna meningkatkan akurasi dan performa ekstraksi.
- Pilih Create. Baca dokumentasi tentang cara Menentukan skema pemroses untuk petunjuk mendetail tentang cara membuat dan mengedit skema.
Buat semua label berikut untuk skema pemroses.
Nama Jenis Data Kemunculan control_number
Angka Optional multiple employees_social_security_number
Angka Required multiple employer_identification_number
Angka Required multiple employers_name_address_and_zip_code
Address Required multiple federal_income_tax_withheld
Money Required multiple social_security_tax_withheld
Money Required multiple social_security_wages
Money Required multiple wages_tips_other_compensation
Money Required multiple Anda juga dapat membuat dan menggunakan jenis label lainnya dalam skema pemroses Anda, seperti kotak centang dan entitas tabular. Misalnya, formulir W-2 berisi kotak centang statutory employee, retirement plan, dan third party sick pay yang dapat Anda tambahkan juga ke skema.
Pilih Upload dokumen contoh.
Di sidebar, pilih Import documents from Cloud Storage.
Untuk contoh ini, masukkan nama bucket ini di
Source path . Link ini mengarah langsung ke satu dokumen.cloud-samples-data/documentai/Custom/W2/PDF/W2_XL_input_clean_2950.pdf
Pilih Impor
Saat Anda berada di konsol pelabelan, perhatikan bahwa banyak label yang sudah terisi. Hal ini karena jenis model ekstraktor kustom default adalah model dasar, yang dapat melakukan prediksi zero-shot, yaitu tanpa pelatihan.
Untuk menggunakan label yang disarankan, geser kursor ke atas setiap
label di panel samping, lalu pilih tanda centang untuk mengonfirmasi bahwa label tersebut sudah benar. Jangan mengedit teks, meskipun OCR membaca teks dengan salah.Dalam contoh ini, nilai di bagian bawah dokumen tidak diidentifikasi secara otomatis, jadi Anda harus memberinya label secara manual.
Gunakan ikon di toolbar di atas dokumen untuk memberi label. Gunakan alat
kotak pembatas secara default, atau alatPilih teks untuk nilai multi-baris, guna memilih konten dan menerapkan label.Setelah teks dipilih, menu drop-down akan muncul dengan semua kolom (entitas) yang ditentukan agar Anda dapat memilih salah satunya. Dalam contoh ini, nilai
wages_tips_other_compensation
dipilih dengan alat kotak pembatas, dan label tersebut diterapkan.Tinjau nilai teks yang terdeteksi untuk memastikan bahwa nilai tersebut mencerminkan lokasi teks yang benar untuk setiap kolom. Dokumen W2 yang sudah diberi label akan terlihat seperti ini setelah selesai:
Jika diperlukan, Anda dapat memilih
Buat kolom baru untuk menambahkan kolom baru ke skema dari halaman ini.Pilih
Tandai sebagai diberi label setelah Anda selesai membuat anotasi pada dokumen. Anda akan dialihkan ke tab Mulai.Pilih tab
Build .Di bagian Call foundation model, pilih Create new version.
Masukkan nama untuk versi pemroses Anda, misalnya
w2-foundation-model
.Pilih Buat versi. Proses pembuatannya memerlukan waktu beberapa menit.
Opsional: pilih tab
Deploy & use . Di halaman ini, Anda dapat melihat versi pemroses yang tersedia dan status deployment versi yang baru.Buka halaman
Build .Pilih
Impor dokumen .Di sidebar, pilih Import documents from Google Cloud Storage.
Masukkan nama bucket yang berisi dokumen Anda.
Dari daftar Data split, pilih Auto-split. Dokumen akan otomatis terbagi menjadi 80%-nya dalam set pelatihan dan 20%-nya dalam set pengujian.
Di bagian Auto-labeling, pilih kotak centang
Import with auto-labeling .Pilih versi pemroses model dasar untuk melabeli dokumen.
Pilih Impor dan tunggu hingga dokumen selesai diimpor. Anda dapat keluar dari halaman ini dan kembali lagi nanti.
Anda harus memverifikasi dokumen berlabel otomatis sebelum dapat menggunakannya untuk pelatihan atau pengujian. Pilih
Mulai pelabelan untuk melihat dokumen berlabel otomatis.Untuk menggunakan label yang disarankan, geser kursor ke atas setiap
anotasi , lalu pilih tanda centang untuk mengonfirmasi bahwa label tersebut sudah benar. Untuk tujuan pelatihan, jangan edit nilai jika tidak cocok dengan teks dokumen. Ubah kotak pembatas hanya jika teks yang salah dipilih.Pilih
Tandai sebagai diberi label setelah Anda selesai membuat anotasi pada dokumen.Ulangi untuk setiap dokumen yang diberi label otomatis.
Buka halaman
Build .Pilih
Impor dokumen .Di sidebar, pilih Import documents from Cloud Storage.
Masukkan jalur Anda di Source path yang berisi dokumen Anda. Bucket ini harus berisi dokumen yang telah diberi label sebelumnya dalam format Document JSON.
Dari daftar Data split, pilih Auto-split. Dokumen akan otomatis terbagi menjadi 80%-nya dalam set pelatihan dan 20%-nya dalam set pengujian. Biarkan Import with auto-labeling tidak dicentang.
Pilih Impor Proses impor memerlukan waktu beberapa menit.
- Dari halaman Build, Anda dapat mengakses konsol
Kelola set data untuk melihat dan mengedit semua dokumen dan label dalam set data. Untuk mengetahui informasi tentang persyaratan set data, di bagian Train a custom model, pilih Create new version atau View full requirements. Ini bukan model AI generatif. Setidaknya diperlukan 10 instance pelatihan dan 10 instance pengujian dari setiap kolom untuk prosesor berbasis model kustom.
Di kolom Version name, masukkan nama untuk versi pemroses ini, seperti
w2-custom-model
.Opsional: pilih Lihat statistik label untuk menemukan informasi tentang label dokumen. Hal ini dapat membantu menentukan cakupan Anda. Pilih Tutup untuk kembali ke penyiapan pelatihan.
Di bagian Model training method, pilih Model based.
Pilih Mulai pelatihan. Pelatihan memerlukan waktu beberapa jam. Anda dapat menutup halaman ini dan kembali lagi nanti.
Opsional: pilih tab
Deploy & use . Di halaman ini, Anda dapat melihat versi pemroses yang tersedia dan status pelatihan versi yang baru.Setelah pelatihan selesai, pilih tab
Deploy & use .Centang kotak di sebelah kiri versi yang ingin Anda deploy, lalu pilih Deploy.
Pilih Deploy dari jendela dialog. Deployment memerlukan waktu beberapa menit.
Saat versi di-deploy, Anda dapat menetapkannya sebagai
Versi default , atau Anda dapat memberikan ID versi saat memproses dokumen dengan API.Pilih tab
Evaluate untuk menguji versi pemroses. Di halaman ini, Anda dapat melihat metrik evaluasi termasuk skor F1, presisi, dan perolehan untuk dokumen lengkap, dan masing-masing label. Untuk mengetahui informasi selengkapnya tentang evaluasi dan statistik, lihat evaluate processor.Pilih pemilih
Versi , lalu pilih versi menggunakan model dasar.Download dokumen yang belum pernah digunakan dalam pelatihan atau pengujian sebelumnya agar Anda dapat menggunakannya untuk mengevaluasi versi pemroses. Jika menggunakan data Anda sendiri, Anda akan menggunakan dokumen yang disisihkan untuk tujuan ini.
Pilih
Upload Test Document , lalu pilih dokumen yang baru saja Anda download. Halaman Analisis Pengekstrak Dokumen Kustom akan terbuka. Output layar menunjukkan seberapa baik dokumen diekstrak.Uji dokumen lagi menggunakan versi dengan model yang dilatih secara kustom.
- Ikuti contoh kode di mengirim permintaan pemrosesan
untuk menggunakan pemrosesan online atau batch.
- Lihat Kuota dan batas untuk mengetahui jumlah halaman yang didukung untuk pemrosesan online dan batch.
- Ikuti contoh kode ekstraktor kustom di Menangani respons pemrosesan untuk mendapatkan entitas yang diekstrak dari prosesor.
Di Google Cloud menu navigasi konsol, pilih Document AI, lalu pilih My Processors.
Pilih
Tindakan lainnya di baris yang sama dengan pemroses yang ingin Anda hapus.Pilih Hapus pemroses, masukkan nama pemroses, lalu pilih Hapus lagi untuk mengonfirmasi.
Membuat pemroses
Menentukan kolom pemroses
Anda sekarang berada di halaman Processor overview dari pemroses yang baru saja Anda buat.

Anda dapat menentukan kolom yang ingin diekstrak oleh pemroses dan mulai melabeli dokumen.

Mengupload dokumen contoh
Uji dengan dokumen contoh.
Anda akan dialihkan ke konsol pelabelan.
Memberi label dokumen
Proses memilih teks dalam dokumen dan menerapkan label disebut sebagai anotasi atau pelabelan.
Membangun versi pemroses menggunakan model dasar
Setelah melabeli satu dokumen, Anda dapat membuat versi pemroses menggunakan model dasar terlatih untuk mengekstrak entity.
Menggunakan AI generatif untuk memberi label dokumen secara otomatis
Model dasar dapat mengekstrak kolom secara akurat untuk berbagai jenis dokumen, tetapi Anda juga dapat menyediakan data pelatihan tambahan untuk meningkatkan akurasi model untuk struktur dokumen tertentu.
Ekstraktor kustom menggunakan nama label yang Anda tentukan dan anotasi sebelumnya untuk mempercepat dan mempermudah pelabelan dokumen dalam skala besar dengan pelabelan otomatis.
Mengimpor dokumen pelatihan yang telah diberi label
Opsional: Melihat dan mengelola set data
Prosesor berbasis model kustom pelatihan
Pelatihan mungkin memerlukan waktu beberapa jam. Pastikan Anda telah menyiapkan pemroses dengan data dan label yang sesuai sebelum memulai pelatihan.
Men-deploy versi pemroses
Mengevaluasi dan menguji pemroses
Menggunakan pemroses
Anda telah berhasil membuat dan melatih prosesor ekstraktor kustom.
Anda dapat mengelola versi prosesor yang dilatih kustom seperti versi prosesor lainnya. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.
Untuk menggunakan Document AI API:
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
Untuk menghindari tagihan yang tidak perlu, gunakan Google Cloud console untuk menghapus prosesor dan project Anda jika Anda tidak memerlukannya. Google Cloud
Jika Anda membuat project baru untuk mempelajari Document AI dan Anda tidak lagi memerlukan project tersebut, hapus project tersebut.
Jika Anda menggunakan project Google Cloud yang sudah ada, hapus resource yang dibuat untuk menghindari tagihan pada akun Anda:
Langkah berikutnya
Untuk mengetahui detailnya, lihat Panduan.