Mekanisme pengekstrak kustom

Anda dapat membuat ekstraktor kustom yang secara khusus cocok dengan dokumen Anda, serta dilatih dan dievaluasi dengan data Anda. Pemroses ini mengidentifikasi dan mengekstrak entity dari dokumen Anda. Selanjutnya, Anda dapat menggunakan pemroses terlatih ini pada dokumen tambahan.

Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. Membuat pemroses

    1. Di konsol Google Cloud , di bagian Document AI, buka halaman Workbench.

      Workbench

    2. Untuk custom extractor, pilih Create processor.

      updated-cde-2.0-path-to-docai-1

    3. Di menu Buat pemroses, masukkan nama untuk pemroses Anda, misalnya my-custom-document-extractor.

      updated-cde-2.0-path-to-docai-2

    4. Pilih wilayah yang terdekat dengan Anda.

    5. Opsional: Buka Advanced options.

      • Anda memiliki opsi untuk mengizinkan Google membuat bucket Cloud Storage untuk Anda, atau Anda dapat membuat bucket Anda sendiri. Untuk tutorial ini, pilih Penyimpanan yang dikelola Google.

      • Anda juga memiliki opsi untuk menggunakan kunci enkripsi yang dikelola Google atau Kunci enkripsi yang dikelola pelanggan (CMEK). Untuk tutorial ini, pilih Google-managed encryption key.

    6. Pilih Create untuk membuat pemroses.

    Menentukan kolom pemroses

    Anda sekarang berada di halaman Processor overview dari pemroses yang baru saja Anda buat.

    updated-cde-2.0-path-to-docai-3

    Anda dapat menentukan kolom yang ingin diekstrak oleh pemroses dan mulai melabeli dokumen.

    1. Pilih tab Mulai. Menu kolom akan muncul.

    2. Pilih Buat kolom baru.

    3. Masukkan nama untuk kolom tersebut. Pilih Data type dan Occurrence. Beri label Deskripsi yang deskriptif dan berbeda. Deskripsi properti memungkinkan Anda memberikan konteks, insight, dan pengetahuan sebelumnya tambahan untuk setiap entity guna meningkatkan akurasi dan performa ekstraksi.

    updated-cde-2.0-path-to-docai-9
    1. Pilih Create. Baca dokumentasi tentang cara Menentukan skema pemroses untuk petunjuk mendetail tentang cara membuat dan mengedit skema.
    1. Buat semua label berikut untuk skema pemroses.

      Nama Jenis Data Kemunculan
      control_number Angka Optional multiple
      employees_social_security_number Angka Required multiple
      employer_identification_number Angka Required multiple
      employers_name_address_and_zip_code Address Required multiple
      federal_income_tax_withheld Money Required multiple
      social_security_tax_withheld Money Required multiple
      social_security_wages Money Required multiple
      wages_tips_other_compensation Money Required multiple

      Anda juga dapat membuat dan menggunakan jenis label lainnya dalam skema pemroses Anda, seperti kotak centang dan entitas tabular. Misalnya, formulir W-2 berisi kotak centang statutory employee, retirement plan, dan third party sick pay yang dapat Anda tambahkan juga ke skema.

      updated-cde-2.0-path-to-docai-4

    Mengupload dokumen contoh

    Uji dengan dokumen contoh.

    1. Pilih Upload dokumen contoh.

    2. Di sidebar, pilih Import documents from Cloud Storage.

    3. Untuk contoh ini, masukkan nama bucket ini di Source path. Link ini mengarah langsung ke satu dokumen.

      cloud-samples-data/documentai/Custom/W2/PDF/W2_XL_input_clean_2950.pdf
      
    4. Pilih Impor

    Anda akan dialihkan ke konsol pelabelan.

    Memberi label dokumen

    Proses memilih teks dalam dokumen dan menerapkan label disebut sebagai anotasi atau pelabelan.

    1. Saat Anda berada di konsol pelabelan, perhatikan bahwa banyak label yang sudah terisi. Hal ini karena jenis model ekstraktor kustom default adalah model dasar, yang dapat melakukan prediksi zero-shot, yaitu tanpa pelatihan.

      updated-cde-2.0-path-to-docai-5

    2. Untuk menggunakan label yang disarankan, geser kursor ke atas setiap label di panel samping, lalu pilih tanda centang untuk mengonfirmasi bahwa label tersebut sudah benar. Jangan mengedit teks, meskipun OCR membaca teks dengan salah.

    3. Dalam contoh ini, nilai di bagian bawah dokumen tidak diidentifikasi secara otomatis, jadi Anda harus memberinya label secara manual.

    4. Gunakan ikon di toolbar di atas dokumen untuk memberi label. Gunakan alat kotak pembatas secara default, atau alat Pilih teks untuk nilai multi-baris, guna memilih konten dan menerapkan label.

    5. Setelah teks dipilih, menu drop-down akan muncul dengan semua kolom (entitas) yang ditentukan agar Anda dapat memilih salah satunya. Dalam contoh ini, nilai wages_tips_other_compensation dipilih dengan alat kotak pembatas, dan label tersebut diterapkan.

      updated-cde-2.0-path-to-docai-6

    6. Tinjau nilai teks yang terdeteksi untuk memastikan bahwa nilai tersebut mencerminkan lokasi teks yang benar untuk setiap kolom. Dokumen W2 yang sudah diberi label akan terlihat seperti ini setelah selesai:

      updated-cde-2.0-path-to-docai-7

    7. Jika diperlukan, Anda dapat memilih Buat kolom baru untuk menambahkan kolom baru ke skema dari halaman ini.

    8. Pilih Tandai sebagai diberi label setelah Anda selesai membuat anotasi pada dokumen. Anda akan dialihkan ke tab Mulai.

    Membangun versi pemroses menggunakan model dasar

    Setelah melabeli satu dokumen, Anda dapat membuat versi pemroses menggunakan model dasar terlatih untuk mengekstrak entity.

    1. Pilih tab Build.

      updated-cde-2.0-path-to-docai-8

    2. Di bagian Call foundation model, pilih Create new version.

    3. Masukkan nama untuk versi pemroses Anda, misalnya w2-foundation-model.

    4. Pilih Buat versi. Proses pembuatannya memerlukan waktu beberapa menit.

    5. Opsional: pilih tab Deploy & use. Di halaman ini, Anda dapat melihat versi pemroses yang tersedia dan status deployment versi yang baru.

    Menggunakan AI generatif untuk memberi label dokumen secara otomatis

    Model dasar dapat mengekstrak kolom secara akurat untuk berbagai jenis dokumen, tetapi Anda juga dapat menyediakan data pelatihan tambahan untuk meningkatkan akurasi model untuk struktur dokumen tertentu.

    Ekstraktor kustom menggunakan nama label yang Anda tentukan dan anotasi sebelumnya untuk mempercepat dan mempermudah pelabelan dokumen dalam skala besar dengan pelabelan otomatis.

    1. Buka halaman Build.

    2. Pilih Impor dokumen.

    3. Di sidebar, pilih Import documents from Google Cloud Storage.

    4. Masukkan nama bucket yang berisi dokumen Anda.

    5. Dari daftar Data split, pilih Auto-split. Dokumen akan otomatis terbagi menjadi 80%-nya dalam set pelatihan dan 20%-nya dalam set pengujian.

    6. Di bagian Auto-labeling, pilih kotak centang Import with auto-labeling.

    7. Pilih versi pemroses model dasar untuk melabeli dokumen.

    8. Pilih Impor dan tunggu hingga dokumen selesai diimpor. Anda dapat keluar dari halaman ini dan kembali lagi nanti.

    9. Anda harus memverifikasi dokumen berlabel otomatis sebelum dapat menggunakannya untuk pelatihan atau pengujian. Pilih Mulai pelabelan untuk melihat dokumen berlabel otomatis.

    10. Untuk menggunakan label yang disarankan, geser kursor ke atas setiap anotasi, lalu pilih tanda centang untuk mengonfirmasi bahwa label tersebut sudah benar. Untuk tujuan pelatihan, jangan edit nilai jika tidak cocok dengan teks dokumen. Ubah kotak pembatas hanya jika teks yang salah dipilih.

    11. Pilih Tandai sebagai diberi label setelah Anda selesai membuat anotasi pada dokumen.

    12. Ulangi untuk setiap dokumen yang diberi label otomatis.

    Mengimpor dokumen pelatihan yang telah diberi label

    1. Buka halaman Build.

    2. Pilih Impor dokumen.

    3. Di sidebar, pilih Import documents from Cloud Storage.

    4. Masukkan jalur Anda di Source path yang berisi dokumen Anda. Bucket ini harus berisi dokumen yang telah diberi label sebelumnya dalam format Document JSON.

    5. Dari daftar Data split, pilih Auto-split. Dokumen akan otomatis terbagi menjadi 80%-nya dalam set pelatihan dan 20%-nya dalam set pengujian. Biarkan Import with auto-labeling tidak dicentang.

    6. Pilih Impor Proses impor memerlukan waktu beberapa menit.

    Opsional: Melihat dan mengelola set data

    1. Dari halaman Build, Anda dapat mengakses konsol Kelola set data untuk melihat dan mengedit semua dokumen dan label dalam set data.

    Prosesor berbasis model kustom pelatihan

    Pelatihan mungkin memerlukan waktu beberapa jam. Pastikan Anda telah menyiapkan pemroses dengan data dan label yang sesuai sebelum memulai pelatihan.

    1. Untuk mengetahui informasi tentang persyaratan set data, di bagian Train a custom model, pilih Create new version atau View full requirements. Ini bukan model AI generatif. Setidaknya diperlukan 10 instance pelatihan dan 10 instance pengujian dari setiap kolom untuk prosesor berbasis model kustom.

    2. Di kolom Version name, masukkan nama untuk versi pemroses ini, seperti w2-custom-model.

    3. Opsional: pilih Lihat statistik label untuk menemukan informasi tentang label dokumen. Hal ini dapat membantu menentukan cakupan Anda. Pilih Tutup untuk kembali ke penyiapan pelatihan.

    4. Di bagian Model training method, pilih Model based.

    5. Pilih Mulai pelatihan. Pelatihan memerlukan waktu beberapa jam. Anda dapat menutup halaman ini dan kembali lagi nanti.

    6. Opsional: pilih tab Deploy & use. Di halaman ini, Anda dapat melihat versi pemroses yang tersedia dan status pelatihan versi yang baru.

    Men-deploy versi pemroses

    1. Setelah pelatihan selesai, pilih tab Deploy & use.

    2. Centang kotak di sebelah kiri versi yang ingin Anda deploy, lalu pilih Deploy.

    3. Pilih Deploy dari jendela dialog. Deployment memerlukan waktu beberapa menit.

    4. Saat versi di-deploy, Anda dapat menetapkannya sebagai Versi default, atau Anda dapat memberikan ID versi saat memproses dokumen dengan API.

    Mengevaluasi dan menguji pemroses

    1. Pilih tab Evaluate untuk menguji versi pemroses. Di halaman ini, Anda dapat melihat metrik evaluasi termasuk skor F1, presisi, dan perolehan untuk dokumen lengkap, dan masing-masing label. Untuk mengetahui informasi selengkapnya tentang evaluasi dan statistik, lihat evaluate processor.

    2. Pilih pemilih Versi, lalu pilih versi menggunakan model dasar.

    3. Download dokumen yang belum pernah digunakan dalam pelatihan atau pengujian sebelumnya agar Anda dapat menggunakannya untuk mengevaluasi versi pemroses. Jika menggunakan data Anda sendiri, Anda akan menggunakan dokumen yang disisihkan untuk tujuan ini.

      Download PDF

    4. Pilih Upload Test Document, lalu pilih dokumen yang baru saja Anda download. Halaman Analisis Pengekstrak Dokumen Kustom akan terbuka. Output layar menunjukkan seberapa baik dokumen diekstrak.

    5. Uji dokumen lagi menggunakan versi dengan model yang dilatih secara kustom.

    Menggunakan pemroses

    Anda telah berhasil membuat dan melatih prosesor ekstraktor kustom.

    Anda dapat mengelola versi prosesor yang dilatih kustom seperti versi prosesor lainnya. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.

    Untuk menggunakan Document AI API:

    Pembersihan

    Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

    Untuk menghindari tagihan yang tidak perlu, gunakan Google Cloud console untuk menghapus prosesor dan project Anda jika Anda tidak memerlukannya. Google Cloud

    Jika Anda membuat project baru untuk mempelajari Document AI dan Anda tidak lagi memerlukan project tersebut, hapus project tersebut.

    Jika Anda menggunakan project Google Cloud yang sudah ada, hapus resource yang dibuat untuk menghindari tagihan pada akun Anda:

    1. Di Google Cloud menu navigasi konsol, pilih Document AI, lalu pilih My Processors.

    2. Pilih Tindakan lainnya di baris yang sama dengan pemroses yang ingin Anda hapus.

    3. Pilih Hapus pemroses, masukkan nama pemroses, lalu pilih Hapus lagi untuk mengonfirmasi.

    Langkah berikutnya

    Untuk mengetahui detailnya, lihat Panduan.