Ekstraksi berbasis kustom

Dengan ekstraksi dan pelatihan model kustom, Anda dapat membuat model sendiri yang dirancang khusus untuk dokumen Anda tanpa menggunakan AI generatif. Ini ideal jika Anda tidak ingin menggunakan AI generatif dan ingin mengontrol semua aspek model terlatih.

Konfigurasi set data

Set data dokumen diperlukan untuk melatih, melakukan up-train, atau mengevaluasi versi pemroses. Pemroses Document AI belajar dari contoh, sama seperti manusia. Set data mendorong stabilitas prosesor dalam hal performa.

Set data pelatihan

Untuk meningkatkan model dan akurasinya, latih set data pada dokumen Anda. Model ini terdiri dari dokumen dengan kebenaran dasar. Anda memerlukan minimal tiga dokumen untuk melatih model baru.

Set data pengujian

Set data pengujian adalah yang digunakan model untuk menghasilkan skor F1 (akurasi). Set data ini terdiri dari dokumen dengan kebenaran dasar. Untuk melihat seberapa sering model benar, kebenaran dasar digunakan untuk membandingkan prediksi model (kolom yang diekstrak dari model) dengan jawaban yang benar. Set data pengujian harus memiliki minimal tiga dokumen.

Sebelum memulai

Jika belum melakukannya, aktifkan penagihan dan Document AI API.

Membuat dan mengevaluasi model kustom

Mulai dengan mem-build, lalu mengevaluasi pemroses kustom.

  1. Buat pemroses dan tentukan kolom yang ingin diekstrak, yang penting karena memengaruhi kualitas ekstraksi.

  2. Menetapkan lokasi set data: Pilih folder opsi default Terkelola Google. Tindakan ini mungkin dilakukan secara otomatis segera setelah membuat pemroses.

  3. Buka tab Build, lalu pilih Import Documents dengan pemberian label otomatis diaktifkan (lihat Pemberian label otomatis dengan model dasar). Anda memerlukan minimal 10 dokumen dalam set pelatihan dan 10 dalam set pengujian untuk melatih model kustom.

  4. Melatih model:

    1. Pilih Train new version dan beri nama versi pemroses.
    2. Buka Tampilkan opsi lanjutan dan pilih opsi Berbasis model.

    custom-based-extraction-1

  5. Evaluasi:

    • Buka Evaluasi & uji, pilih versi yang baru saja Anda latih, lalu pilih Lihat evaluasi lengkap.

    custom-based-extraction-2

    • Sekarang Anda akan melihat metrik seperti f1, presisi, dan recall untuk seluruh dokumen dan setiap kolom.
    • Tentukan apakah performa memenuhi sasaran produksi Anda. Jika tidak, evaluasi ulang set pelatihan dan pengujian, biasanya dengan menambahkan dokumen ke set pengujian pelatihan yang tidak diuraikan dengan baik.
  6. Tetapkan versi baru sebagai default.

    1. Buka Kelola versi.
    2. Buka menu , lalu pilih Tetapkan sebagai default.

    custom-based-extraction-3

Model Anda kini di-deploy dan dokumen yang dikirim ke prosesor ini kini menggunakan versi kustom Anda. Anda ingin mengevaluasi performa model untuk memeriksa apakah model memerlukan pelatihan lebih lanjut.

Referensi evaluasi

Mesin evaluasi dapat melakukan pencocokan persis atau pencocokan fuzzy. Untuk kecocokan persis, nilai yang diekstrak harus sama persis dengan kebenaran dasar atau dihitung sebagai tidak cocok.

Ekstraksi pencocokan fuzzy yang memiliki sedikit perbedaan seperti perbedaan kapitalisasi masih dihitung sebagai kecocokan. Hal ini dapat diubah di layar Evaluasi.

custom-based-extraction-4

Pelabelan otomatis dengan model dasar

Model dasar dapat mengekstrak kolom secara akurat untuk berbagai jenis dokumen, tetapi Anda juga dapat memberikan data pelatihan tambahan untuk meningkatkan akurasi model untuk struktur dokumen tertentu.

Document AI menggunakan nama label yang Anda tentukan dan anotasi sebelumnya untuk melabeli dokumen dalam skala besar dengan pelabelan otomatis.

  1. Setelah membuat pemroses kustom, buka tab Mulai.
  2. Pilih Buat kolom baru.
  3. Berikan nama deskriptif dan isi kolom deskripsi. Deskripsi properti memungkinkan Anda memberikan konteks, insight, dan pengetahuan sebelumnya tambahan untuk setiap entitas guna meningkatkan akurasi dan performa ekstraksi.

custom-based-extraction-5

  1. Buka tab Build, lalu pilih Import documents.

    custom-based-extraction-6

  2. Pilih jalur dokumen dan set tempat dokumen akan diimpor. Centang kotak pemberian label otomatis, lalu pilih model dasar.

  3. Di tab Build, pilih Manage Dataset. Anda akan melihat dokumen yang diimpor. Pilih salah satu dokumen Anda.

    custom-based-extraction-7

Sekarang Anda melihat prediksi dari model yang ditandai dengan warna ungu.

  1. Tinjau setiap label yang diprediksi oleh model dan pastikan label tersebut benar. Jika ada kolom yang tidak ada, tambahkan juga.

custom-based-extraction-8

  1. Setelah dokumen ditinjau, pilih Tandai sebagai telah diberi label. Dokumen kini siap digunakan oleh model. Pastikan dokumen berada dalam set Pengujian atau Pelatihan.