Memberi label dokumen
Set data berlabel dokumen diperlukan untuk melatih, melakukan up-train, atau mengevaluasi versi pemroses.
Halaman ini menjelaskan cara menerapkan label dari skema pemroses ke dokumen yang diimpor dalam set data Anda.
Halaman ini mengasumsikan bahwa Anda telah membuat pemroses yang mendukung pelatihan, pelatihan lanjutan, atau evaluasi. Jika prosesor Anda didukung, Anda kini akan melihat tab Latih di konsol Google Cloud. Ini juga mengasumsikan bahwa Anda telah membuat set data, mengimpor dokumen, dan menentukan skema prosesor.
Nama kolom untuk ekstraksi AI generatif
Cara penamaan kolom memengaruhi seberapa akurat kolom diekstrak menggunakan AI generatif. Sebaiknya lakukan praktik terbaik berikut saat memberi nama kolom:
Beri nama kolom dengan bahasa yang sama dengan yang digunakan untuk mendeskripsikannya dalam dokumen: Misalnya, jika dokumen memiliki kolom yang dijelaskan sebagai
Employer Address
, beri nama kolomemployer_address
. Jangan gunakan singkatan sepertiemplr_addr
.Spasi saat ini tidak didukung dalam nama kolom: Gunakan
_
, bukan spasi. Misalnya:First Name
akan diberi namafirst_name
.Lakukan iterasi pada nama untuk meningkatkan akurasi: AI Dokumen memiliki batasan yang tidak mengizinkan nama kolom berubah. Untuk menguji nama yang berbeda, gunakan alat penggantian nama entitas untuk memperbarui nama entitas lama dengan nama yang lebih baru dalam set data, mengimpor set data, mengaktifkan entitas baru di pemroses, dan menonaktifkan atau menghapus kolom yang ada.
Opsi pemberian label
Berikut adalah opsi untuk memberi label pada dokumen:
Manual: memberi label pada dokumen secara manual di konsol Google Cloud
Pelabelan otomatis: menggunakan versi pemroses yang ada untuk membuat label
Mengimpor dokumen yang telah diberi label: menghemat waktu jika Anda sudah memiliki dokumen yang diberi label
Memberi label secara manual di konsol Google Cloud
Di tab Pelajari, pilih dokumen untuk membuka alat pemberian label.
Dari daftar label skema di sisi kiri alat pemberian label, pilih simbol 'Tambahkan' untuk memilih alat Kotak pembatas guna menandai entitas dalam dokumen dan menetapkannya ke label.
Pada screenshot berikut, kolom EMPL_SSN
EMPLR_ID_NUMBER
, EMPLR_NAME_ADDRESS
,
FEDERAL_INCOME_TAX_WH
, SS_TAX_WH
, SS_WAGES
, dan WAGES_TIPS_OTHER_COMP
dalam dokumen telah diberi label.
Saat Anda memilih entitas kotak centang dengan alat Bounding box, hanya pilih kotak centang itu sendiri, dan bukan teks terkait. Pastikan entitas kotak centang yang ditampilkan di sebelah kiri dipilih atau dibatalkan pilihannya agar cocok dengan yang ada dalam dokumen.
Saat Anda memberi label pada entity induk-turunan, jangan beri label pada entity induk. Entitas induk hanya merupakan penampung entitas turunan. Hanya beri label pada entitas turunan. Entitas induk diperbarui secara otomatis.
Saat Anda memberi label pada entity turunan, beri label pada entity turunan pertama, lalu kaitkan entity turunan terkait dengan baris tersebut. Anda akan melihatnya di entitas turunan kedua saat pertama kali melabeli entitas tersebut. Misalnya, dengan invoice, jika Anda memberi label deskripsi, label tersebut akan terlihat seperti entitas lainnya. Namun, jika Anda memberi label jumlah berikutnya, Anda akan diminta untuk memilih induk.
Ulangi langkah ini untuk setiap item baris dengan memilih New Parent Entity untuk setiap item baris baru.
Entity induk-turunan adalah fitur pratinjau dan hanya didukung untuk tabel dengan satu lapisan bertingkat. Model foundation mendukung tiga tingkat kolom (grandparent, parent, child), sehingga entity turunan dapat memiliki satu tingkat turunan.
Tabel cepat
Saat memberi label pada tabel, memberi label pada setiap baris berulang kali bisa merepotkan. Ada alat yang sangat praktis yang dapat mereplikasi struktur entitas baris. Perhatikan bahwa fitur ini hanya berfungsi pada baris yang sejajar secara horizontal.
- Pertama, beri label pada baris pertama seperti biasa.
Kemudian, arahkan kursor ke entity induk yang mewakili baris. Pilih Tambahkan baris lainnya. Baris menjadi template untuk membuat lebih banyak baris.
Pilih area tabel lainnya.
Alat ini menebak anotasi, dan biasanya berhasil. Untuk tabel yang tidak dapat ditangani, beri anotasi secara manual.
Menggunakan pintasan keyboard di konsol
Untuk melihat pintasan keyboard yang tersedia, pilih menu
di kanan atas konsol pemberian label. Tindakan ini akan menampilkan daftar pintasan keyboard, seperti yang ditunjukkan dalam tabel berikut.Tindakan | Pintasan |
---|---|
Perbesar | Alt + = (Option + = di macOS) |
Perkecil | Alt + - (Option + - di macOS) |
Zoom agar sesuai | Alt + 0 (Option + 0 di macOS) |
Scroll untuk zoom | Alt + Scroll (Option + Scroll di macOS) |
Menggeser | Scroll |
Penggeser terbalik | Shift + Scroll |
Tarik untuk menggeser | Spasi + Tarik mouse |
Urungkan | Ctrl + Z (Control + Z di macOS) |
Ulangi | Ctrl + Shift + Z (Control + +Shift + Z di macOS) |
Pemberian label otomatis
Jika tersedia, Anda dapat menggunakan versi prosesor yang ada untuk mulai melabeli.
Pemberian label otomatis dapat dimulai selama import. Semua dokumen dianotasi menggunakan versi pemroses yang ditentukan.
Pemberian label otomatis dapat dimulai setelah import untuk dokumen dalam kategori tanpa label atau berlabel otomatis. Semua dokumen yang dipilih dianotasi menggunakan versi pemroses yang ditentukan.
Anda tidak dapat melatih atau meningkatkan pelatihan pada dokumen berlabel otomatis, atau menggunakannya dalam set pengujian, tanpa menandainya sebagai berlabel. Tinjau dan perbaiki anotasi yang diberi label otomatis secara manual, lalu pilih Tandai sebagai Dilabeli untuk menyimpan koreksi. Kemudian, Anda dapat menetapkan dokumen sesuai kebutuhan.
Mengimpor dokumen yang telah diberi label sebelumnya
Anda dapat mengimpor file Document
JSON. Jika entity
dalam dokumen cocok dengan label dalam skema pemroses, entity
akan dikonversi menjadi instance label oleh pengimpor. Ada beberapa cara untuk mendapatkan file Dokumen JSON:
Mengekspor set data dari pemroses lain. Lihat Mengekspor set data.
Mengirim permintaan pemrosesan ke pemroses yang ada.
Gunakan toolkit impor untuk mengonversi label yang ada dari sistem lain, misalnya, label format CSV ke dokumen JSON.
Praktik terbaik untuk memberi label pada dokumen
Pemberian label yang konsisten diperlukan untuk melatih pemroses berkualitas tinggi. Sebaiknya Anda:
Membuat petunjuk pelabelan: Petunjuk Anda harus menyertakan contoh untuk kasus umum dan kasus ekstrem. Beberapa tips:
- Jelaskan kolom mana yang harus dianotasi dan cara membuat pemberian label konsisten. Misalnya, saat memberi label "jumlah", tentukan apakah simbol mata uang harus diberi label. Jika label tidak konsisten, kualitas prosesor akan berkurang.
- Beri label pada semua kemunculan entity, meskipun jenis labelnya adalah
REQUIRED_ONCE
atauOPTIONAL_ONCE
. Misalnya, jikainvoice_id
muncul dua kali dalam dokumen, beri label pada semua kemunculaninvoice_id
tersebut. - Umumnya, sebaiknya beri label dengan alat kotak pembatas default terlebih dahulu. Jika gagal, gunakan alat pilih teks.
- Jika nilai label tidak terdeteksi dengan benar oleh OCR, jangan perbaiki nilai secara manual. Hal ini akan membuatnya tidak dapat digunakan untuk tujuan pelatihan.
Berikut adalah beberapa contoh petunjuk pemberian label:
- Melatih penganotasi: pastikan penganotasi memahami dan dapat mengikuti pedoman tanpa error sistematis. Salah satu cara untuk mencapainya adalah dengan meminta peserta pelatihan yang berbeda untuk menganotasi kumpulan dokumen yang sama. Kemudian, pengajar dapat memeriksa kualitas pekerjaan anotasi setiap peserta pelatihan. Anda mungkin perlu mengulangi proses ini hingga peserta pelatihan mencapai tingkat akurasi tolok ukur.
- Peninjauan awal: Beberapa dokumen pertama (10 atau lebih) yang diberi label untuk kasus penggunaan oleh pelabel baru harus ditinjau sebelum sejumlah besar dokumen diberi label untuk mencegah sejumlah besar kesalahan yang perlu diperbaiki.
- Peninjauan kualitas anotasi: Mengingat sifat anotasi yang melelahkan, bahkan annotator terlatih dapat melakukan kesalahan. Sebaiknya anotasi diperiksa oleh setidaknya satu anotasi terlatih lainnya.
Menyinkronkan ulang set data
Sinkronisasi ulang akan membuat folder Cloud Storage set data Anda tetap konsisten dengan indeks metadata internal Document AI. Hal ini berguna jika Anda tidak sengaja membuat perubahan pada folder Cloud Storage dan ingin menyinkronkan data.
Untuk menyinkronkan ulang:
Di tab Processor Details, di samping baris Storage location, pilih
, lalu pilih Re-sync Dataset.Catatan penggunaan:
- Jika Anda menghapus dokumen dari folder Cloud Storage, sinkronisasi ulang akan menghapusnya dari set data.
- Jika Anda menambahkan dokumen ke folder Cloud Storage, sinkronisasi ulang tidak akan menambahkannya ke set data. Untuk menambahkan dokumen, impor dokumen tersebut.
- Jika Anda mengubah label dokumen di folder Cloud Storage, sinkronisasi ulang akan memperbarui label dokumen di set data.
Memigrasikan set data
Impor dan ekspor memungkinkan Anda memindahkan semua dokumen dalam set data dari satu pemroses ke pemroses lainnya. Hal ini dapat berguna jika Anda memiliki prosesor di region atau project Google Cloud yang berbeda, jika Anda memiliki prosesor yang berbeda untuk staging dan produksi, atau untuk konsumsi offline umum.
Perhatikan bahwa hanya dokumen dan labelnya yang diekspor. Metadata set data, seperti skema prosesor, tugas dokumen (pelatihan/pengujian/tidak ditetapkan), dan status pelabelan dokumen (berlabel, tidak berlabel, berlabel otomatis) tidak diekspor.
Menyalin dan mengimpor set data, lalu melatih pemroses target tidak
sama persis dengan melatih pemroses sumber. Hal ini karena nilai acak digunakan
di awal proses pelatihan. Gunakan panggilan API importProcessorVersion
untuk mengimpor-memigrasikan model yang sama persis di antara project. Ini adalah praktik terbaik untuk migrasi pemroses ke lingkungan yang lebih tinggi (misalnya, pengembangan ke staging ke produksi) jika kebijakan mengizinkan.
Ekspor set data
Untuk mengekspor semua dokumen sebagai file JSON
Document
ke folder Cloud Storage,
pilih Export Dataset.
Beberapa hal penting yang perlu diperhatikan:
Selama ekspor, tiga subfolder akan dibuat: Test, Train, dan Unassigned. Dokumen Anda akan ditempatkan ke dalam subfolder tersebut.
Status pemberian label dokumen tidak diekspor. Jika Anda mengimpor dokumen tersebut nanti, dokumen tersebut tidak akan ditandai dilabeli otomatis.
Jika Cloud Storage Anda berada di project Google Cloud lain, pastikan untuk memberikan akses agar Document AI diizinkan untuk menulis file ke lokasi tersebut. Secara khusus, Anda harus memberikan peran Storage Object Creator ke agen layanan inti Document AI, yaitu
service-{project-id}@gcp-sa-prod-dai-core.iam.gserviceaccount.com
. Untuk mengetahui informasi selengkapnya, lihat Agen layanan.
Mengimpor set data
Prosedurnya sama dengan Mengimpor dokumen.
Panduan pengguna pemberian label selektif
Pelabelan selektif membantu memberikan rekomendasi tentang dokumen mana yang akan diberi label. Anda dapat membuat set data pelatihan dan pengujian yang beragam untuk melatih model perwakilan. Setiap kali pemberian label selektif dilakukan, dokumen yang paling beragam (hingga 30) dari set data akan dipilih.
Mendapatkan dokumen yang disarankan
Buat prosesor CDE dan impor dokumen.
- Setidaknya 100 diperlukan untuk pelatihan (25 untuk pengujian).
- Setelah dokumen yang memadai diimpor dan setelah pemberian label selektif, panel informasi akan muncul.
Jika pemroses CDE tidak memiliki dokumen yang disarankan, impor lebih banyak dokumen agar memiliki dokumen yang memadai di salah satu bagian untuk pengambilan sampel.
- Tindakan ini akan mengaktifkan dokumen yang disarankan di Kategori yang disarankan. Anda harus dapat meminta dokumen yang disarankan secara manual.
- Ada filter baru di bagian atas untuk memfilter dokumen yang disarankan.
Memberi label pada dokumen yang disarankan
Buka Kategori yang disarankan di panel daftar label sebelah kiri. Mulai beri label pada dokumen ini.
Pilih Auto-label di panel informasi jika pemroses dilatih. Beri label pada dokumen yang disarankan.
Kemudian, Anda dapat memilih Tinjau sekarang di panel saat Anda memiliki dokumen yang disarankan di prosesor untuk dituju. Semua dokumen yang diberi label otomatis harus ditinjau untuk keakuratannya. Mulai meninjau.
Latih setelah memberi label pada semua dokumen yang disarankan
Beralih ke Latih sekarang di panel informasi. Saat dokumen yang disarankan diberi label, Anda akan melihat panel informasi berikut yang merekomendasikan pelatihan.
Fitur yang didukung dan batasan
Fitur | Deskripsi | Didukung |
---|---|---|
Dukungan untuk prosesor lama | Mungkin tidak berfungsi dengan baik pada prosesor lama dengan set data yang diimpor sebelumnya |