Memproses dokumen dengan Form Parser
Parser Formulir mengekstrak pasangan nilai kunci (KVP), tabel, tanda pilihan (seperti kotak centang), kolom generik, dan teks untuk meningkatkan dan mengotomatiskan pemrosesan dokumen.
Parser Formulir dapat dipertimbangkan daripada parser lainnya jika kasus penggunaannya melibatkan:
- Menangani formulir terstruktur: Sangat cocok untuk mengekstrak KVP dari
formulir yang ditentukan dengan baik yang terlihat seperti formulir konvensional dengan kolom kosong berlabel untuk diisi, seperti
name: __
. Model terlatih Form Parser menawarkan akurasi tinggi untuk kolom umum seperti nama, tanggal, dan alamat. - Ekstraksi tabel yang fleksibel diperlukan: Form Parser mengekstrak dari tabel sederhana (tidak ada sel yang meluas ke baris atau kolom) yang terlihat seperti tabel. Tidak diperlukan pelatihan (atau tidak mungkin). Untuk ekstraksi tabel terlatih, ekstraktor kustom dapat digunakan dengan kolom induk yang berisi kolom turunan (sel).
- Perlu efisiensi: Hindari membuat dan mengelola parser ekstraksi, terutama untuk tugas ekstraksi dalam jumlah besar dan bervariasi.
Fitur ekstraksi data
Fitur Form Parser mencakup:
KVP: Ini adalah kumpulan dua item dalam dokumen—label atau kunci dan datanya (nilai) yang sesuai. Anda dapat langsung menggunakan KVP (jika kuncinya konsisten) atau membuat logika kustom untuk me-resolve berbagai kunci menjadi informasi terstruktur yang konsisten.
Entity umum: Mengurai 11 kolom berbeda dari dokumen secara langsung. Fitur tersebut meliputi:
email
phone
url
date_time
address
person
organization
quantity
price
id
page_number
Teks dan tata letak: Gunakan mesin OCR terbaru kami untuk mengekstrak informasi teks dan tata letak. Hal ini mencakup teks tersemat dari PDF digital (khusus v2.1) atau teks dari gambar.
Tabel: Mendeteksi dan mengekstrak tabel dari gambar dan PDF.
Kotak centang: Detektor tanda pilihan berkualitas tinggi, yang mengekstrak kotak centang dari gambar dan output PDF sebagai KVP, menggunakan teks yang paling dekat dengan kotak centang, dengan
valueType
yang menunjukkan apakah kotak centang terisi atau tidak.
Bahasa dan wilayah
- Form Parser 2.0 mendukung lebih dari 200 bahasa. Pelajari lebih lanjut.
- Kami menyediakan dukungan fitur di delapan wilayah. Pelajari lebih lanjut.
Versi model
Versi prosesor berikut kompatibel dengan fitur ini. Untuk informasi selengkapnya, lihat Mengelola versi pemroses.
Batasan
Kompresi JPEG sebelumnya untuk TIFF tidak didukung. Jenis enkapsulasi JPEG yang ditentukan oleh spesifikasi TIFF versi 6.0.
Model kotak centang tidak mendukung penguraian tombol pilihan. Beberapa kotak centang yang terdeteksi mungkin tidak memiliki kunci yang sesuai.
Model tidak mengurai KVP dengan nilai yang tidak terisi dengan andal, seperti formulir kosong.
Proses penguraian KVP pada dokumen dalam bahasa tertentu mungkin memiliki kualitas yang lebih rendah daripada bahasa Latin.
Memproses dokumen dengan Form Parser
Panduan memulai ini memperkenalkan fitur Pengurai Formulir di Document AI. Dalam panduan memulai ini, Anda akan menggunakan konsol Google Cloud untuk menyiapkan project dan otorisasi Google Cloud, membuat Parser Formulir, lalu membuat permintaan agar Document AI memproses formulir PDF.
Pelajari cara:
Aktifkan Document AI di project Google Cloud .
Buat pemroses Form Parser, yang dapat mengidentifikasi dan mengekstrak teks, pasangan nilai kunci, tabel, dan entity umum dari berbagai jenis dokumen.
Gunakan pemroses untuk menganotasi dokumen contoh.
Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI API.
Membuat pemroses Form Parser
Gunakan konsol Google Cloud untuk membuat pemroses Parser Formulir. Lihat membuat dan mengelola pemroses untuk mengetahui informasi selengkapnya.
Di menu navigasi konsol Google Cloud, klik Document AI, lalu pilih Processor Gallery.
Di Galeri Pemroses,
telusuri Form Parser, lalu pilih Create.Di jendela samping, masukkan Processor name, seperti
quickstart-form-processor
.Pilih wilayah yang terdekat dengan Anda.
Klik tombol Buat.
Anda akan diarahkan ke halaman Processor Details dari pemroses parser formulir baru.
Prosesor pengujian
Setelah membuat pemroses, Anda dapat mengirim permintaan anotasi ke pemroses tersebut.
-
File ini adalah file PDF yang berisi contoh formulir masukan medis tulisan tangan. Dokumen ini disimpan di bucket Cloud Storage yang dapat diakses secara publik.
Klik tombol
Upload Test Document , lalu pilih dokumen yang baru saja Anda download.Anda sekarang akan berada di halaman Analisis Pemroses Formulir. Anda dapat melihat teks yang terdeteksi OCR, pasangan nilai kunci, tabel, dan entity umum yang diekstrak dari dokumen.
Pembersihan
Untuk menghindari tagihan Google Cloud yang tidak perlu, gunakan konsol Google Cloud untuk menghapus prosesor dan project jika Anda tidak membutuhkannya.
Langkah selanjutnya
- Tinjau Daftar pemroses.