Memproses dokumen dengan Form Parser

Parser Formulir mengekstrak pasangan nilai kunci (KVP), tabel, tanda pilihan (seperti kotak centang), kolom generik, dan teks untuk meningkatkan dan mengotomatiskan pemrosesan dokumen.

Parser Formulir dapat dipertimbangkan daripada parser lainnya jika kasus penggunaannya melibatkan:

  • Menangani formulir terstruktur: Sangat cocok untuk mengekstrak KVP dari formulir yang ditentukan dengan baik yang terlihat seperti formulir konvensional dengan kolom kosong berlabel untuk diisi, seperti name: __. Model terlatih Form Parser menawarkan akurasi tinggi untuk kolom umum seperti nama, tanggal, dan alamat.
  • Ekstraksi tabel yang fleksibel diperlukan: Form Parser mengekstrak dari tabel sederhana (tidak ada sel yang meluas ke baris atau kolom) yang terlihat seperti tabel. Tidak diperlukan pelatihan (atau tidak mungkin). Untuk ekstraksi tabel terlatih, ekstraktor kustom dapat digunakan dengan kolom induk yang berisi kolom turunan (sel).
  • Perlu efisiensi: Hindari membuat dan mengelola parser ekstraksi, terutama untuk tugas ekstraksi dalam jumlah besar dan bervariasi.

Fitur ekstraksi data

Fitur Form Parser mencakup:

  • KVP: Ini adalah kumpulan dua item dalam dokumen—label atau kunci dan datanya (nilai) yang sesuai. Anda dapat langsung menggunakan KVP (jika kuncinya konsisten) atau membuat logika kustom untuk me-resolve berbagai kunci menjadi informasi terstruktur yang konsisten.

  • Entity umum: Mengurai 11 kolom berbeda dari dokumen secara langsung. Fitur tersebut meliputi:

    • email
    • phone
    • url
    • date_time
    • address
    • person
    • organization
    • quantity
    • price
    • id
    • page_number
  • Teks dan tata letak: Gunakan mesin OCR terbaru kami untuk mengekstrak informasi teks dan tata letak. Hal ini mencakup teks tersemat dari PDF digital (khusus v2.1) atau teks dari gambar.

  • Tabel: Mendeteksi dan mengekstrak tabel dari gambar dan PDF.

  • Kotak centang: Detektor tanda pilihan berkualitas tinggi, yang mengekstrak kotak centang dari gambar dan output PDF sebagai KVP, menggunakan teks yang paling dekat dengan kotak centang, dengan valueType yang menunjukkan apakah kotak centang terisi atau tidak.

Bahasa dan wilayah

Versi model

Versi prosesor berikut kompatibel dengan fitur ini. Untuk informasi selengkapnya, lihat Mengelola versi pemroses.

Batasan

  • Kompresi JPEG sebelumnya untuk TIFF tidak didukung. Jenis enkapsulasi JPEG yang ditentukan oleh spesifikasi TIFF versi 6.0.

  • Model kotak centang tidak mendukung penguraian tombol pilihan. Beberapa kotak centang yang terdeteksi mungkin tidak memiliki kunci yang sesuai.

  • Model tidak mengurai KVP dengan nilai yang tidak terisi dengan andal, seperti formulir kosong.

  • Proses penguraian KVP pada dokumen dalam bahasa tertentu mungkin memiliki kualitas yang lebih rendah daripada bahasa Latin.

Memproses dokumen dengan Form Parser

Panduan memulai ini memperkenalkan fitur Pengurai Formulir di Document AI. Dalam panduan memulai ini, Anda akan menggunakan konsol Google Cloud untuk menyiapkan project dan otorisasi Google Cloud, membuat Parser Formulir, lalu membuat permintaan agar Document AI memproses formulir PDF.

Pelajari cara:

  1. Aktifkan Document AI di project Google Cloud .

  2. Buat pemroses Form Parser, yang dapat mengidentifikasi dan mengekstrak teks, pasangan nilai kunci, tabel, dan entity umum dari berbagai jenis dokumen.

  3. Gunakan pemroses untuk menganotasi dokumen contoh.


Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:

Pandu saya


  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI API.

    Enable the API

Membuat pemroses Form Parser

Gunakan konsol Google Cloud untuk membuat pemroses Parser Formulir. Lihat membuat dan mengelola pemroses untuk mengetahui informasi selengkapnya.

  1. Di menu navigasi konsol Google Cloud, klik Document AI, lalu pilih Processor Gallery.

    Galeri Prosesor

  2. Di Galeri Pemroses, telusuri Form Parser, lalu pilih Create.

    Opsi Form Parser di UI

  3. Di jendela samping, masukkan Processor name, seperti quickstart-form-processor.

  4. Pilih wilayah yang terdekat dengan Anda.

  5. Klik tombol Buat.

Anda akan diarahkan ke halaman Processor Details dari pemroses parser formulir baru.

Prosesor pengujian

Setelah membuat pemroses, Anda dapat mengirim permintaan anotasi ke pemroses tersebut.

  1. Download dokumen contoh.

    File ini adalah file PDF yang berisi contoh formulir masukan medis tulisan tangan. Dokumen ini disimpan di bucket Cloud Storage yang dapat diakses secara publik.

  2. Klik tombol Upload Test Document, lalu pilih dokumen yang baru saja Anda download.

  3. Anda sekarang akan berada di halaman Analisis Pemroses Formulir. Anda dapat melihat teks yang terdeteksi OCR, pasangan nilai kunci, tabel, dan entity umum yang diekstrak dari dokumen.

    contoh pasangan nilai kunci formulir di UI contoh entitas generik formulir di UI

Pembersihan

Untuk menghindari tagihan Google Cloud yang tidak perlu, gunakan konsol Google Cloud untuk menghapus prosesor dan project jika Anda tidak membutuhkannya.

Langkah selanjutnya