Ringkasan Document AI

Dokumen ini adalah panduan konsep dasar penggunaan Document AI. Anda harus membaca halaman ini sebelum melanjutkan ke dokumentasi atau panduan memulai lainnya.

Mengotomatiskan alur kerja pemrosesan dokumen

Bisnis di seluruh dunia sangat mengandalkan dokumen untuk menyimpan dan menyampaikan informasi. Informasi ini sering kali perlu didigitalkan agar berguna. Namun, hal ini biasanya dilakukan melalui proses manual yang memakan waktu.

Contoh:

  • Mendigitalkan buku untuk pembaca elektronik.
  • Memproses formulir masukan medis di klinik dokter.
  • Mengurai tanda terima dan invoice untuk validasi laporan pengeluaran.
  • Mengautentikasi identitas berdasarkan kartu tanda pengenal.
  • Mengekstrak informasi pendapatan dari formulir pajak untuk menyetujui pinjaman.
  • Memahami kontrak untuk persyaratan perjanjian bisnis utama.

Setiap alur kerja ini melibatkan mendapatkan teks mentah dari dokumen, lalu mengekstrak teks tertentu dari teks yang sesuai dengan data yang diperlukan (kolom atau entitas). Namun, setiap jenis dokumen memiliki struktur dan tata letak yang berbeda, dan pola kolom bervariasi bergantung pada kasus penggunaan tertentu.

Komponen Document AI

Document AI adalah platform pemahaman dan pemrosesan dokumen yang mengambil data tidak terstruktur dari dokumen dan mengubahnya menjadi data terstruktur (kolom tertentu, cocok untuk database), sehingga lebih mudah dipahami, dianalisis, dan digunakan.

Document AI dibuat berdasarkan produk dalam Vertex AI dengan AI generatif untuk membantu Anda membuat aplikasi pemrosesan dokumen berbasis cloud yang skalabel dan menyeluruh tanpa keahlian machine learning khusus.

Dengan menggunakan Document AI, Anda dapat:

  • Digitalkan dokumen menggunakan OCR untuk mendapatkan teks, tata letak, dan berbagai add-on seperti deteksi kualitas gambar (untuk keterbacaan) dan penghapusan kemiringan (otomatis sepenuhnya).
  • Ekstrak informasi teks dan tata letak, dari file dokumen dan normalisasi entitas.
  • Mengidentifikasi key-value pair (kvp) dalam formulir terstruktur dan tabel reguler. Misalnya: Name: Jill Smith adalah kvp.
  • Klasifikasikan jenis dokumen untuk mendorong proses downstream seperti ekstraksi dan penyimpanan.
  • Memisahkan dan mengklasifikasikan dokumen menurut jenisnya. Misalnya, file PDF dengan beberapa dokumen asli).
  • Siapkan set data untuk digunakan dalam penyesuaian dan evaluasi model menggunakan fitur pemberian label otomatis, pengelolaan skema, dan pengelolaan set data seperti peninjauan dokumen dan prediksi.
  • Integrasikan dengan produk seperti Cloud Storage, BigQuery, dan Vertex AI Search untuk membantu Anda menyimpan, menelusuri, mengatur, mengatur, dan menganalisis dokumen dan metadata.

Diagram ini menggambarkan semua langkah pemrosesan dokumen utama yang didukung oleh Document AI dan cara langkah-langkah tersebut terhubung satu sama lain.

docai-overview-1

Prosesor

Pemroses Document AI berada di antara file dokumen dan model machine learning yang melakukan tindakan pemahaman dan pemrosesan dokumen. Model ini dapat digunakan untuk mengklasifikasikan, memisahkan, mengurai, atau menganalisis dokumen.

Setiap project Google Cloud perlu membuat instance prosesornya sendiri.

Prosesor termasuk dalam salah satu kategori berikut:

  • Digitalkan: OCR.
  • Ekstrak: Pengekstrak kustom, Form Parser, parser tata letak, dan parser terlatih.
  • Klasifikasikan: Pengklasifikasi kustom dan pemisah kustom.

Lihat Daftar lengkap prosesor dan detail untuk mengetahui informasi tentang semua jenis prosesor yang tersedia untuk Document AI.

Prosesor mana yang harus saya gunakan?

Untuk menentukan jenis prosesor yang akan digunakan untuk aplikasi tertentu, berikut adalah beberapa panduan umum:

Kategori Kasus penggunaan Jenis prosesor
Mendigitalkan Mengekstrak informasi teks dan tata letak dari dokumen. Enterprise Document OCR
Menganalisis kualitas gambar (keterbacaan) dokumen yang dipindai. Enterprise Document OCR dengan analisis kualitas gambar diaktifkan
Mengekstrak entity dari dokumen kustom yang tidak memenuhi kriteria pemroses kustom.
Ekstrak Mengekstrak tabel atau kvp dari formulir terstruktur dalam dokumen. Parser Formulir
Mengekstrak elemen seperti teks, tabel, dan daftar dalam dokumen serta menampilkan potongan kontekstual. Parser Tata Letak
Mengekstrak entity dari dokumen kustom yang memenuhi kriteria pemroses kustom. Membuat ekstraktor kustom
Mengekstrak entity dari jenis dokumen khusus. Pemroses terlatih (Latih ulang untuk meningkatkan kualitas.)
Klasifikasikan Mengklasifikasikan dokumen. Membuat Pengklasifikasi Kustom
Memisahkan dokumen. Membuat Pemisah Kustom

Diagram ini membantu menentukan prosesor mana yang paling cocok untuk setiap kasus penggunaan.

docai-overview-2

Menggunakan pemroses Document AI

Berikut adalah langkah-langkah utama untuk menggunakan Document AI guna mulai memproses dokumen:

  1. Pilih prosesor yang sesuai dengan kasus penggunaan Anda.

  2. Buat pemroses menggunakan Konsol Google Cloud atau Document AI API.

    • Document AI membuat endpoint prediksi tempat Anda dapat mengirim dokumen.

    • Untuk mengetahui petunjuk selengkapnya, lihat Membuat pemroses.

  3. Latih prosesor dengan data pelatihan dan pengujian dari awal, atau tingkatkan versi prosesor baru (pra-pelatihan) di atas versi yang sudah ada.

  4. Kirim dokumen Anda untuk diproses.