Halaman ini menunjukkan cara memulai Library Klien Cloud untuk Document AI Toolbox API. Library klien mempermudah akses Google Cloud API dari bahasa yang didukung. Meskipun Anda dapat menggunakan Google Cloud API secara langsung dengan membuat permintaan mentah ke server, library klien memberikan penyederhanaan yang secara signifikan mengurangi jumlah kode yang perlu Anda tulis.
Baca selengkapnya tentang Library Klien Cloud dan Library Klien Google API yang lebih lama di Penjelasan library klien.
Menginstal library klien
Python
pip install --upgrade google-cloud-documentai-toolbox
Untuk informasi selengkapnya, lihat Menyiapkan Lingkungan Pengembangan Python.
Menyiapkan autentikasi
Untuk mengautentikasi panggilan ke API Google Cloud , library klien mendukung Kredensial Default Aplikasi (ADC); library ini mencari kredensial dalam kumpulan lokasi yang ditentukan dan menggunakan kredensial tersebut untuk mengautentikasi permintaan ke API. Dengan ADC, Anda dapat menyediakan kredensial untuk aplikasi di berbagai lingkungan, seperti pengembangan lokal atau produksi, tanpa perlu mengubah kode aplikasi.Untuk lingkungan produksi, cara Anda menyiapkan ADC bergantung pada layanan dan konteks. Untuk informasi selengkapnya, lihat Menyiapkan Kredensial Default Aplikasi.
Untuk lingkungan pengembangan lokal, Anda dapat menyiapkan ADC dengan kredensial yang terkait dengan Akun Google Anda:
-
Install the Google Cloud CLI, then initialize it by running the following command:
gcloud init
-
If you're using a local shell, then create local authentication credentials for your user account:
gcloud auth application-default login
You don't need to do this if you're using Cloud Shell.
Layar login akan muncul. Setelah Anda login, kredensial Anda disimpan dalam file kredensial lokal yang digunakan oleh ADC.
Menggunakan library klien
Document AI Toolbox adalah SDK untuk Python yang menyediakan fungsi utilitas
untuk mengelola, memanipulasi, dan mengekstrak informasi dari respons dokumen.
Fungsi ini membuat objek dokumen "digabungkan" dari respons dokumen yang diproses dari file JSON di Cloud Storage, file JSON lokal, atau output langsung dari metode process_document()
.
Fungsi ini dapat melakukan tindakan berikut:
- Menggabungkan file JSON
Document
yang terfragmentasi dari Pemrosesan Batch menjadi satu dokumen "digabungkan". - Mengekspor shard sebagai
Document
terpadu. -
Dapatkan output
Document
dari: - Mengakses teks dari
Pages
,Lines
,Paragraphs
,FormFields
, danTables
tanpa menangani informasiLayout
. - Menelusuri
Pages
yang berisi string target atau cocok dengan ekspresi reguler. - Telusuri
FormFields
berdasarkan namanya. - Telusuri
Entities
menurut jenis. - Konversikan
Tables
ke Dataframe atau CSV Pandas. - Sisipkan
Entities
danFormFields
ke dalam tabel BigQuery. - Memisahkan file PDF berdasarkan output dari pemroses Splitter/Classifier.
- Ekstrak gambar
Entities
dariDocument
kotak pembatas. -
Mengonversi
Documents
ke dan dari format yang umum digunakan:- Cloud Vision API
AnnotateFileResponse
- hOCR
- Format pemrosesan dokumen pihak ketiga
- Cloud Vision API
- Membuat batch dokumen untuk diproses dari folder Cloud Storage.
Contoh Kode
Contoh kode berikut menunjukkan cara menggunakan Toolbox Document AI.
Panduan memulai
Tabel
Ekspor BigQuery
Pemisahan PDF
Ekstraksi gambar
Konversi Vision
Konversi hOCR
Konversi pihak ketiga
Batch dokumen
Menggabungkan Shard dokumen
Referensi lainnya
Python
Daftar berikut berisi link ke referensi lainnya yang terkait dengan library klien untuk Python: