Memilih fungsi pemrosesan dokumen
Dokumen ini memberikan perbandingan fungsi pemrosesan dokumen
yang tersedia di BigQuery ML, yaitu
ML.GENERATE_TEXT
dan
ML.PROCESS_DOCUMENT
.
Anda dapat menggunakan informasi dalam dokumen ini untuk membantu Anda memutuskan fungsi mana yang akan digunakan jika fungsi tersebut memiliki kemampuan yang tumpang-tindih.
Pada tingkat tinggi, perbedaan antara fungsi ini adalah sebagai berikut:
ML.GENERATE_TEXT
adalah pilihan yang tepat untuk melakukan tugas natural language processing (NLP) dengan sebagian konten berada dalam dokumen. Fungsi ini menawarkan manfaat berikut:- Biaya yang lebih rendah
- Dukungan bahasa lainnya
- Throughput yang lebih cepat
- Kemampuan penyesuaian model
- Ketersediaan model multimodal
Untuk contoh tugas pemrosesan dokumen yang paling cocok dengan pendekatan ini, lihat Menjelajahi kemampuan pemrosesan dokumen dengan Gemini API.
ML.PROCESS_DOCUMENT
adalah pilihan yang tepat untuk melakukan tugas pemrosesan dokumen yang memerlukan penguraian dokumen dan respons terstruktur yang telah ditentukan sebelumnya.
Model yang didukung
Model yang didukung adalah sebagai berikut:
ML.GENERATE_TEXT
: Anda dapat menggunakan sebagian model Gemini Vertex AI untuk menghasilkan teks. Untuk informasi selengkapnya tentang model yang didukung, lihat sintaksisML.GENERATE_TEXT
.ML.PROCESS_DOCUMENT
: Anda menggunakan model default dari Document AI API. Menggunakan Document AI API memberi Anda akses ke berbagai pemroses dokumen, seperti parser invoice, parser tata letak, dan parser formulir. Anda dapat menggunakan pemroses dokumen ini untuk menangani file PDF dengan berbagai struktur.
Tugas yang didukung
Tugas yang didukung adalah sebagai berikut:
ML.GENERATE_TEXT
: Anda dapat melakukan tugas NLP apa pun dengan input berupa dokumen. Misalnya, dengan dokumen keuangan untuk perusahaan, Anda dapat mengambil informasi dokumen dengan memberikan perintah sepertiWhat is the quarterly revenue for each division?
.ML.PROCESS_DOCUMENT
: Anda dapat melakukan pemrosesan dokumen khusus untuk berbagai jenis dokumen, seperti invoice, formulir pajak, dan laporan keuangan. Anda juga dapat melakukan pengelompokan dokumen. Untuk mengetahui informasi selengkapnya tentang cara menggunakan fungsiML.PROCESS_DOCUMENT
untuk tugas ini, lihat Mengurai PDF dalam pipeline pembuatan yang dilengkapi pengambilan.
Harga
Harganya sebagai berikut:
ML.GENERATE_TEXT
: Untuk mengetahui harga model Vertex AI yang Anda gunakan dengan fungsi ini, lihat Harga Vertex AI. Penyesuaian yang diawasi untuk model yang didukung dikenai biaya dolar per jam node. Untuk mengetahui informasi selengkapnya, lihat Harga pelatihan kustom Vertex AI.ML.PROCESS_DOCUMENT
: Untuk mengetahui harga layanan Cloud AI yang Anda gunakan dengan fungsi ini, lihat Harga Document AI API.
Penyesuaian yang diawasi
Dukungan penyesuaian yang diawasi adalah sebagai berikut:
ML.GENERATE_TEXT
: penyesuaian terpantau didukung untuk beberapa model.ML.PROCESS_DOCUMENT
: penyesuaian yang diawasi tidak didukung.
Batas kueri per menit (QPM)
Batas QPM adalah sebagai berikut:
ML.GENERATE_TEXT
: 60 QPM di regionus-central1
default untuk modelgemini-1.5-pro
, dan 200 QPM di regionus-central1
default untuk modelgemini-1.5-flash
. Untuk mengetahui informasi selengkapnya, lihat Kuota AI Generatif di Vertex AI.ML.PROCESS_DOCUMENT
: 120 QPM per jenis prosesor, dengan batas keseluruhan 600 QPM per project. Untuk mengetahui informasi selengkapnya, lihat Daftar kuota.
Untuk meningkatkan kuota, lihat Meminta kuota yang lebih tinggi.
Token limit (batas token)
Batas token adalah sebagai berikut:
ML.GENERATE_TEXT
: 700 token input, dan 8196 token output.ML.PROCESS_DOCUMENT
: Tidak ada batas token. Namun, fungsi ini memiliki batas halaman yang berbeda, bergantung pada prosesor yang Anda gunakan. Untuk mengetahui informasi selengkapnya, lihat Batas.
Bahasa yang didukung
Bahasa yang didukung adalah sebagai berikut:
ML.GENERATE_TEXT
: mendukung bahasa yang sama dengan Gemini.ML.PROCESS_DOCUMENT
: Dukungan bahasa bergantung pada jenis pemroses dokumen; sebagian besar hanya mendukung bahasa Inggris. Untuk mengetahui informasi selengkapnya, lihat Daftar prosesor.
Ketersediaan wilayah
Ketersediaan wilayah adalah sebagai berikut:
ML.GENERATE_TEXT
: tersedia di semua region AI Generatif untuk Vertex AI.ML.PROCESS_DOCUMENT
: tersedia di multi-regionEU
danUS
untuk semua prosesor. Beberapa prosesor juga tersedia di satu wilayah tertentu. Untuk informasi selengkapnya, lihat Dukungan regional dan multi-regional.