Memilih fungsi pemrosesan dokumen

Dokumen ini memberikan perbandingan fungsi pemrosesan dokumen yang tersedia di BigQuery ML, yaitu ML.GENERATE_TEXT dan ML.PROCESS_DOCUMENT.

Anda dapat menggunakan informasi dalam dokumen ini untuk membantu Anda memutuskan fungsi mana yang akan digunakan jika fungsi tersebut memiliki kemampuan yang tumpang-tindih.

Pada tingkat tinggi, perbedaan antara fungsi ini adalah sebagai berikut:

  • ML.GENERATE_TEXT adalah pilihan yang tepat untuk melakukan tugas natural language processing (NLP) dengan sebagian konten berada dalam dokumen. Fungsi ini menawarkan manfaat berikut:

    • Biaya yang lebih rendah
    • Dukungan bahasa lainnya
    • Throughput yang lebih cepat
    • Kemampuan penyesuaian model
    • Ketersediaan model multimodal

    Untuk contoh tugas pemrosesan dokumen yang paling cocok dengan pendekatan ini, lihat Menjelajahi kemampuan pemrosesan dokumen dengan Gemini API.

  • ML.PROCESS_DOCUMENT adalah pilihan yang tepat untuk melakukan tugas pemrosesan dokumen yang memerlukan penguraian dokumen dan respons terstruktur yang telah ditentukan sebelumnya.

Model yang didukung

Model yang didukung adalah sebagai berikut:

  • ML.GENERATE_TEXT: Anda dapat menggunakan sebagian model Gemini Vertex AI untuk menghasilkan teks. Untuk informasi selengkapnya tentang model yang didukung, lihat sintaksis ML.GENERATE_TEXT.
  • ML.PROCESS_DOCUMENT: Anda menggunakan model default dari Document AI API. Menggunakan Document AI API memberi Anda akses ke berbagai pemroses dokumen, seperti parser invoice, parser tata letak, dan parser formulir. Anda dapat menggunakan pemroses dokumen ini untuk menangani file PDF dengan berbagai struktur.

Tugas yang didukung

Tugas yang didukung adalah sebagai berikut:

  • ML.GENERATE_TEXT: Anda dapat melakukan tugas NLP apa pun dengan input berupa dokumen. Misalnya, dengan dokumen keuangan untuk perusahaan, Anda dapat mengambil informasi dokumen dengan memberikan perintah seperti What is the quarterly revenue for each division?.
  • ML.PROCESS_DOCUMENT: Anda dapat melakukan pemrosesan dokumen khusus untuk berbagai jenis dokumen, seperti invoice, formulir pajak, dan laporan keuangan. Anda juga dapat melakukan pengelompokan dokumen. Untuk mengetahui informasi selengkapnya tentang cara menggunakan fungsi ML.PROCESS_DOCUMENT untuk tugas ini, lihat Mengurai PDF dalam pipeline pembuatan yang dilengkapi pengambilan.

Harga

Harganya sebagai berikut:

  • ML.GENERATE_TEXT: Untuk mengetahui harga model Vertex AI yang Anda gunakan dengan fungsi ini, lihat Harga Vertex AI. Penyesuaian yang diawasi untuk model yang didukung dikenai biaya dolar per jam node. Untuk mengetahui informasi selengkapnya, lihat Harga pelatihan kustom Vertex AI.
  • ML.PROCESS_DOCUMENT: Untuk mengetahui harga layanan Cloud AI yang Anda gunakan dengan fungsi ini, lihat Harga Document AI API.

Penyesuaian yang diawasi

Dukungan penyesuaian yang diawasi adalah sebagai berikut:

  • ML.GENERATE_TEXT: penyesuaian terpantau didukung untuk beberapa model.
  • ML.PROCESS_DOCUMENT: penyesuaian yang diawasi tidak didukung.

Batas kueri per menit (QPM)

Batas QPM adalah sebagai berikut:

  • ML.GENERATE_TEXT: 60 QPM di region us-central1 default untuk model gemini-1.5-pro, dan 200 QPM di region us-central1 default untuk model gemini-1.5-flash. Untuk mengetahui informasi selengkapnya, lihat Kuota AI Generatif di Vertex AI.
  • ML.PROCESS_DOCUMENT: 120 QPM per jenis prosesor, dengan batas keseluruhan 600 QPM per project. Untuk mengetahui informasi selengkapnya, lihat Daftar kuota.

Untuk meningkatkan kuota, lihat Meminta kuota yang lebih tinggi.

Token limit (batas token)

Batas token adalah sebagai berikut:

  • ML.GENERATE_TEXT: 700 token input, dan 8196 token output.
  • ML.PROCESS_DOCUMENT: Tidak ada batas token. Namun, fungsi ini memiliki batas halaman yang berbeda, bergantung pada prosesor yang Anda gunakan. Untuk mengetahui informasi selengkapnya, lihat Batas.

Bahasa yang didukung

Bahasa yang didukung adalah sebagai berikut:

  • ML.GENERATE_TEXT: mendukung bahasa yang sama dengan Gemini.
  • ML.PROCESS_DOCUMENT: Dukungan bahasa bergantung pada jenis pemroses dokumen; sebagian besar hanya mendukung bahasa Inggris. Untuk mengetahui informasi selengkapnya, lihat Daftar prosesor.

Ketersediaan wilayah

Ketersediaan wilayah adalah sebagai berikut:

  • ML.GENERATE_TEXT: tersedia di semua region AI Generatif untuk Vertex AI.
  • ML.PROCESS_DOCUMENT: tersedia di multi-region EU dan US untuk semua prosesor. Beberapa prosesor juga tersedia di satu wilayah tertentu. Untuk informasi selengkapnya, lihat Dukungan regional dan multi-regional.