AI Generatif pada batas kuota Vertex AI

Kuota membatasi jumlah resource Google Cloud bersama yang dapat digunakan project Google Cloud Anda, termasuk komponen hardware, software, dan jaringan. Oleh karena itu, kuota adalah bagian dari sistem yang melakukan hal berikut:

  • Memantau penggunaan atau pemakaian produk dan layanan Google Cloud oleh Anda.
  • Membatasi Anda konsumsi resource tersebut, karena alasan yang mencakup memastikan keadilan dan mengurangi lonjakan penggunaan.
  • Mempertahankan konfigurasi yang secara otomatis menerapkan pembatasan yang telah ditentukan.
  • Menyediakan sarana untuk meminta atau membuat perubahan pada kuota.

Pada umumnya, jika kuota terlampaui, sistem akan langsung memblokir akses ke resource Google yang relevan, dan tugas yang Anda coba lakukan akan gagal. Pada umumnya, kuota berlaku untuk setiap project Google Cloud serta digunakan bersama oleh semua aplikasi dan alamat IP yang menggunakan project Google Cloud tersebut.

Kuota berdasarkan region dan model

Kuota kueri per menit (QPM) berlaku untuk model dasar dan semua versi, ID, serta versi yang telah disesuaikan dari model tersebut. Misalnya, permintaan ke text-bison dan permintaan ke text-bison@001 dihitung sebagai dua permintaan terhadap kuota QPM model dasar, text-bison. Demikian pula, permintaan ke text-bison@001 dan text-bison@002 dihitung sebagai dua permintaan terhadap kuota QPM model dasar, text-bison. Hal yang sama berlaku untuk model yang disesuaikan, sehingga permintaan ke chat-bison@002 dan model yang disesuaikan berdasarkan chat-bison@002 bernama my-tuned-chat-model dihitung sebagai dua permintaan terhadap model dasar, chat-bison.

Kuota berlaku untuk Generative AI pada permintaan Vertex AI untuk project Google Cloud tertentu dan region yang didukung.

Untuk melihat kuota di konsol Google Cloud, lakukan tindakan berikut:

  1. Di konsol Google Cloud, buka halaman Quotas IAM & Admin.

    Lihat Kuota di Konsol

  2. Di kolom Filter, tentukan dimensi atau metrik.

    • Dimensi: ID model. Misalnya base_model:gemini-1.0-pro atau base_model:text-bison.

    • Metrik: ID kuota.

      • Untuk model Gemini: aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
      • Untuk model PaLM 2: aiplatform.googleapis.com/online_prediction_requests_per_base_model

Pilih region untuk melihat batas kuota setiap model yang tersedia:

Kuota batch

Kuota dan batas berikut sama di seluruh region untuk AI Generatif pada tugas prediksi batch Vertex AI:

Kuota Nilai
text_bison_concurrent_batch_prediction_jobs 4
code_bison_concurrent_batch_prediction_jobs 4
textembedding_gecko_concurrent_batch_prediction_jobs 4

Kuota model yang dilatih secara khusus

Kuota berikut berlaku untuk AI Generatif di model Vertex AI yang telah disesuaikan untuk project dan region tertentu:

Kuota Nilai
Core pod TPU V3 pelatihan gambar yang dibatasi per region
* Region yang didukung - europe-west4
64
Pelatihan gambar yang dibatasi GPU Nvidia A100 80 GB per region
* Region yang didukung - us-central1
* Region yang didukung - us-east4

8
2

* Skenario penyesuaian memiliki reservasi akselerator di region tertentu. Kuota untuk penyesuaian didukung dan harus diminta di wilayah tertentu.

Kuota evaluasi online

Layanan online evaluasi menggunakan model text-bison sebagai autorater dengan permintaan dan mekanisme IP Google untuk memastikan evaluasi yang konsisten dan objektif untuk metrik berbasis model.

Satu permintaan evaluasi untuk metrik berbasis model dapat menghasilkan beberapa permintaan dasar ke layanan prediksi online. Kuota setiap model dihitung per project, yang berarti bahwa setiap permintaan yang diarahkan ke text-bison untuk inferensi model dan evaluasi berbasis model berkontribusi pada kuota. Kuota model yang berbeda ditetapkan secara berbeda. Kuota untuk layanan evaluasi dan kuota untuk model pemberi otomatis dasar ditampilkan dalam tabel.

Kuota permintaan Kuota default
Permintaan layanan evaluasi online per menit 1.000 permintaan per project per region
Permintaan prediksi online per menit untuk base_model, base_model: text-bison 1.600 permintaan per project per region

Jika menerima error terkait kuota saat menggunakan layanan online evaluasi, Anda mungkin perlu mengajukan permintaan penambahan kuota. Baca bagian Melihat dan Mengelola Kuota untuk mengetahui informasi selengkapnya.

Limit Nilai
Waktu tunggu permintaan layanan evaluasi online 60 detik

Pengguna baru layanan evaluasi online dalam project baru mungkin mengalami penundaan penyiapan awal biasanya hingga dua menit. Ini adalah proses satu kali. Jika permintaan pertama Anda gagal, tunggu beberapa menit lalu coba lagi. Permintaan evaluasi berikutnya biasanya selesai dalam 60 detik.

Token input dan output maksimum dibatasi untuk metrik berbasis model sesuai model yang digunakan sebagai pemberi otomatis. Lihat Informasi model | AI Generatif di Vertex AI | Google Cloud untuk mengetahui batas model yang relevan.

Kuota evaluasi pipeline

Jika menerima error terkait kuota saat menggunakan layanan pipeline evaluasi, Anda mungkin perlu mengajukan permintaan peningkatan kuota. Baca bagian Melihat dan Mengelola Kuota untuk mengetahui informasi selengkapnya.

Layanan pipeline evaluasi menggunakan Vertex AI Pipelines untuk menjalankan PipelineJobs. Lihat kuota yang relevan untuk Vertex AI Pipelines. Berikut adalah rekomendasi kuota umum:

Layanan Kuota Rekomendasi
Vertex AI API Tugas prediksi batch LLM serentak per region Pointwise: 1 * num_concurrent_pipelines

Pairwise: 2 * num_concurrent_pipelines
Vertex AI API Permintaan evaluasi per menit per region 1.000 * num_concurrent_pipelines

Selain itu, saat menghitung metrik evaluasi berbasis model, pelabel mungkin mengalami masalah kuota. Kuota yang relevan bergantung pada penanda otomatis yang digunakan:

Tugas Kuota Model dasar Rekomendasi
summarization
question_answering
Permintaan prediksi online per model dasar per menit per region per base_model text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

Setiap tugas tuning menggunakan Vertex AI Pipelines. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas Pipeline Vertex AI.

Penambahan kuota

Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan Konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Mengelola kuota.

Langkah selanjutnya