Kuota membatasi jumlah resource Google Cloud bersama yang dapat digunakan project Google Cloud Anda, termasuk komponen hardware, software, dan jaringan. Oleh karena itu, kuota adalah bagian dari sistem yang melakukan hal berikut:
- Memantau penggunaan atau pemakaian produk dan layanan Google Cloud oleh Anda.
- Membatasi Anda konsumsi resource tersebut, karena alasan yang mencakup memastikan keadilan dan mengurangi lonjakan penggunaan.
- Mempertahankan konfigurasi yang secara otomatis menerapkan pembatasan yang telah ditentukan.
- Menyediakan sarana untuk meminta atau membuat perubahan pada kuota.
Pada umumnya, jika kuota terlampaui, sistem akan langsung memblokir akses ke resource Google yang relevan, dan tugas yang Anda coba lakukan akan gagal. Pada umumnya, kuota berlaku untuk setiap project Google Cloud serta digunakan bersama oleh semua aplikasi dan alamat IP yang menggunakan project Google Cloud tersebut.
Kuota berdasarkan region dan model
Kuota kueri per menit (QPM) berlaku untuk model dasar dan semua versi, ID, serta versi yang telah disesuaikan dari model tersebut. Misalnya, permintaan ke text-bison
dan permintaan ke text-bison@001
dihitung sebagai dua permintaan terhadap kuota QPM model dasar, text-bison
. Demikian pula, permintaan ke text-bison@001
dan text-bison@002
dihitung sebagai dua permintaan terhadap kuota QPM model dasar, text-bison
. Hal yang sama berlaku untuk model yang disesuaikan, sehingga
permintaan ke chat-bison@002
dan model yang disesuaikan berdasarkan chat-bison@002
bernama my-tuned-chat-model
dihitung sebagai dua permintaan terhadap model dasar,
chat-bison
.
Kuota berlaku untuk Generative AI pada permintaan Vertex AI untuk project Google Cloud tertentu dan region yang didukung.
Untuk melihat kuota di konsol Google Cloud, lakukan tindakan berikut:
- Di konsol Google Cloud, buka halaman Quotas IAM & Admin.
Di kolom Filter, tentukan dimensi atau metrik.
Dimensi: ID model. Misalnya
base_model:gemini-1.0-pro
ataubase_model:text-bison
.Metrik: ID kuota.
- Untuk model Gemini:
aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
- Untuk model PaLM 2:
aiplatform.googleapis.com/online_prediction_requests_per_base_model
- Untuk model Gemini:
Pilih region untuk melihat batas kuota setiap model yang tersedia:
Kuota batch
Kuota dan batas berikut sama di seluruh region untuk AI Generatif pada tugas prediksi batch Vertex AI:
Kuota | Nilai |
---|---|
text_bison_concurrent_batch_prediction_jobs |
4 |
code_bison_concurrent_batch_prediction_jobs |
4 |
textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Kuota model yang dilatih secara khusus
Kuota berikut berlaku untuk AI Generatif di model Vertex AI yang telah disesuaikan untuk project dan region tertentu:
Kuota | Nilai |
---|---|
Core pod TPU V3 pelatihan gambar yang dibatasi per region * Region yang didukung - europe-west4 |
64 |
Pelatihan gambar yang dibatasi GPU Nvidia A100 80 GB per region * Region yang didukung - us-central1 * Region yang didukung - us-east4 |
8 2 |
* Skenario penyesuaian memiliki reservasi akselerator di region tertentu. Kuota untuk penyesuaian didukung dan harus diminta di wilayah tertentu.
Kuota evaluasi online
Layanan online evaluasi menggunakan model text-bison
sebagai autorater dengan permintaan dan mekanisme IP Google untuk memastikan evaluasi yang konsisten dan objektif untuk metrik berbasis model.
Satu permintaan evaluasi untuk metrik berbasis model dapat menghasilkan beberapa permintaan dasar ke layanan prediksi online. Kuota setiap model dihitung per project, yang berarti bahwa setiap permintaan yang diarahkan ke text-bison
untuk inferensi model dan evaluasi berbasis model berkontribusi pada kuota. Kuota model yang berbeda ditetapkan secara berbeda. Kuota untuk layanan evaluasi
dan kuota untuk model pemberi otomatis dasar ditampilkan dalam tabel.
Kuota permintaan | Kuota default |
---|---|
Permintaan layanan evaluasi online per menit | 1.000 permintaan per project per region |
Permintaan prediksi online per menit untuk base_model, base_model: text-bison |
1.600 permintaan per project per region |
Jika menerima error terkait kuota saat menggunakan layanan online evaluasi, Anda mungkin perlu mengajukan permintaan penambahan kuota. Baca bagian Melihat dan Mengelola Kuota untuk mengetahui informasi selengkapnya.
Limit | Nilai |
---|---|
Waktu tunggu permintaan layanan evaluasi online | 60 detik |
Pengguna baru layanan evaluasi online dalam project baru mungkin mengalami penundaan penyiapan awal biasanya hingga dua menit. Ini adalah proses satu kali. Jika permintaan pertama Anda gagal, tunggu beberapa menit lalu coba lagi. Permintaan evaluasi berikutnya biasanya selesai dalam 60 detik.
Token input dan output maksimum dibatasi untuk metrik berbasis model sesuai model yang digunakan sebagai pemberi otomatis. Lihat Informasi model | AI Generatif di Vertex AI | Google Cloud untuk mengetahui batas model yang relevan.
Kuota evaluasi pipeline
Jika menerima error terkait kuota saat menggunakan layanan pipeline evaluasi, Anda mungkin perlu mengajukan permintaan peningkatan kuota. Baca bagian Melihat dan Mengelola Kuota untuk mengetahui informasi selengkapnya.
Layanan pipeline evaluasi menggunakan Vertex AI Pipelines untuk menjalankan
PipelineJobs
. Lihat kuota yang relevan untuk
Vertex AI Pipelines. Berikut adalah rekomendasi kuota umum:
Layanan | Kuota | Rekomendasi |
---|---|---|
Vertex AI API | Tugas prediksi batch LLM serentak per region | Pointwise: 1 * num_concurrent_pipelines Pairwise: 2 * num_concurrent_pipelines |
Vertex AI API | Permintaan evaluasi per menit per region | 1.000 * num_concurrent_pipelines |
Selain itu, saat menghitung metrik evaluasi berbasis model, pelabel mungkin mengalami masalah kuota. Kuota yang relevan bergantung pada penanda otomatis yang digunakan:
Tugas | Kuota | Model dasar | Rekomendasi |
---|---|---|---|
summarization question_answering |
Permintaan prediksi online per model dasar per menit per region per base_model | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
Setiap tugas tuning menggunakan Vertex AI Pipelines. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas Pipeline Vertex AI.
Penambahan kuota
Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan Konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Mengelola kuota.
Langkah selanjutnya
- Pelajari kuota dan batas Vertex AI lebih lanjut.