Halaman ini menyajikan informasi tentang kuota dan batas model lama. Tujuan dalam kelompok model lama tidak lagi diupdate dengan versi stabil yang baru. Untuk mengetahui detailnya, lihat Informasi model lama.
Google Cloud menggunakan kuota untuk membantu memastikan keadilan dan mengurangi lonjakan penggunaan dan ketersediaan resource. Kuota membatasi berapa banyak Resource Google Cloud yang dapat digunakan project Google Cloud Anda. Kuota berlaku untuk berbagai tipe sumber daya, termasuk perangkat keras, perangkat lunak, dan jaringan komponen. Misalnya, kuota dapat membatasi jumlah panggilan API ke jumlah load balancer yang digunakan serentak oleh project Anda, atau jumlah project yang dapat dibuat. Kuota melindungi komunitas pengguna Google Cloud dengan mencegah kelebihan beban pada layanan. Kuota juga membantu Anda dapat mengelola resource Google Cloud Anda sendiri.
Sistem Cloud Quotas melakukan hal-hal berikut:
- Memantau konsumsi produk dan layanan Google Cloud Anda
- Membatasi konsumsi Anda atas resource tersebut
- Menyediakan cara untuk meminta perubahan pada nilai kuota
Pada umumnya, saat Anda mencoba menggunakan lebih banyak resource daripada kuotanya memungkinkan, sistem memblokir akses ke sumber daya, dan tugas yang coba Anda lakukan.
Kuota umumnya berlaku di project Google Cloud level organisasi. Penggunaan Anda atas sumber daya dalam satu proyek tidak mempengaruhi kuota yang tersedia di project lain. Dalam project Google Cloud, kuota dibagikan ke seluruh aplikasi dan alamat IP.
Kuota berdasarkan region dan model
Kuota permintaan per menit (RPM) berlaku untuk model dasar dan semua versi,
ID, dan versi yang telah di-tuning dari model tersebut. Misalnya, permintaan untuk
text-bison
dan permintaan ke text-bison@002
dihitung sebagai dua permintaan
terhadap kuota RPM model dasar, text-bison
. Hal yang sama berlaku untuk
model, jadi permintaan ke chat-bison@002
dan model yang disesuaikan berdasarkan
chat-bison@002
yang bernama my-tuned-chat-model
dihitung sebagai dua permintaan terhadap
model dasar, chat-bison
.
Kuota berlaku untuk permintaan AI Generatif di Vertex AI untuk Project Google Cloud dan region yang didukung.
Untuk melihat kuota di Konsol Google Cloud, lakukan langkah berikut:
- Di konsol Google Cloud, buka IAM & Halaman Quotas Admin.
Di kolom Filter, tentukan dimensi atau metrik.
Dimensi: ID model. Misalnya
base_model:gemini-1.0-pro
ataubase_model:text-bison
.Metrik: ID kuota untuk model PaLM 2 adalah
aiplatform.googleapis.com/online_prediction_requests_per_base_model
Pilih region untuk melihat batas kuota setiap model yang tersedia:
Kuota batch
Kuota dan batas berikut sama di seluruh region untuk Tugas prediksi batch AI Generatif di Vertex AI:
Kuota | Nilai |
---|---|
text_bison_concurrent_batch_prediction_jobs |
4 |
code_bison_concurrent_batch_prediction_jobs |
4 |
Kuota model yang dilatih secara khusus
Kuota berikut berlaku untuk model yang disesuaikan AI Generatif di Vertex AI untuk project dan region tertentu:
Kuota | Nilai |
---|---|
Core pod TPU V3 pelatihan gambar yang dibatasi per region * Region yang didukung - europe-west4 |
64 |
Pelatihan gambar yang dibatasi GPU Nvidia A100 80 GB per region * Region yang didukung - us-central1 * Region yang didukung - us-east4 |
8 2 |
* Skenario penyesuaian memiliki reservasi akselerator di wilayah tertentu. Kuota untuk tuning didukung dan harus diminta secara spesifik region.
Kuota evaluasi online
Layanan online evaluasi menggunakan model text-bison
sebagai autorater dengan IP Google
petunjuk dan mekanisme untuk memastikan
evaluasi yang konsisten dan objektif untuk
berbasis model.
Satu permintaan evaluasi untuk metrik berbasis model dapat menghasilkan beberapa
yang mendasari ke layanan prediksi online. Kuota setiap model adalah
dihitung per proyek, yang berarti bahwa setiap permintaan yang diarahkan ke
text-bison
untuk inferensi model dan evaluasi berbasis model berkontribusi pada
kuota tambahan. Kuota model yang berbeda ditetapkan secara berbeda. Kuota untuk evaluasi
dan kuota untuk model autorater yang mendasarinya ditampilkan dalam tabel.
Kuota permintaan | Kuota default |
---|---|
Permintaan layanan evaluasi online per menit | 1.000 permintaan per project per region |
Permintaan prediksi online per menit untuk base_model, base_model: text-bison |
1.600 permintaan per project per region |
Jika Anda menerima pesan error terkait kuota saat menggunakan evaluasi secara online Anda mungkin perlu mengajukan permintaan penambahan kuota. Lihat Melihat dan Mengelola Kuota untuk informasi selengkapnya.
Batas | Nilai |
---|---|
Waktu tunggu permintaan layanan evaluasi online habis | 60 detik |
Pengguna layanan evaluasi {i>online<i} untuk pertama kalinya dalam proyek baru mungkin mengalami penundaan pengaturan awal biasanya hingga dua menit. Verifikasi ini satu kali {i>checkout<i}. Jika permintaan pertama Anda gagal, tunggu beberapa menit lalu coba lagi. Permintaan evaluasi berikutnya biasanya selesai dalam waktu 60 detik.
Token input dan output maksimum dibatasi untuk metrik berbasis model sebagaimana sesuai dengan model yang digunakan sebagai autorater. Lihat Informasi model | AI Generatif di Vertex AI | Google Cloud untuk mengetahui batas model yang relevan.
Kuota evaluasi pipeline
Jika Anda menerima error terkait kuota saat menggunakan pipeline evaluasi layanan Google, Anda mungkin perlu mengajukan menambah permintaan. Lihat Melihat dan Mengelola Kuota untuk informasi selengkapnya.
Layanan pipeline evaluasi menggunakan Vertex AI Pipelines untuk menjalankan
PipelineJobs
. Lihat kuota yang relevan untuk
Vertex AI Pipelines. Berikut adalah rekomendasi kuota umum:
Layanan | Kuota | Rekomendasi |
---|---|---|
Vertex AI API | Tugas prediksi batch LLM serentak per region | Pointwise: 1 * num_concurrent_pipelines Pasangan: 2 * num_concurrent_pipelines |
Vertex AI API | Permintaan evaluasi per menit per wilayah | 1.000 * num_concurrent_pipeline |
Selain itu, saat menghitung metrik evaluasi berbasis model, autorater mungkin mencapai masalah kuota. Kuota yang relevan bergantung pada autorater yang digunakan:
Tasks | Kuota | Model dasar | Rekomendasi |
---|---|---|---|
summarization question_answering |
Permintaan prediksi online per model dasar per menit per region per base_model | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
Setiap tugas penyesuaian menggunakan Vertex AI Pipelines. Untuk informasi selengkapnya, lihat kuota dan batas Vertex AI Pipelines.
Penambahan kuota
Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat gunakan Konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari lebih lanjut tentang kuota, lihat Bekerja dengan kuota.
Langkah selanjutnya
- Pelajari kuota dan batas Vertex AI.
- Pelajari kuota dan batas Google Cloud lebih lanjut.