Halaman ini memberi Anda informasi tentang kuota dan batas model lama. Model dalam grup model lama tidak lagi diupdate dengan versi stabil baru. Untuk mengetahui detailnya, lihat Informasi model lama.
Google Cloud menggunakan kuota untuk membantu memastikan keadilan dan mengurangi lonjakan penggunaan dan ketersediaan resource. Kuota membatasi jumlah Google Cloud resource yang dapat digunakan Google Cloud project Anda. Kuota berlaku untuk berbagai jenis resource, termasuk komponen hardware, software, dan jaringan. Misalnya, kuota dapat membatasi jumlah panggilan API ke layanan, jumlah load balancer yang digunakan secara bersamaan oleh project Anda, atau jumlah project yang dapat Anda buat. Kuota melindungi komunitas penggunaGoogle Cloud dengan mencegah kelebihan beban layanan. Kuota juga membantu Anda mengelola resource Google Cloud Anda sendiri.
Sistem Kuota Cloud melakukan hal berikut:
- Memantau pemakaian Google Cloud produk dan layanan oleh Anda
- Membatasi pemakaian resource tersebut
- Memberikan cara untuk meminta perubahan pada nilai kuota dan mengotomatiskan penyesuaian kuota
Pada umumnya, saat Anda mencoba menggunakan resource lebih dari kuota yang diizinkan, sistem akan memblokir akses ke resource, dan tugas yang Anda coba lakukan akan gagal.
Kuota umumnya berlaku di level project Google Cloud. Penggunaan resource di satu project tidak memengaruhi kuota yang tersedia di project lain. Dalam project Google Cloud, kuota dibagikan ke semua aplikasi dan alamat IP.
Kuota menurut wilayah dan model
Kuota permintaan per menit (RPM) berlaku untuk model dasar dan semua versi,
ID, dan versi yang disesuaikan dari model tersebut. Misalnya, permintaan ke
text-bison
dan permintaan ke text-bison@002
dihitung sebagai dua permintaan
terhadap kuota RPM model dasar, text-bison
. Hal yang sama berlaku untuk model
yang disesuaikan, sehingga permintaan ke chat-bison@002
dan model yang disesuaikan berdasarkan
chat-bison@002
bernama my-tuned-chat-model
dihitung sebagai dua permintaan terhadap
model dasar, chat-bison
.
Kuota berlaku untuk permintaan AI Generatif di Vertex AI untuk project Google Cloud tertentu dan region yang didukung.
Untuk melihat kuota di konsol Google Cloud, lakukan hal berikut:
- Di konsol Google Cloud, buka halaman Kuota IAM & Admin.
Di kolom Filter, tentukan dimensi atau metrik.
Dimensi: ID model. Misalnya
base_model:gemini-1.0-pro
ataubase_model:text-bison
.Metrik: ID kuota untuk model PaLM 2 adalah
aiplatform.googleapis.com/online_prediction_requests_per_base_model
Pilih region untuk melihat batas kuota untuk setiap model yang tersedia:
Kuota batch
Kuota dan batas berikut sama di seluruh region untuk AI Generatif pada tugas prediksi batch Vertex AI:
Kuota | Nilai |
---|---|
text_bison_concurrent_batch_prediction_jobs |
4 |
code_bison_concurrent_batch_prediction_jobs |
4 |
Kuota model yang dilatih secara khusus
Kuota berikut berlaku untuk AI Generatif pada model yang disesuaikan Vertex AI untuk project dan region tertentu:
Kuota | Nilai |
---|---|
Core pod TPU V3 pelatihan gambar yang dibatasi per region * Region yang didukung - europe-west4 |
64 |
GPU Nvidia A100 80 GB untuk pelatihan gambar yang dibatasi per region * Region yang didukung - us-central1 * Region yang didukung - us-east4 |
8 2 |
* Skenario penyesuaian memiliki reservasi akselerator di region tertentu. Kuota untuk penyesuaian didukung dan harus diminta di wilayah tertentu.
Kuota evaluasi online
Layanan online evaluasi menggunakan model text-bison
sebagai autoreter dengan perintah dan mekanisme IP Google untuk memastikan evaluasi yang konsisten dan objektif untuk metrik berbasis model.
Satu permintaan evaluasi untuk metrik berbasis model dapat menghasilkan beberapa
permintaan pokok ke layanan prediksi online. Kuota setiap model
dihitung berdasarkan per project, yang berarti bahwa setiap permintaan yang diarahkan ke
text-bison
untuk inferensi model dan evaluasi berbasis model berkontribusi pada
kuota. Kuota model yang berbeda ditetapkan secara berbeda. Kuota untuk layanan
evaluasi dan kuota untuk model autorater yang mendasarinya ditampilkan dalam tabel.
Kuota permintaan | Kuota default |
---|---|
Permintaan layanan evaluasi online per menit | 1.000 permintaan per project per region |
Permintaan prediksi online per menit untuk base_model, base_model: text-bison |
1.600 permintaan per project per region |
Jika Anda menerima error terkait kuota saat menggunakan layanan online evaluasi, Anda mungkin perlu mengajukan permintaan penambahan kuota. Lihat Melihat dan Mengelola Kuota untuk mengetahui informasi selengkapnya.
Batas | Nilai |
---|---|
Waktu tunggu permintaan layanan evaluasi online habis | 60 detik |
Pengguna pertama kali layanan evaluasi online dalam project baru mungkin mengalami penundaan penyiapan awal yang umumnya berlangsung hingga dua menit. Proses ini hanya dilakukan satu kali. Jika permintaan pertama Anda gagal, tunggu beberapa menit, lalu coba lagi. Permintaan evaluasi berikutnya biasanya selesai dalam waktu 60 detik.
Token input dan output maksimum dibatasi untuk metrik berbasis model sesuai dengan model yang digunakan sebagai pembuat otomatis. Lihat Informasi model | AI Generatif di Vertex AI | Google Cloud untuk mengetahui batas model yang relevan.
Kuota evaluasi pipeline
Jika Anda menerima error terkait kuota saat menggunakan layanan pipeline penilaian, Anda mungkin perlu mengajukan permintaan peningkatan kuota. Lihat Melihat dan Mengelola Kuota untuk mengetahui informasi selengkapnya.
Layanan pipeline evaluasi menggunakan Vertex AI Pipelines untuk menjalankan
PipelineJobs
. Lihat kuota yang relevan untuk Vertex AI Pipelines. Berikut adalah rekomendasi kuota umum:
Layanan | Kuota | Rekomendasi |
---|---|---|
Vertex AI API | Tugas prediksi batch LLM serentak per wilayah | Pointwise: 1 * num_concurrent_pipelines Pairwise: 2 * num_concurrent_pipelines |
Vertex AI API | Permintaan evaluasi per menit per region | 1000 * num_concurrent_pipelines |
Selain itu, saat menghitung metrik evaluasi berbasis model, pembuat otomatis mungkin mengalami masalah kuota. Kuota yang relevan bergantung pada pengoptimal otomatis yang digunakan:
Tasks | Kuota | Model dasar | Rekomendasi |
---|---|---|---|
summarization question_answering |
Permintaan prediksi online per model dasar per menit per region per base_model | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
Setiap tugas penyesuaian menggunakan Vertex AI Pipelines. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas Vertex AI Pipelines.
Penambahan kuota
Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Mengelola kuota.
Langkah berikutnya
- Pelajari kuota dan batas Vertex AI.