Halaman ini diterjemahkan oleh Cloud Translation API.

Batas kuota untuk model lama

Halaman ini memberi Anda informasi tentang kuota dan batas model lama. Model dalam grup model lama tidak lagi diupdate dengan versi stabil baru. Untuk mengetahui detailnya, lihat Informasi model lama.

Google Cloud menggunakan kuota untuk membantu memastikan keadilan dan mengurangi lonjakan penggunaan dan ketersediaan resource. Kuota membatasi jumlah Google Cloud resource yang dapat digunakan Google Cloud project Anda. Kuota berlaku untuk berbagai jenis resource, termasuk komponen hardware, software, dan jaringan. Misalnya, kuota dapat membatasi jumlah panggilan API ke layanan, jumlah load balancer yang digunakan secara bersamaan oleh project Anda, atau jumlah project yang dapat Anda buat. Kuota melindungi komunitas penggunaGoogle Cloud dengan mencegah kelebihan beban layanan. Kuota juga membantu Anda mengelola resource Google Cloud Anda sendiri.

Sistem Kuota Cloud melakukan hal berikut:

Memantau pemakaian Google Cloud produk dan layanan oleh Anda
Membatasi pemakaian resource tersebut
Memberikan cara untuk meminta perubahan pada nilai kuota dan mengotomatiskan penyesuaian kuota

Pada umumnya, saat Anda mencoba menggunakan resource lebih dari kuota yang diizinkan, sistem akan memblokir akses ke resource, dan tugas yang Anda coba lakukan akan gagal.

Kuota umumnya berlaku di level project Google Cloud. Penggunaan resource di satu project tidak memengaruhi kuota yang tersedia di project lain. Dalam project Google Cloud, kuota dibagikan ke semua aplikasi dan alamat IP.

Kuota menurut wilayah dan model

Kuota permintaan per menit (RPM) berlaku untuk model dasar dan semua versi, ID, dan versi yang disesuaikan dari model tersebut. Misalnya, permintaan ke text-bison dan permintaan ke text-bison@002 dihitung sebagai dua permintaan terhadap kuota RPM model dasar, text-bison. Hal yang sama berlaku untuk model yang disesuaikan, sehingga permintaan ke chat-bison@002 dan model yang disesuaikan berdasarkan chat-bison@002 bernama my-tuned-chat-model dihitung sebagai dua permintaan terhadap model dasar, chat-bison.

Kuota berlaku untuk permintaan AI Generatif di Vertex AI untuk project Google Cloud tertentu dan region yang didukung.

Untuk melihat kuota di konsol Google Cloud, lakukan hal berikut:

Di konsol Google Cloud, buka halaman Kuota IAM & Admin.

Melihat Kuota di Konsol
Di kolom Filter, tentukan dimensi atau metrik.
- Dimensi: ID model. Misalnya base_model:gemini-1.0-pro atau base_model:text-bison.
- Metrik: ID kuota untuk model PaLM 2 adalah aiplatform.googleapis.com/online_prediction_requests_per_base_model

Pilih region untuk melihat batas kuota untuk setiap model yang tersedia:

Kuota batch

Kuota dan batas berikut sama di seluruh region untuk AI Generatif pada tugas prediksi batch Vertex AI:

Kuota	Nilai
`text_bison_concurrent_batch_prediction_jobs`	4
`code_bison_concurrent_batch_prediction_jobs`	4

Kuota model yang dilatih secara khusus

Kuota berikut berlaku untuk AI Generatif pada model yang disesuaikan Vertex AI untuk project dan region tertentu:

Kuota	Nilai
Core pod TPU V3 pelatihan gambar yang dibatasi per region * Region yang didukung - europe-west4	64
GPU Nvidia A100 80 GB untuk pelatihan gambar yang dibatasi per region * Region yang didukung - us-central1 * Region yang didukung - us-east4	8 2

* Skenario penyesuaian memiliki reservasi akselerator di region tertentu. Kuota untuk penyesuaian didukung dan harus diminta di wilayah tertentu.

Kuota evaluasi online

Layanan online evaluasi menggunakan model text-bison sebagai autoreter dengan perintah dan mekanisme IP Google untuk memastikan evaluasi yang konsisten dan objektif untuk metrik berbasis model.

Satu permintaan evaluasi untuk metrik berbasis model dapat menghasilkan beberapa permintaan pokok ke layanan prediksi online. Kuota setiap model dihitung berdasarkan per project, yang berarti bahwa setiap permintaan yang diarahkan ke text-bison untuk inferensi model dan evaluasi berbasis model berkontribusi pada kuota. Kuota model yang berbeda ditetapkan secara berbeda. Kuota untuk layanan evaluasi dan kuota untuk model autorater yang mendasarinya ditampilkan dalam tabel.

Kuota permintaan	Kuota default
Permintaan layanan evaluasi online per menit	1.000 permintaan per project per region
Permintaan prediksi online per menit untuk base_model, base_model: `text-bison`	1.600 permintaan per project per region

Jika Anda menerima error terkait kuota saat menggunakan layanan online evaluasi, Anda mungkin perlu mengajukan permintaan penambahan kuota. Lihat Melihat dan Mengelola Kuota untuk mengetahui informasi selengkapnya.

Batas	Nilai
Waktu tunggu permintaan layanan evaluasi online habis	60 detik

Pengguna pertama kali layanan evaluasi online dalam project baru mungkin mengalami penundaan penyiapan awal yang umumnya berlangsung hingga dua menit. Proses ini hanya dilakukan satu kali. Jika permintaan pertama Anda gagal, tunggu beberapa menit, lalu coba lagi. Permintaan evaluasi berikutnya biasanya selesai dalam waktu 60 detik.

Token input dan output maksimum dibatasi untuk metrik berbasis model sesuai dengan model yang digunakan sebagai pembuat otomatis. Lihat Informasi model | AI Generatif di Vertex AI | Google Cloud untuk mengetahui batas model yang relevan.

Kuota evaluasi pipeline

Jika Anda menerima error terkait kuota saat menggunakan layanan pipeline penilaian, Anda mungkin perlu mengajukan permintaan peningkatan kuota. Lihat Melihat dan Mengelola Kuota untuk mengetahui informasi selengkapnya.

Layanan pipeline evaluasi menggunakan Vertex AI Pipelines untuk menjalankan PipelineJobs. Lihat kuota yang relevan untuk Vertex AI Pipelines. Berikut adalah rekomendasi kuota umum:

Layanan	Kuota	Rekomendasi
Vertex AI API	Tugas prediksi batch LLM serentak per wilayah	Pointwise: 1 * num_concurrent_pipelines Pairwise: 2 * num_concurrent_pipelines
Vertex AI API	Permintaan evaluasi per menit per region	1000 * num_concurrent_pipelines

Selain itu, saat menghitung metrik evaluasi berbasis model, pembuat otomatis mungkin mengalami masalah kuota. Kuota yang relevan bergantung pada pengoptimal otomatis yang digunakan:

Tasks	Kuota	Model dasar	Rekomendasi
`summarization` `question_answering`	Permintaan prediksi online per model dasar per menit per region per base_model	`text-bison`	60 * num_concurrent_pipelines

Vertex AI Pipelines

Setiap tugas penyesuaian menggunakan Vertex AI Pipelines. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas Vertex AI Pipelines.

Penambahan kuota

Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Mengelola kuota.

Langkah berikutnya

Pelajari kuota dan batas Vertex AI.