Batas kuota untuk model lama

Halaman ini memberi Anda informasi tentang kuota dan batas model lama. Model dalam grup model lama tidak lagi diupdate dengan versi stabil baru. Untuk mengetahui detailnya, lihat Informasi model lama.

Google Cloud menggunakan kuota untuk membantu memastikan keadilan dan mengurangi lonjakan penggunaan dan ketersediaan resource. Kuota membatasi jumlah Google Cloud resource yang dapat digunakan Google Cloud project Anda. Kuota berlaku untuk berbagai jenis resource, termasuk komponen hardware, software, dan jaringan. Misalnya, kuota dapat membatasi jumlah panggilan API ke layanan, jumlah load balancer yang digunakan secara bersamaan oleh project Anda, atau jumlah project yang dapat Anda buat. Kuota melindungi komunitas penggunaGoogle Cloud dengan mencegah kelebihan beban layanan. Kuota juga membantu Anda mengelola resource Google Cloud Anda sendiri.

Sistem Kuota Cloud melakukan hal berikut:

Pada umumnya, saat Anda mencoba menggunakan resource lebih dari kuota yang diizinkan, sistem akan memblokir akses ke resource, dan tugas yang Anda coba lakukan akan gagal.

Kuota umumnya berlaku di level project Google Cloud. Penggunaan resource di satu project tidak memengaruhi kuota yang tersedia di project lain. Dalam project Google Cloud, kuota dibagikan ke semua aplikasi dan alamat IP.

Kuota menurut wilayah dan model

Kuota permintaan per menit (RPM) berlaku untuk model dasar dan semua versi, ID, dan versi yang disesuaikan dari model tersebut. Misalnya, permintaan ke text-bison dan permintaan ke text-bison@002 dihitung sebagai dua permintaan terhadap kuota RPM model dasar, text-bison. Hal yang sama berlaku untuk model yang disesuaikan, sehingga permintaan ke chat-bison@002 dan model yang disesuaikan berdasarkan chat-bison@002 bernama my-tuned-chat-model dihitung sebagai dua permintaan terhadap model dasar, chat-bison.

Kuota berlaku untuk permintaan AI Generatif di Vertex AI untuk project Google Cloud tertentu dan region yang didukung.

Untuk melihat kuota di konsol Google Cloud, lakukan hal berikut:

  1. Di konsol Google Cloud, buka halaman Kuota IAM & Admin.

    Melihat Kuota di Konsol

  2. Di kolom Filter, tentukan dimensi atau metrik.

    • Dimensi: ID model. Misalnya base_model:gemini-1.0-pro atau base_model:text-bison.

    • Metrik: ID kuota untuk model PaLM 2 adalah aiplatform.googleapis.com/online_prediction_requests_per_base_model

Pilih region untuk melihat batas kuota untuk setiap model yang tersedia:

Kuota batch

Kuota dan batas berikut sama di seluruh region untuk AI Generatif pada tugas prediksi batch Vertex AI:

Kuota Nilai
text_bison_concurrent_batch_prediction_jobs 4
code_bison_concurrent_batch_prediction_jobs 4

Kuota model yang dilatih secara khusus

Kuota berikut berlaku untuk AI Generatif pada model yang disesuaikan Vertex AI untuk project dan region tertentu:

Kuota Nilai
Core pod TPU V3 pelatihan gambar yang dibatasi per region
* Region yang didukung - europe-west4
64
GPU Nvidia A100 80 GB untuk pelatihan gambar yang dibatasi per region
* Region yang didukung - us-central1
* Region yang didukung - us-east4

8
2

* Skenario penyesuaian memiliki reservasi akselerator di region tertentu. Kuota untuk penyesuaian didukung dan harus diminta di wilayah tertentu.

Kuota evaluasi online

Layanan online evaluasi menggunakan model text-bison sebagai autoreter dengan perintah dan mekanisme IP Google untuk memastikan evaluasi yang konsisten dan objektif untuk metrik berbasis model.

Satu permintaan evaluasi untuk metrik berbasis model dapat menghasilkan beberapa permintaan pokok ke layanan prediksi online. Kuota setiap model dihitung berdasarkan per project, yang berarti bahwa setiap permintaan yang diarahkan ke text-bison untuk inferensi model dan evaluasi berbasis model berkontribusi pada kuota. Kuota model yang berbeda ditetapkan secara berbeda. Kuota untuk layanan evaluasi dan kuota untuk model autorater yang mendasarinya ditampilkan dalam tabel.

Kuota permintaan Kuota default
Permintaan layanan evaluasi online per menit 1.000 permintaan per project per region
Permintaan prediksi online per menit untuk base_model, base_model: text-bison 1.600 permintaan per project per region

Jika Anda menerima error terkait kuota saat menggunakan layanan online evaluasi, Anda mungkin perlu mengajukan permintaan penambahan kuota. Lihat Melihat dan Mengelola Kuota untuk mengetahui informasi selengkapnya.

Batas Nilai
Waktu tunggu permintaan layanan evaluasi online habis 60 detik

Pengguna pertama kali layanan evaluasi online dalam project baru mungkin mengalami penundaan penyiapan awal yang umumnya berlangsung hingga dua menit. Proses ini hanya dilakukan satu kali. Jika permintaan pertama Anda gagal, tunggu beberapa menit, lalu coba lagi. Permintaan evaluasi berikutnya biasanya selesai dalam waktu 60 detik.

Token input dan output maksimum dibatasi untuk metrik berbasis model sesuai dengan model yang digunakan sebagai pembuat otomatis. Lihat Informasi model | AI Generatif di Vertex AI | Google Cloud untuk mengetahui batas model yang relevan.

Kuota evaluasi pipeline

Jika Anda menerima error terkait kuota saat menggunakan layanan pipeline penilaian, Anda mungkin perlu mengajukan permintaan peningkatan kuota. Lihat Melihat dan Mengelola Kuota untuk mengetahui informasi selengkapnya.

Layanan pipeline evaluasi menggunakan Vertex AI Pipelines untuk menjalankan PipelineJobs. Lihat kuota yang relevan untuk Vertex AI Pipelines. Berikut adalah rekomendasi kuota umum:

Layanan Kuota Rekomendasi
Vertex AI API Tugas prediksi batch LLM serentak per wilayah Pointwise: 1 * num_concurrent_pipelines

Pairwise: 2 * num_concurrent_pipelines
Vertex AI API Permintaan evaluasi per menit per region 1000 * num_concurrent_pipelines

Selain itu, saat menghitung metrik evaluasi berbasis model, pembuat otomatis mungkin mengalami masalah kuota. Kuota yang relevan bergantung pada pengoptimal otomatis yang digunakan:

Tasks Kuota Model dasar Rekomendasi
summarization
question_answering
Permintaan prediksi online per model dasar per menit per region per base_model text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

Setiap tugas penyesuaian menggunakan Vertex AI Pipelines. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas Vertex AI Pipelines.

Penambahan kuota

Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Mengelola kuota.

Langkah berikutnya