Google Cloud menggunakan kuota untuk membantu memastikan keadilan dan mengurangi lonjakan penggunaan dan ketersediaan resource. Kuota membatasi jumlah resource Google Cloud yang dapat digunakan project Google Cloud Anda. Kuota berlaku untuk berbagai jenis resource, termasuk komponen hardware, software, dan jaringan. Misalnya, kuota dapat membatasi jumlah panggilan API ke layanan, jumlah load balancer yang digunakan secara bersamaan oleh project Anda, atau jumlah project yang dapat Anda buat. Kuota melindungi komunitas pengguna Google Cloud dengan mencegah kelebihan beban layanan. Kuota juga membantu Anda mengelola resource Google Cloud Anda sendiri.
Sistem Kuota Cloud melakukan hal berikut:
- Memantau pemakaian produk dan layanan Google Cloud oleh Anda
- Membatasi pemakaian resource tersebut
- Memberikan cara untuk meminta perubahan pada nilai kuota
Pada umumnya, saat Anda mencoba menggunakan resource lebih dari kuota yang diizinkan, sistem akan memblokir akses ke resource, dan tugas yang Anda coba lakukan akan gagal.
Kuota umumnya berlaku di level project Google Cloud. Penggunaan resource di satu project tidak memengaruhi kuota yang tersedia di project lain. Dalam project Google Cloud, kuota dibagikan ke semua aplikasi dan alamat IP.
Batas kapasitas
Tabel ini mencantumkan batas kapasitas yang berlaku untuk model berikut di semua wilayah untuk metrik,generate_content_input_tokens_per_minute_per_base_model
:
Model dasar | Token per menit |
---|---|
base_model: gemini-1.5-flash |
4 Jt (4.000.000) |
base_model: gemini-1.5-pro |
4 Jt (4.000.000) |
Untuk informasi kuota Gemini 1.5 Flash
(gemini-1.5-flash-002
) dan Gemini 1.5 Pro
(gemini-1.5-pro-002
) versi 002, lihat Model Google.
Kuota menurut wilayah dan model
Kuota permintaan per menit (RPM) berlaku untuk model dasar dan semua versi, ID, dan versi yang disesuaikan dari model tersebut. Contoh berikut menunjukkan cara kuota RPM diterapkan:- Permintaan ke model dasar,
gemini-1.0-pro
, dan permintaan ke versi stabilnya,gemini-1.0-pro-001
, dihitung sebagai dua permintaan terhadap kuota RPM model dasar,gemini-1.0-pro
. - Permintaan ke dua versi model dasar, `gemini-1.0-pro-001` dan `gemini-1.0-pro-002`, dihitung sebagai dua permintaan terhadap kuota RPM model dasar, `gemini-1.0-pro`.
- Permintaan ke dua versi model dasar, `gemini-1.0-pro-001` dan versi yang disesuaikan bernama `my-tuned-chat-model`, dihitung sebagai dua permintaan terhadap model dasar, `gemini-1.0-pro`.
Melihat kuota di konsol Google Cloud
Untuk melihat kuota di konsol Google Cloud, lakukan hal berikut:- Di konsol Google Cloud, buka halaman Kuota IAM & Admin.
- Klik Lihat Kuota di Konsol.
- Di kolom Filter, tentukan dimensi atau metrik.
Dimensi (ID model) | Metrik (ID kuota untuk model Gemini) |
---|---|
base_model: gemini-1.5-flash base_model: gemini-1.5-pro |
Anda dapat meminta penyesuaian dalam hal berikut:
|
Semua model lainnya | Anda hanya dapat menyesuaikan satu kuota:
|
Melihat kuota menurut region dan model
Pilih region untuk melihat batas kuota untuk setiap model yang tersedia:
Meningkatkan kuota
Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Menangani kuota.
Kuota RAG Engine
Untuk setiap layanan yang melakukan retrieval-augmented generation (RAG) menggunakan RAG Engine, kuota berikut berlaku, dengan kuota diukur sebagai permintaan per menit (RPM).Layanan | Kuota | Metrik |
---|---|---|
API pengelolaan data RAG Engine | 60 RPM | VertexRagDataService requests per minute per region |
RetrievalContexts API |
1.500 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1.500 RPM | Online prediction requests per base model per minute per region per base_model Filter tambahan yang dapat Anda tentukan adalah base_model: textembedding-gecko |
Layanan | Batas | Metrik |
---|---|---|
Permintaan ImportRagFiles serentak |
3 RPM | VertexRagService concurrent import requests per region |
Jumlah file maksimum per permintaan ImportRagFiles |
10.000 | VertexRagService import rag files requests per region |
Untuk mengetahui batas kapasitas dan kuota selengkapnya, lihat Batas kapasitas AI Generatif di Vertex AI.
Permintaan batch
Kuota dan batas untuk permintaan batch sama di semua region.Permintaan batch serentak
Tabel berikut mencantumkan kuota untuk jumlah permintaan batch serentak:Kuota | Nilai |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/gemini_flash_concurrent_batch_prediction_jobs |
4 |
Batas permintaan batch
Tabel berikut mencantumkan batas ukuran setiap permintaan pembuatan teks batch.Model | Batas |
---|---|
gemini-1.5-pro |
50 ribu data |
gemini-1.5-flash |
150 ribu data |
gemini-1.0-pro |
150 ribu data |
gemini-1.0-pro-vision |
50 ribu data |
Kuota model yang dilatih secara khusus
Kuota berikut berlaku untuk AI Generatif pada model yang disesuaikan Vertex AI untuk project dan region tertentu:Kuota | Nilai |
---|---|
Core pod TPU V3 pelatihan gambar yang dibatasi per region * Region yang didukung - europe-west4 |
64 |
GPU Nvidia A100 80 GB untuk pelatihan gambar yang dibatasi per region * Region yang didukung - us-central1 * Region yang didukung - us-east4 |
8 2 |
Batas penyematan teks
Setiap permintaan model penyematan teks dapat memiliki hingga 250 teks input (menghasilkan 1 penyematan per teks input) dan 20.000 token per permintaan. Hanya 2.048 token pertama dalam setiap teks input yang digunakan untuk menghitung penyematan.
Kuota layanan evaluasi AI Generatif
Layanan evaluasi Gen AI menggunakangemini-1.5-pro
sebagai model hakim,
dan menggunakan mekanisme untuk memastikan evaluasi yang konsisten dan objektif untuk metrik berbasis model.
Satu permintaan evaluasi untuk metrik berbasis model dapat menghasilkan beberapa permintaan pokok ke
layanan evaluasi AI Generatif. Kuota setiap model dihitung berdasarkan per project, yang berarti
bahwa setiap permintaan yang diarahkan ke gemini-1.5-pro
untuk inferensi model dan
evaluasi berbasis model berkontribusi pada kuota. Kuota model yang berbeda ditetapkan secara berbeda. Kuota untuk layanan evaluasi AI Generatif dan kuota untuk model autorater yang mendasarinya ditampilkan dalam tabel.
Kuota permintaan | Kuota default |
---|---|
Permintaan layanan evaluasi AI Generatif per menit | 1.000 permintaan per project per region |
Permintaan prediksi online per menit untuk base_model: gemini-1.5-pro |
Lihat Kuota menurut wilayah dan model. |
Batas | Nilai |
---|---|
Waktu tunggu permintaan layanan evaluasi AI Generatif habis | 60 detik |
Kuota evaluasi pipeline
Jika Anda menerima error terkait kuota saat menggunakan layanan pipeline evaluasi, Anda mungkin perlu mengajukan permintaan penambahan kuota. Lihat Melihat dan Mengelola Kuota untuk mengetahui informasi selengkapnya. Layanan pipeline evaluasi menggunakan Vertex AI Pipelines untuk menjalankanPipelineJobs
. Lihat kuota yang relevan untuk
Vertex AI Pipelines. Berikut adalah rekomendasi kuota umum:
Layanan | Kuota | Rekomendasi |
---|---|---|
Vertex AI API | Tugas prediksi batch LLM serentak per wilayah | Pointwise: 1 * num_concurrent_pipelines Pairwise: 2 * num_concurrent_pipelines |
Vertex AI API | Permintaan evaluasi per menit per region | 1000 * num_concurrent_pipelines |
Tasks | Kuota | Model dasar | Rekomendasi |
---|---|---|---|
summarization question_answering |
Permintaan prediksi online per model dasar per menit per region per base_model | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
Setiap tugas penyesuaian menggunakan Vertex AI Pipelines. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas Vertex AI Pipelines.
Vertex AI Reasoning Engine
Kuota dan batas berikut berlaku untuk Vertex AI Reasoning Engine untuk project tertentu di setiap region.Kuota | Nilai |
---|---|
Membuat/Menghapus/Memperbarui Mesin Penalaran per menit | 10 |
Mesin Penalaran Kueri per menit | 60 |
Jumlah maksimum resource Reasoning Engine | 100 |
Memecahkan masalah kode error 429
Untuk memecahkan masalah error 429, lihat Kode error 429.
Langkah selanjutnya
- Untuk mempelajari kuota bersama dinamis lebih lanjut, lihat Kuota bersama dinamis.
- Untuk mempelajari kuota dan batas untuk Vertex AI, lihat Kuota dan batas Vertex AI.
- Untuk mempelajari kuota dan batas Google Cloud lebih lanjut, lihat Memahami nilai kuota dan batas sistem.