Batas kapasitas AI Generatif di Vertex AI

Google Cloud menggunakan kuota untuk membantu memastikan keadilan dan mengurangi lonjakan penggunaan dan ketersediaan resource. Kuota membatasi jumlah resource Google Cloud yang dapat digunakan project Google Cloud Anda. Kuota berlaku untuk berbagai jenis resource, termasuk komponen hardware, software, dan jaringan. Misalnya, kuota dapat membatasi jumlah panggilan API ke layanan, jumlah load balancer yang digunakan secara bersamaan oleh project Anda, atau jumlah project yang dapat Anda buat. Kuota melindungi komunitas pengguna Google Cloud dengan mencegah kelebihan beban layanan. Kuota juga membantu Anda mengelola resource Google Cloud Anda sendiri.

Sistem Kuota Cloud melakukan hal berikut:

  • Memantau pemakaian produk dan layanan Google Cloud oleh Anda
  • Membatasi pemakaian resource tersebut
  • Memberikan cara untuk meminta perubahan pada nilai kuota

Pada umumnya, saat Anda mencoba menggunakan resource lebih dari kuota yang diizinkan, sistem akan memblokir akses ke resource, dan tugas yang Anda coba lakukan akan gagal.

Kuota umumnya berlaku di level project Google Cloud. Penggunaan resource di satu project tidak memengaruhi kuota yang tersedia di project lain. Dalam project Google Cloud, kuota dibagikan ke semua aplikasi dan alamat IP.

Batas kapasitas

Tabel ini mencantumkan batas kapasitas yang berlaku untuk model berikut di semua wilayah untuk metrik, generate_content_input_tokens_per_minute_per_base_model:
Model dasar Token per menit
base_model: gemini-1.5-flash 4 Jt (4.000.000)
base_model: gemini-1.5-pro 4 Jt (4.000.000)

Kuota menurut wilayah dan model

Kuota permintaan per menit (RPM) berlaku untuk model dasar dan semua versi, ID, dan versi yang disesuaikan dari model tersebut. Contoh berikut menunjukkan cara kuota RPM diterapkan:
  • Permintaan ke model dasar, gemini-1.0-pro, dan permintaan ke versi stabilnya, gemini-1.0-pro-001, dihitung sebagai dua permintaan terhadap kuota RPM model dasar, gemini-1.0-pro.
  • Permintaan ke dua versi model dasar, `gemini-1.0-pro-001` dan `gemini-1.0-pro-002`, dihitung sebagai dua permintaan terhadap kuota RPM model dasar, `gemini-1.0-pro`.
  • Permintaan ke dua versi model dasar, `gemini-1.0-pro-001` dan versi yang disesuaikan bernama `my-tuned-chat-model`, dihitung sebagai dua permintaan terhadap model dasar, `gemini-1.0-pro`.
Kuota berlaku untuk permintaan AI Generatif di Vertex AI untuk project Google Cloud tertentu dan region yang didukung.

Melihat kuota di konsol Google Cloud

Untuk melihat kuota di konsol Google Cloud, lakukan hal berikut:
  1. Di konsol Google Cloud, buka halaman Kuota IAM & Admin.
  2. Klik Lihat Kuota di Konsol.
  3. Di kolom Filter, tentukan dimensi atau metrik.
Dimensi (ID model) Metrik (ID kuota untuk model Gemini)
base_model: gemini-1.5-flash
base_model: gemini-1.5-pro
Anda dapat meminta penyesuaian dalam hal berikut:
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
  • aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model
Semua model lainnya Anda hanya dapat menyesuaikan satu kuota:
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model

Melihat kuota menurut region dan model

Pilih region untuk melihat batas kuota untuk setiap model yang tersedia:

Meningkatkan kuota

Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Mengelola kuota.

Kuota RAG Engine

Untuk setiap layanan yang melakukan retrieval-augmented generation (RAG) menggunakan RAG Engine, kuota berikut berlaku, dengan kuota diukur sebagai permintaan per menit (RPM).
Layanan Kuota Metrik
API pengelolaan data RAG Engine 60 RPM VertexRagDataService requests per minute per region
RetrievalContexts API 1.500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1.500 RPM Online prediction requests per base model per minute per region per base_model

Filter tambahan yang dapat Anda tentukan adalah base_model: textembedding-gecko
Batasan berikut berlaku:
Layanan Batas Metrik
Permintaan ImportRagFiles serentak 3 RPM VertexRagService concurrent import requests per region
Jumlah file maksimum per permintaan ImportRagFiles 10.000 VertexRagService import rag files requests per region

Untuk mengetahui batas kapasitas dan kuota selengkapnya, lihat Batas kapasitas AI Generatif di Vertex AI.

Permintaan batch

Kuota dan batas untuk permintaan batch sama di semua region.

Permintaan batch serentak

Tabel berikut mencantumkan kuota untuk jumlah permintaan batch serentak:
Kuota Nilai
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/gemini_flash_concurrent_batch_prediction_jobs 4
Jika jumlah tugas yang dikirim melebihi kuota yang dialokasikan, tugas akan ditempatkan dalam antrean dan diproses saat kapasitas kuota tersedia.

Batas permintaan batch

Tabel berikut mencantumkan batas ukuran setiap permintaan pembuatan teks batch.
Model Batas
gemini-1.5-pro 50 ribu data
gemini-1.5-flash 150 ribu data
gemini-1.0-pro 150 ribu data
gemini-1.0-pro-vision 50 ribu data

Kuota model yang dilatih secara khusus

Kuota berikut berlaku untuk AI Generatif pada model yang disesuaikan Vertex AI untuk project dan region tertentu:
Kuota Nilai
Core pod TPU V3 pelatihan gambar yang dibatasi per region
* Region yang didukung - europe-west4
64
GPU Nvidia A100 80 GB untuk pelatihan gambar yang dibatasi per region
* Region yang didukung - us-central1
* Region yang didukung - us-east4

8
2
* Skenario penyesuaian memiliki reservasi akselerator di region tertentu. Kuota untuk penyesuaian didukung dan harus diminta di wilayah tertentu.

Batas penyematan teks

Setiap permintaan model penyematan teks dapat memiliki hingga 250 teks input (menghasilkan 1 penyematan per teks input) dan 20.000 token per permintaan. Hanya 2.048 token pertama dalam setiap teks input yang digunakan untuk menghitung penyematan.

Kuota layanan layanan evaluasi AI Generatif

Layanan evaluasi Gen AI menggunakan gemini-1.5-pro sebagai model hakim, dan menggunakan mekanisme untuk memastikan evaluasi yang konsisten dan objektif untuk metrik berbasis model. Satu permintaan evaluasi untuk metrik berbasis model dapat menghasilkan beberapa permintaan pokok ke layanan evaluasi Gen AI. Kuota setiap model dihitung berdasarkan per project, yang berarti setiap permintaan yang diarahkan ke gemini-1.5-pro untuk inferensi model dan evaluasi berbasis model berkontribusi pada kuota. Kuota model yang berbeda ditetapkan secara berbeda. Kuota untuk layanan evaluasi AI Generatif dan kuota untuk model autorater yang mendasarinya ditampilkan dalam tabel.
Kuota permintaan Kuota default
Permintaan layanan evaluasi AI Generatif per menit 1.000 permintaan per project per region
Permintaan prediksi online per menit untuk base_model: gemini-1.5-pro Lihat Kuota menurut wilayah dan model.
Jika Anda menerima error terkait kuota saat menggunakan layanan evaluasi Gen AI, Anda mungkin perlu mengajukan permintaan penambahan kuota. Lihat Melihat dan Mengelola Kuota untuk mengetahui informasi selengkapnya.
Batas Nilai
Waktu tunggu permintaan layanan evaluasi AI Generatif habis 60 detik
Pengguna pertama kali layanan evaluasi AI Generatif dalam project baru mungkin mengalami penundaan penyiapan awal yang biasanya berlangsung hingga dua menit. Proses ini hanya dilakukan satu kali. Jika permintaan pertama Anda gagal, tunggu beberapa menit, lalu coba lagi. Permintaan evaluasi berikutnya biasanya selesai dalam waktu 60 detik. Token input dan output maksimum dibatasi untuk metrik berbasis model sesuai dengan model yang digunakan sebagai autoreter. Lihat Informasi model | AI Generatif di Vertex AI | Google Cloud untuk mengetahui batasan untuk model yang relevan.

Kuota evaluasi pipeline

Jika Anda menerima error terkait kuota saat menggunakan layanan pipeline evaluasi, Anda mungkin perlu mengajukan permintaan penambahan kuota. Lihat Melihat dan Mengelola Kuota untuk mengetahui informasi selengkapnya. Layanan pipeline evaluasi menggunakan Vertex AI Pipelines untuk menjalankan PipelineJobs. Lihat kuota yang relevan untuk Vertex AI Pipelines. Berikut adalah rekomendasi kuota umum:
Layanan Kuota Rekomendasi
Vertex AI API Tugas prediksi batch LLM serentak per wilayah Pointwise: 1 * num_concurrent_pipelines

Pairwise: 2 * num_concurrent_pipelines
Vertex AI API Permintaan evaluasi per menit per region 1000 * num_concurrent_pipelines
Selain itu, saat menghitung metrik evaluasi berbasis model, pembuat otomatis mungkin mengalami masalah kuota. Kuota yang relevan bergantung pada pengoptimal otomatis yang digunakan:
Tasks Kuota Model dasar Rekomendasi
summarization
question_answering
Permintaan prediksi online per model dasar per menit per region per base_model text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

Setiap tugas penyesuaian menggunakan Vertex AI Pipelines. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas Vertex AI Pipelines.

Vertex AI Reasoning Engine

Kuota dan batas berikut berlaku untuk Vertex AI Reasoning Engine untuk project tertentu di setiap region.
Kuota Nilai
Membuat/Menghapus/Memperbarui Mesin Penalaran per menit 10
Mesin Penalaran Kueri per menit 60
Jumlah maksimum resource Reasoning Engine 100

Memecahkan masalah kode error 429

Untuk memecahkan masalah error 429, lihat Kode error 429.

Langkah selanjutnya