Kuota Vertex AI RAG Engine

Untuk setiap layanan yang melakukan retrieval-augmented generation (RAG) menggunakan RAG Engine, kuota berikut berlaku, dengan kuota diukur sebagai permintaan per menit (RPM).
Layanan Kuota Metrik
API pengelolaan data RAG Engine 60 RPM VertexRagDataService requests per minute per region
RetrievalContexts API 1.500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1.500 RPM Online prediction requests per base model per minute per region per base_model

Filter tambahan yang dapat Anda tentukan adalah base_model: textembedding-gecko
Batasan berikut berlaku:
Layanan Batas Metrik
Permintaan ImportRagFiles serentak 3 RPM VertexRagService concurrent import requests per region
Jumlah file maksimum per permintaan ImportRagFiles 10.000 VertexRagService import rag files requests per region

Untuk mengetahui batas kapasitas dan kuota selengkapnya, lihat Batas kapasitas AI Generatif di Vertex AI.

Langkah selanjutnya