Kontingente für die Vertex AI RAG Engine

Für jeden Dienst, der die Retrieval-Augmented Generation (RAG) mit der RAG Engine durchführt, gelten die folgenden Kontingente. Das Kontingent wird in Anfragen pro Minute (RPM) gemessen.
Dienst Kontingent Messwert
APIs zur Datenverwaltung der RAG Engine 60 U/min VertexRagDataService requests per minute per region
RetrievalContexts API 1.500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1.500 RPM Online prediction requests per base model per minute per region per base_model

Sie können auch den Filter base_model: textembedding-gecko
angeben.
Die folgenden Begrenzungen gelten:
Dienst Limit Messwert
Gleichzeitige ImportRagFiles-Anfragen 3 U/min VertexRagService concurrent import requests per region
Maximale Anzahl von Dateien pro ImportRagFiles-Anfrage 10.000 VertexRagService import rag files requests per region

Weitere Informationen zu den Ratenbegrenzungen und Kontingenten finden Sie unter Ratenbegrenzungen für generative KI in Vertex AI.

Nächste Schritte