Diese Seite wurde von der Cloud Translation API übersetzt.

Kontingente für die Vertex AI RAG Engine

Auf dieser Seite
Nächste Schritte

Für jeden Dienst, der die Retrieval-Augmented Generation (RAG) mit der RAG Engine durchführt, gelten die folgenden Kontingente. Das Kontingent wird in Anfragen pro Minute (RPM) gemessen.

Dienst	Kontingent	Messwert
APIs zur Datenverwaltung der RAG Engine	60 U/min	`VertexRagDataService requests per minute per region`
`RetrievalContexts` API	1.500 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1.500 RPM	`Online prediction requests per base model per minute per region per base_model` Sie können auch den Filter `base_model: textembedding-gecko` angeben.

Die folgenden Begrenzungen gelten:

Dienst	Limit	Messwert
Gleichzeitige `ImportRagFiles`-Anfragen	3 U/min	`VertexRagService concurrent import requests per region`
Maximale Anzahl von Dateien pro `ImportRagFiles`-Anfrage	10.000	`VertexRagService import rag files requests per region`

Weitere Informationen zu den Ratenbegrenzungen und Kontingenten finden Sie unter Ratenbegrenzungen für generative KI in Vertex AI.

Nächste Schritte

Informationen zum Ausführen von Vertex AI RAG Engine-Aufgaben mit dem Vertex AI SDK finden Sie in der RAG-Schnellstartanleitung für Python.
Weitere Informationen zur Fundierung finden Sie unter Fundierungsübersicht.
Weitere Informationen zu den Unterschieden zwischen RAG und Erdung finden Sie unter Fundierungsantworten mit RAG.
Weitere Informationen zur RAG-Architektur:
- Infrastruktur für eine RAG-fähige generative KI-Anwendung mit Vertex AI und Vektorsuche
- Infrastruktur für eine RAG-fähige generative KI-Anwendung mit Vertex AI und AlloyDB for PostgreSQL