Questa pagina è stata tradotta dall'API Cloud Translation.

Quote del motore RAG di Vertex AI

Su questa pagina
Passaggi successivi

Per ogni servizio che esegue la generazione basata sul recupero (RAG) utilizzando RAG Engine, si applicano le seguenti quote, misurate in richieste al minuto (RPM).

Servizio	Quota	Metrica
API di gestione dei dati di RAG Engine	60 giri/min	`VertexRagDataService requests per minute per region`
`RetrievalContexts` API	1500 rpm	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1500 rpm	`Online prediction requests per base model per minute per region per base_model` Un altro filtro da specificare è `base_model: textembedding-gecko`

I limiti sono i seguenti:

Servizio	Limite	Metrica
Richieste `ImportRagFiles` simultanee	3 RPM	`VertexRagService concurrent import requests per region`
Numero massimo di file per richiesta `ImportRagFiles`	10.000	`VertexRagService import rag files requests per region`

Per altri limiti di frequenza e quote, consulta Limiti di frequenza dell'IA generativa su Vertex AI.

Passaggi successivi

Per scoprire come utilizzare l'SDK Vertex AI per eseguire le attività del motore RAG di Vertex AI, consulta la guida rapida di RAG per Python.
Per scoprire di più sul grounding, consulta la Panoramica del grounding.
Per scoprire le differenze tra RAG e grounding, consulta Eseguire il grounding delle risposte utilizzando RAG.
Per scoprire di più sull'architettura RAG:
- Infrastruttura per un'applicazione di AI generativa compatibile con RAG che utilizza Vertex AI e Vector Search
- Infrastruttura per un'applicazione di IA generativa compatibile con RAG che utilizza Vertex AI e AlloyDB per PostgreSQL.