Cotas do mecanismo de RAG da Vertex AI

Para que cada serviço realize a geração aumentada de recuperação (RAG) usando o RAG Engine, as cotas a seguir se aplicam, sendo a cota medida como solicitações por minuto (RPM).
Serviço Cota Métrica
APIs de gerenciamento de dados do mecanismo RAG 60 RPM VertexRagDataService requests per minute per region
API RetrievalContexts 1.500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1.500 RPM Online prediction requests per base model per minute per region per base_model

Outro filtro que você pode especificar é base_model: textembedding-gecko
Os seguintes limites são aplicáveis:
Serviço Limite Métrica
Solicitações ImportRagFiles simultâneas 3 RPM VertexRagService concurrent import requests per region
Número máximo de arquivos por solicitação ImportRagFiles 10.000 VertexRagService import rag files requests per region

Para mais limites de taxa e cotas, consulte Limites de taxa da IA generativa na Vertex AI.

A seguir