Esta página foi traduzida pela API Cloud Translation.

Cotas do mecanismo de RAG da Vertex AI

Nesta página
A seguir

Para que cada serviço realize a geração aumentada de recuperação (RAG) usando o RAG Engine, as cotas a seguir se aplicam, sendo a cota medida como solicitações por minuto (RPM).

Serviço	Cota	Métrica
APIs de gerenciamento de dados do mecanismo RAG	60 RPM	`VertexRagDataService requests per minute per region`
API `RetrievalContexts`	1.500 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1.500 RPM	`Online prediction requests per base model per minute per region per base_model` Outro filtro que você pode especificar é `base_model: textembedding-gecko`

Os seguintes limites são aplicáveis:

Serviço	Limite	Métrica
Solicitações `ImportRagFiles` simultâneas	3 RPM	`VertexRagService concurrent import requests per region`
Número máximo de arquivos por solicitação `ImportRagFiles`	10.000	`VertexRagService import rag files requests per region`

Para mais limites de taxa e cotas, consulte Limites de taxa da IA generativa na Vertex AI.

A seguir

Para saber como usar o SDK da Vertex AI para executar tarefas do mecanismo de RAG da Vertex AI, consulte Programa de treinamento introdutório da RAG para Python.
Para saber mais sobre embasamento, consulte Visão geral do embasamento.
Para saber mais sobre as diferenças entre RAG e embasamento, consulte Embasar respostas usando RAG.
Para saber mais sobre a arquitetura RAG:
- Infraestrutura para um aplicativo de IA generativa com capacidade de RAG usando a Vertex AI e a Pesquisa de vetores
- Infraestrutura para um aplicativo de IA generativa com capacidade de RAG usando a Vertex AI e o AlloyDB para PostgreSQL.