Se usó la API de Cloud Translation para traducir esta página.

Cuotas de Vertex AI RAG Engine

En esta página
¿Qué sigue?

Para que cada servicio realice la generación de aumento de recuperación (RAG) con el motor de RAG, se aplican las siguientes cuotas, que se miden como solicitudes por minuto (RPM).

Servicio	Cuota	Métrica
APIs de administración de datos de RAG Engine	60 rpm	`VertexRagDataService requests per minute per region`
API `RetrievalContexts`	1,500 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1,500 RPM	`Online prediction requests per base model per minute per region per base_model` Un filtro adicional que puedes especificar es `base_model: textembedding-gecko`

Se aplican los siguientes límites:

Servicio	Límite	Métrica
Solicitudes `ImportRagFiles` simultáneas	3 rpm	`VertexRagService concurrent import requests per region`
Cantidad máxima de archivos por solicitud `ImportRagFiles`	10,000	`VertexRagService import rag files requests per region`

Para obtener más límites de frecuencia y cuotas, consulta Límites de frecuencia de la IA generativa en Vertex AI.

¿Qué sigue?

Si deseas obtener información para usar el SDK de Vertex AI y ejecutar tareas del motor de RAG de Vertex AI, consulta la Guía de inicio rápido de RAG para Python.
Para obtener más información sobre la fundamentación, consulta Descripción general de la fundamentación.
Para obtener información sobre las diferencias entre la RAG y la fundamentación, consulta Cómo fundamentar respuestas con RAG.
Para obtener más información sobre la arquitectura de RAG, haz lo siguiente:
- Infraestructura para una aplicación de IA generativa compatible con RAG mediante Vertex AI y Búsqueda vectorial
- Infraestructura para una aplicación de IA generativa compatible con RAG mediante Vertex AI y AlloyDB para PostgreSQL.