Se usó la API de Cloud Translation para traducir esta página.

Cuotas y límites del sistema de IA generativa en Vertex AI

En esta página, se presentan dos formas de consumir servicios de IA generativa, se proporciona una lista de cuotas por región y modelo, y se muestra cómo ver y editar tus cuotas en la consola de Google Cloud .

Descripción general

Existen dos formas de consumir los servicios de IA generativa. Puedes elegir pago por uso (PayGo) o pagar por adelantado con Provisioned Throughput.

Si usas PayGo, tu uso de las funciones de IA generativa está sujeto a uno de los siguientes sistemas de cuotas, según el modelo que uses:

Los modelos anteriores a Gemini 2.0 usan un sistema de cuotas estándar para cada modelo de IA generativa, lo que ayuda a garantizar la equidad y a reducir los aumentos repentinos en el uso y la disponibilidad de los recursos. Las cuotas se aplican a las solicitudes de IA generativa en Vertex AI para un Google Cloud proyecto determinado y una región compatible.
Los modelos más recientes usan la cuota compartida dinámica (DSQ), que distribuye de forma dinámica la capacidad disponible de PayGo entre todos los clientes para un modelo y una región específicos, lo que elimina la necesidad de establecer cuotas y enviar solicitudes de aumento de cuota. No hay cuotas con DSQ.

Para garantizar la alta disponibilidad de tu aplicación y obtener niveles de servicio predecibles para tus cargas de trabajo de producción, consulta Capacidad de procesamiento aprovisionada.

Sistema de cuotas por modelo

Los siguientes modelos admiten la cuota compartida dinámica (DSQ):

Gemini 2.5 Flash Image Preview (versión preliminar)
Gemini 2.5 Flash-Lite
Gemini 2.0 Flash con la API en vivo (versión preliminar)
Gemini 2.0 Flash con generación de imágenes (versión preliminar)
Gemini 2.5 Pro
Gemini 2.5 Flash
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Los siguientes modelos heredados de Gemini admiten DSQ:

Gemini 1.5 Pro
Gemini 1.5 Flash

Los modelos que no son de Gemini y los modelos anteriores de Gemini usan el sistema de cuotas estándar. Para obtener más información, consulta Cuotas y límites de Vertex AI.

Cuotas de modelos ajustados

La inferencia del modelo ajustado comparte la misma cuota que el modelo base. No hay una cuota independiente para la inferencia del modelo ajustado.

Límites de embedding de texto

Cada solicitud puede tener hasta 250 textos de entrada (lo que genera 1 incorporación por texto de entrada) y 20,000 tokens por solicitud. Solo se usan los primeros 2,048 tokens de cada texto de entrada para calcular las incorporaciones. En gemini-embedding-001, la cuota aparece con el nombre gemini-embedding.

Tokens de entrada de contenido incorporado por minuto y por modelo base

A diferencia de los modelos de incorporación anteriores, que se limitaban principalmente por las cuotas de RPM, la cuota del modelo de Gemini Embedding limita la cantidad de tokens que se pueden enviar por minuto y por proyecto.

Cuota	Valor
Tokens de entrada de contenido incorporado por minuto	5,000,000

Límites de Vertex AI Agent Engine

Los siguientes límites se aplican a Vertex AI Agent Engine para un proyecto determinado en cada región:

Descripción	Límite
Crear, borrar o actualizar Vertex AI Agent Engine por minuto	10
Crear, borrar o actualizar sesiones de Vertex AI Agent Engine por minuto	100
`Query` o `StreamQuery` Vertex AI Agent Engine por minuto	90
Eventos de anexión a sesiones de Vertex AI Agent Engine por minuto	300
Cantidad máxima de recursos de Vertex AI Agent Engine	100
Crear, borrar o actualizar recursos de memoria de Vertex AI Agent Engine por minuto	100
Obtener, enumerar o recuperar del banco de memoria de Vertex AI Agent Engine por minuto	300
Solicitudes de ejecución por minuto en el entorno de zona de pruebas (ejecución de código)	1000
Entidades del entorno de zona de pruebas (ejecución de código) por región	1000
Solicitudes de publicación de agentes de A2A, como `sendMessage` y `cancelTask` por minuto	60
Solicitudes GET del agente de A2A, como `getTask` y `getCard`, por minuto	600
Conexiones bidireccionales en vivo simultáneas que usan la API de `BidiStreamQuery` por minuto	10

Predicción por lotes

Las cuotas y los límites de los trabajos de inferencia por lotes son los mismos en todas las regiones.

Límites de trabajos de inferencia por lotes simultáneos para modelos de Gemini

No hay límites de cuota predefinidos para la inferencia por lotes de los modelos de Gemini. En cambio, el servicio por lotes proporciona acceso a un gran grupo compartido de recursos, asignados de forma dinámica según la disponibilidad y la demanda en tiempo real del modelo en todos los clientes que lo usan. Cuando más clientes estén activos y saturen la capacidad del modelo, es posible que tus solicitudes por lotes se pongan en cola por capacidad.

Cuotas de trabajos de inferencia por lotes simultáneos para modelos que no son de Gemini

En la siguiente tabla, se enumeran las cuotas para la cantidad de trabajos de inferencia por lotes simultáneos, que no se aplican a los modelos de Gemini:

Cuota	Valor
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4

Si la cantidad de tareas enviadas excede la cuota asignada, las tareas se colocan en una cola y se procesan cuando la capacidad de la cuota está disponible.

Consulta y edita las cuotas en la consola de Google Cloud

Para ver y editar las cuotas en la consola de Google Cloud , haz lo siguiente:

Ve a la página Cuotas y límites del sistema.

Ir a Cuotas y límites del sistema

Para ajustar la cuota, copia y pega la propiedad aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs en el Filtro. Presiona Intro.
Haz clic en los tres puntos al final de la fila y selecciona Editar cuota.
Ingresa un nuevo valor de cuota en el panel y haz clic en Enviar solicitud.

Vertex AI RAG Engine

Para que cada servicio realice la generación mejorada por recuperación (RAG) con RAG Engine, se aplican las siguientes cuotas, que se miden como solicitudes por minuto (RPM).

Servicio	Cuota	Métrica
APIs de administración de datos de RAG Engine	60 RPM	`VertexRagDataService requests per minute per region`
API `RetrievalContexts`	600 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1,500 RPM	`Online prediction requests per base model per minute per region per base_model` Un filtro adicional que puedes especificar es `base_model: textembedding-gecko`

Se aplican los siguientes límites:

Servicio	Límite	Métrica
Solicitudes `ImportRagFiles` simultáneas	3 RPM	`VertexRagService concurrent import requests per region`
Cantidad máxima de archivos por solicitud de `ImportRagFiles`	10,000	`VertexRagService import rag files requests per region`

Para obtener más información sobre los límites de frecuencia y las cuotas, consulta Límites de frecuencia de la IA generativa en Vertex AI.

Servicio de evaluación de IA generativa

El servicio de evaluación de IA generativa usa gemini-2.0-flash como modelo de juez predeterminado para las métricas basadas en modelos. Una sola solicitud de evaluación para una métrica basada en modelos puede dar como resultado varias solicitudes subyacentes al servicio de evaluación de IA generativa. La cuota de cada modelo se calcula por proyecto, lo que significa que cualquier solicitud dirigida a gemini-2.0-flash para la inferencia de modelo y la evaluación basada en modelos contribuyen a la cuota. En la siguiente tabla, se muestran las cuotas del servicio de evaluación de IA generativa y del modelo de juez subyacente:

Cuota de solicitudes	Cuota predeterminada
Solicitudes de servicio de evaluación de IA generativa por minuto	1,000 solicitudes por proyecto y por región
Solicitudes de predicción en línea por minuto para `base_model: gemini-2.0-flash`	Consulta Cuotas por región y modelo.

Si recibes un error relacionado con las cuotas mientras usas el servicio de evaluación de IA generativa, es posible que debas presentar una solicitud de aumento de cuota. Consulta Visualiza y administra las cuotas para obtener más información.

Límite	Valor
Tiempo de espera de la solicitud de Gen AI Evaluation Service	60 segundos

Cuando usas el servicio de evaluación de IA generativa por primera vez en un proyecto nuevo, es posible que experimentes un retraso de configuración inicial de hasta dos minutos. Si tu primera solicitud falla, espera unos minutos y vuelve a intentarlo. Las solicitudes de evaluación posteriores suelen completarse en 60 segundos.

Los tokens de entrada y salida máximos para las métricas basadas en modelos dependen del modelo que se usa como modelo de juez. Consulta Modelos de Google para ver una lista de los modelos.

Cuotas de Vertex AI Pipelines

Cada trabajo de ajuste usa Vertex AI Pipelines. Para obtener más información, consulta Cuotas y límites de Vertex AI Pipelines.

¿Qué sigue?

Para obtener más información sobre la cuota compartida dinámica, consulta Cuota compartida dinámica.
Para obtener información sobre las cuotas y los límites de Vertex AI, consulta Cuotas y límites de Vertex AI.
Para obtener más información sobre las Google Cloud cuotas y los límites del sistema, consulta la documentación de Cloud Quotas.