Límites de frecuencia de la IA generativa en Vertex AI

Google Cloud usa cuotas para garantizar la equidad y reducir los aumentos repentinos en el uso y la disponibilidad de los recursos. Una cuota restringe la cantidad de un recurso de Google Cloud que puede usar tu proyecto de Google Cloud. Las cuotas se aplican a una variedad de tipos de recursos, incluidos los componentes de hardware, software y red. Por ejemplo, las cuotas pueden restringir la cantidad de llamadas a la API para un servicio, la cantidad de balanceadores de cargas que se usan en simultáneo en tu proyecto o la cantidad de proyectos que puedes crear. Las cuotas protegen a la comunidad de usuarios de Google Cloud mediante la prevención de la sobrecarga de los servicios. También te ayudan a administrar tus propios recursos de Google Cloud.

El sistema de cuotas Cloud realiza las siguientes acciones:

  • Supervisa el consumo de productos y servicios de Google Cloud.
  • Restringe el consumo de esos recursos.
  • Proporciona un medio para solicitar cambios en el valor de la cuota.

En la mayoría de los casos, cuando intentas consumir más de lo que permite la cuota de un recurso, el sistema bloquea el acceso al recurso, y la tarea que intentas realizar falla.

Por lo general, las cuotas se aplican a nivel del proyecto de Google Cloud. El uso de un recurso en un proyecto no afecta tu cuota disponible en otro proyecto. Dentro de un proyecto de Google Cloud, las cuotas se comparten entre todas las aplicaciones y direcciones IP.

Límites de frecuencia

En esta tabla, se enumeran los límites de frecuencia que se aplican a los siguientes modelos en todas las regiones para la métrica generate_content_input_tokens_per_minute_per_base_model:
Modelo base Tokens por minuto
base_model: gemini-1.5-flash 4M (4,000,000)
base_model: gemini-1.5-pro 4M (4,000,000)

Para obtener información sobre la cuota de la versión 002 de Gemini 1.5 Flash (gemini-1.5-flash-002) y Gemini 1.5 Pro (gemini-1.5-pro-002), consulta Modelos de Google.

Cuotas por región y modelo

La cuota de consultas por minuto (QPM) se aplica a un modelo base y a todas las versiones, identificadores y versiones ajustadas de ese modelo. En los siguientes ejemplos, se muestra cómo se aplica la cuota de RPM:
  • Una solicitud al modelo base, gemini-1.0-pro, y una solicitud a su versión estable, gemini-1.0-pro-001, se cuentan como dos solicitudes a la cuota de RPM del modelo base, gemini-1.0-pro.
  • Una solicitud a dos versiones de un modelo base, "gemini-1.0-pro-001" y "gemini-1.0-pro-002", se cuenta como dos solicitudes a la cuota de RPM del modelo base, "gemini-1.0-pro".
  • Una solicitud a dos versiones de un modelo base, "gemini-1.0-pro-001" y una versión ajustada llamada "my-tuned-chat-model", se cuenta como dos solicitudes para el modelo base, "gemini-1.0-pro".
Las cuotas se aplican a las solicitudes de IA generativa en Vertex AI para un proyecto de Google Cloud determinado y una región compatible.

Consulta las cuotas en la consola de Google Cloud

Para ver las cuotas en la consola de Google Cloud, haz lo siguiente:
  1. En la consola de Google Cloud, ve a la página Cuotas de IAM y administración.
  2. Haz clic en Ver cuotas en la consola.
  3. En el campo Filtro, especifica la dimensión o métrica.
Dimension (model identifier) Métrica (identificador de cuota para modelos de Gemini)
base_model: gemini-1.5-flash
base_model: gemini-1.5-pro
Puedes solicitar ajustes en los siguientes aspectos:
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
  • aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model
Todos los demás modelos Solo puedes ajustar una cuota:
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model

Consulta las cuotas por región y por modelo

Elige una región para ver los límites de cuota de cada modelo disponible:

Aumenta las cuotas

Si quieres aumentar tus cuotas para IA generativa en Vertex AI, puedes usar la consola de Google Cloud para solicitar un aumento de la cuota. Para obtener más información sobre las cuotas, consulta Trabaja con cuotas.

Cuotas de RAG Engine

Para que cada servicio realice la generación de aumento de recuperación (RAG) con el motor de RAG, se aplican las siguientes cuotas, que se miden como solicitudes por minuto (RPM).
Servicio Cuota Métrica
APIs de administración de datos de RAG Engine 60 rpm VertexRagDataService requests per minute per region
API RetrievalContexts 1,500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1,500 RPM Online prediction requests per base model per minute per region per base_model

Un filtro adicional que puedes especificar es base_model: textembedding-gecko
Se aplican los siguientes límites:
Servicio Límite Métrica
Solicitudes ImportRagFiles simultáneas 3 rpm VertexRagService concurrent import requests per region
Cantidad máxima de archivos por solicitud ImportRagFiles 10,000 VertexRagService import rag files requests per region

Para obtener más información sobre los límites de frecuencia y las cuotas, consulta Límites de frecuencia de la IA generativa en Vertex AI.

Solicitudes por lotes

Las cuotas y los límites de las solicitudes por lotes son los mismos en todas las regiones.

Solicitudes por lotes simultáneas

En la siguiente tabla, se enumeran las cuotas de la cantidad de solicitudes por lotes simultáneas:
Cuota Valor
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/gemini_flash_concurrent_batch_prediction_jobs 4
Si la cantidad de tareas enviadas excede la cuota asignada, las tareas se colocan en una cola y se procesan cuando la capacidad de la cuota está disponible.

Límites de solicitudes por lotes

En la siguiente tabla, se muestra el límite de tamaño de cada solicitud de generación de texto por lotes.
Modelo Límite
gemini-1.5-pro 50,000 registros
gemini-1.5-flash 150,000 registros
gemini-1.0-pro 150,000 registros
gemini-1.0-pro-vision 50,000 registros

Cuotas de un modelo entrenado personalizado

Las siguientes cuotas se aplican a los modelos generativos de IA de Vertex AI para un proyecto y una región determinados:
Cuota Valor
Núcleos de pods de TPU V3 de entrenamiento de imagen restringido por región
*Región compatible: europe-west4
64
GPU Nvidia A100 de 80 GB de entrenamiento de imagen restringido por región
* Región compatible: us-central1
* Región compatible: us-east4

8
2
* Las situaciones de ajuste tienen reservas de aceleradores en regiones específicas. Las cuotas para el ajuste son compatibles y deben solicitarse en regiones específicas.

Límites de embedding de texto

Cada solicitud de modelo de incorporación de texto puede tener hasta 250 textos de entrada (generando 1 incorporación por texto de entrada) y 20,000 tokens por solicitud. Solo se usan los primeros 2,048 tokens de cada texto de entrada para calcular las incorporaciones.

Cuotas de Gen AI Evaluation Service

El servicio de evaluación de IA generativa usa gemini-1.5-pro como modelo de juez y mecanismos para garantizar una evaluación coherente y objetiva de las métricas basadas en modelos. Una sola solicitud de evaluación para una métrica basada en modelos puede dar como resultado varias solicitudes subyacentes al servicio de evaluación de IA generativa. La cuota de cada modelo se calcula por proyecto, lo que significa que cualquier solicitud dirigida a gemini-1.5-pro para la inferencia de modelo y la evaluación basada en modelos contribuyen a la cuota. Las distintas cuotas de modelos se configuran de manera diferente. La cuota del servicio de evaluación de IA generativa y la cuota del modelo de evaluador automático subyacente se muestran en la tabla.
Solicita una cuota Cuota predeterminada
Solicitudes de Gen AI Evaluation Service por minuto 1,000 solicitudes por proyecto y por región
Solicitudes de predicción en línea por minuto para base_model: gemini-1.5-pro Consulta Cuotas por región y modelo.
Si recibes un error relacionado con las cuotas mientras usas el servicio de evaluación de IA generativa, es posible que debas presentar una solicitud de aumento de cuota. Consulta Ve y administra cuotas para obtener más información.
Límite Valor
Tiempo de espera de la solicitud de Gen AI Evaluation Service 60 segundos
Los usuarios nuevos del servicio de evaluación de Gen AI dentro de un proyecto nuevo pueden experimentar un retraso de configuración inicial de hasta dos minutos. Este es un proceso que solo deberás realizar una vez. Si tu primera solicitud falla, espera unos minutos y vuelve a intentarlo. Las solicitudes de evaluación posteriores suelen completarse en 60 segundos. Los tokens de entrada y salida máximos están limitados para las métricas basadas en modelo según el modelo que se usa como evaluador automático. Consulta Información del modelo | IA generativa en Vertex AI | Google Cloud para conocer los límites de los modelos relevantes.

Cuotas de evaluación de canalizaciones

Si recibes un error relacionado con las cuotas mientras usas el servicio de canalizaciones de evaluación, es posible que debas presentar una solicitud de aumento de cuota. Consulta Ve y administra cuotas para obtener más información. El servicio de canalizaciones de evaluación usa Vertex AI Pipelines para ejecutar PipelineJobs. Consulta las cuotas relevantes para Vertex AI Pipelines. Las siguientes son recomendaciones generales de cuota:
Servicio Cuota Recomendación
La API de Vertex AI Trabajos de predicción por lotes de LLM simultáneos por región Por puntos: 1 * num_concurrent_pipelines

Por pares: 2 * num_concurrent_pipelines
La API de Vertex AI Solicitudes de evaluación por minuto, por región 1,000 * num_concurrent_pipelines
Además, cuando se calculan las métricas de evaluación basadas en modelos, el evaluador automático puede alcanzar problemas de cuota. La cuota relevante depende del evaluador automático que se usó:
Tareas Cuota Modelo base Recomendación
summarization
question_answering
Solicitudes de predicción en línea por modelo base por minuto, por región y por base_model text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

Cada trabajo de ajuste usa Vertex AI Pipelines. Para obtener más información, consulta Cuotas y límites de Vertex AI Pipelines.

Motor de razonamiento Vertex AI

Los siguientes límites y cuotas se aplican a Vertex AI Reasoning Engine para un proyecto determinado en cada región.
Cuota Valor
Cantidad de motores de razonamiento creados, borrados o actualizados por minuto 10
Consultas a Reasoning Engine por minuto 60
Cantidad máxima de recursos de Reasoning Engine 100

Cómo solucionar problemas relacionados con el código de error 429

Para solucionar el error 429, consulta Código de error 429.

¿Qué sigue?