Límites de cuotas de IA generativa en Vertex AI

Una cuota restringe cuánto de un recurso compartido de Google Cloud puede usar tu proyecto de Google Cloud, incluidos los componentes de red, hardware y software. Por lo tanto, las cuotas son parte de un sistema que hace las siguientes acciones:

  • Supervisa el uso o consumo de productos y servicios de Google Cloud.
  • Restringe el consumo de esos recursos por motivos que incluyen garantizar la equidad y reducir los aumentos repentinos de uso.
  • Mantiene los parámetros de configuración que aplican de forma automática las restricciones prescritas.
  • Proporciona un medio para solicitar o hacer cambios en la cuota.

En la mayoría de los casos, cuando se excede un límite de cuota, el sistema bloquea de inmediato el acceso al recurso de Google correspondiente, y la tarea que intentas hacer falla. En la mayoría de los casos, las cuotas se aplican a cada proyecto de Google Cloud y se comparten entre todas las aplicaciones y direcciones IP que usan ese proyecto.

Cuotas por región y modelo

La cuota de consultas por minuto (QPM) se aplica a un modelo base y a todas las versiones, identificadores y versiones ajustadas de ese modelo. Por ejemplo, una solicitud a text-bison y una solicitud a text-bison@001 se cuentan como dos solicitudes a la cuota de QPM del modelo base, text-bison. Del mismo modo, una solicitud a text-bison@001 y text-bison@002 se cuenta como dos solicitudes a la cuota de QPM del modelo base, text-bison. Lo mismo se aplica a los modelos ajustados, por lo que una solicitud a chat-bison@002 y un modelo ajustado basado en chat-bison@002 llamado my-tuned-chat-model se cuentan como dos solicitudes para el modelo base, chat-bison.

Las cuotas se aplican a las solicitudes de IA generativa en Vertex AI para un proyecto de Google Cloud determinado y una región compatible.

Para ver las cuotas en la consola de Google Cloud, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Cuotas de IAM y administración.

    Ver cuotas en la consola

  2. En el campo Filtro, especifica la dimensión o métrica.

    • Dimensión: El identificador de modelo. Por ejemplo, base_model:gemini-1.0-pro o base_model:text-bison.

    • Métrica: El identificador de cuota.

      • Para los modelos de Gemini: aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
      • Para los modelos PaLM 2: aiplatform.googleapis.com/online_prediction_requests_per_base_model

Elige una región para ver los límites de cuota de cada modelo disponible:

Cuotas por lotes

Los siguientes límites y cuotas son los mismos en todas las regiones para los trabajos de predicción por lotes de la IA generativa en Vertex AI:

Cuota Valor
text_bison_concurrent_batch_prediction_jobs 4
code_bison_concurrent_batch_prediction_jobs 4
textembedding_gecko_concurrent_batch_prediction_jobs 4

Cuotas de un modelo entrenado personalizado

Las siguientes cuotas se aplican a los modelos generativos de IA de Vertex AI para un proyecto y una región determinados:

Cuota Valor
Núcleos de pods de TPU V3 de entrenamiento de imagen restringido por región
*Región compatible: europe-west4
64
GPU Nvidia A100 de 80 GB de entrenamiento de imagen restringido por región
*Región compatible: us-central1
* Región compatible: us-east4

8
2

* Las situaciones de ajuste tienen reservas de aceleradores en regiones específicas. Las cuotas para el ajuste son compatibles y deben solicitarse en regiones específicas.

Cuotas de evaluación en línea

El servicio en línea de evaluación usa el modelo text-bison como evaluador automático con mecanismos e instrucciones IP de Google para garantizar una evaluación coherente y objetiva de las métricas basadas en modelos.

Una sola solicitud de evaluación para una métrica basada en modelos puede dar como resultado varias solicitudes subyacentes al servicio de predicción en línea. La cuota de cada modelo se calcula por proyecto, lo que significa que cualquier solicitud dirigida a text-bison para la inferencia de modelo y la evaluación basada en modelos contribuyen a la cuota. Las distintas cuotas de modelos se configuran de manera diferente. La cuota del servicio de evaluación y la cuota del modelo de evaluador automático subyacente se muestran en la tabla.

Cuota de solicitudes Cuota predeterminada
Solicitudes de servicio de evaluación en línea por minuto 1,000 solicitudes por proyecto y por región
Solicitudes de predicción en línea por minuto para base_model, base_model: text-bison 1,600 solicitudes por proyecto por región

Si recibes un error relacionado con las cuotas mientras usas el servicio en línea de evaluación, es posible que debas presentar una solicitud de aumento de cuota. Consulta Ve y administra cuotas para obtener más información.

Límite Valor
Tiempo de espera de la solicitud del servicio de evaluación en línea 60 segundos

Los usuarios nuevos del servicio de evaluación en línea dentro de un proyecto nuevo pueden experimentar un retraso de configuración inicial de hasta dos minutos. Este es un proceso que solo deberá realizar una vez. Si tu primera solicitud falla, espera unos minutos y vuelve a intentarlo. Las solicitudes de evaluación posteriores suelen completarse en 60 segundos.

Los tokens de entrada y salida máximos están limitados para las métricas basadas en modelo según el modelo que se usa como evaluador automático. Consulta Información del modelo | IA generativa en Vertex AI | Google Cloud para conocer los límites de los modelos relevantes.

Cuotas de evaluación de canalizaciones

Si recibes un error relacionado con las cuotas mientras usas el servicio de canalizaciones de evaluación, es posible que debas presentar una solicitud de aumento de cuota. Consulta Ve y administra cuotas para obtener más información.

El servicio de canalizaciones de evaluación usa Vertex AI Pipelines para ejecutar PipelineJobs. Consulta las cuotas relevantes para Vertex AI Pipelines. Las siguientes son recomendaciones generales de cuota:

Servicio Cuota Recomendación
La API de Vertex AI Trabajos de predicción por lotes de LLM simultáneos por región Por puntos: 1 * num_concurrent_pipelines

Por pares: 2 * num_concurrent_pipelines
La API de Vertex AI Solicitudes de evaluación por minuto, por región 1,000 * num_concurrent_pipelines

Además, cuando se calculan las métricas de evaluación basadas en modelos, el evaluador automático puede alcanzar problemas de cuota. La cuota relevante depende del evaluador automático que se usó:

Tasks Cuota Modelo de base Recomendación
summarization
question_answering
Solicitudes de predicción en línea por modelo base por minuto, por región y por base_model text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

Cada trabajo de ajuste usa Vertex AI Pipelines. Para obtener más información, consulta Cuotas y límites de Vertex AI Pipelines.

Aumentos de cuota

Si quieres aumentar tus cuotas para IA generativa en Vertex AI, puedes usar la consola de Google Cloud para solicitar un aumento de la cuota. Para obtener más información sobre las cuotas, consulta Trabaja con cuotas.

¿Qué sigue?