Límites de cuota para modelos heredados

En esta página, se proporciona información sobre las cuotas y los límites de los modelos heredados. Los modelos de una familia de modelos heredados ya no se actualizan con nuevas versiones estables. Para obtener más detalles, consulta Información del modelo heredado.

Google Cloud usa cuotas para garantizar la equidad y reducir los aumentos repentinos en el uso y la disponibilidad de los recursos. Una cuota restringe la cantidad de un recurso de Google Cloud que puede usar tu proyecto de Google Cloud. Las cuotas se aplican a una variedad de tipos de recursos, incluidos los componentes de hardware, software y red. Por ejemplo, las cuotas pueden restringir la cantidad de llamadas a la API para un servicio, la cantidad de balanceadores de cargas que se usan en simultáneo en tu proyecto o la cantidad de proyectos que puedes crear. Las cuotas protegen a la comunidad de usuarios de Google Cloud mediante la prevención de la sobrecarga de los servicios. También te ayudan a administrar tus propios recursos de Google Cloud.

El sistema de cuotas Cloud realiza las siguientes acciones:

  • Supervisa el consumo de productos y servicios de Google Cloud.
  • Restringe el consumo de esos recursos.
  • Proporciona un medio para solicitar cambios en el valor de la cuota.

En la mayoría de los casos, cuando intentas consumir más de lo que permite la cuota de un recurso, el sistema bloquea el acceso al recurso, y la tarea que intentas realizar falla.

Por lo general, las cuotas se aplican a nivel del proyecto de Google Cloud. El uso de un recurso en un proyecto no afecta tu cuota disponible en otro proyecto. Dentro de un proyecto de Google Cloud, las cuotas se comparten entre todas las aplicaciones y direcciones IP.

Cuotas por región y modelo

La cuota de consultas por minuto (QPM) se aplica a un modelo base y a todas las versiones, identificadores y versiones ajustadas de ese modelo. Por ejemplo, una solicitud a text-bison y una solicitud a text-bison@002 se cuentan como dos solicitudes a la cuota de RPM del modelo base, text-bison. Lo mismo se aplica a los modelos ajustados, por lo que una solicitud a chat-bison@002 y un modelo ajustado basado en chat-bison@002 llamado my-tuned-chat-model se cuentan como dos solicitudes para el modelo base, chat-bison.

Las cuotas se aplican a las solicitudes de IA generativa en Vertex AI para un proyecto de Google Cloud determinado y una región compatible.

Para ver las cuotas en la consola de Google Cloud, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Cuotas de IAM y administración.

    Ver cuotas en la consola

  2. En el campo Filtro, especifica la dimensión o métrica.

    • Dimensión: El identificador de modelo. Por ejemplo, base_model:gemini-1.0-pro o base_model:text-bison.

    • Métrica: El identificador de cuota para los modelos de PaLM 2 es aiplatform.googleapis.com/online_prediction_requests_per_base_model.

Elige una región para ver los límites de cuota de cada modelo disponible:

Cuotas por lotes

Los siguientes límites y cuotas son los mismos en todas las regiones para los trabajos de predicción por lotes de la IA generativa en Vertex AI:

Cuota Valor
text_bison_concurrent_batch_prediction_jobs 4
code_bison_concurrent_batch_prediction_jobs 4

Cuotas de un modelo entrenado personalizado

Las siguientes cuotas se aplican a los modelos generativos de IA de Vertex AI para un proyecto y una región determinados:

Cuota Valor
Núcleos de pods de TPU V3 de entrenamiento de imagen restringido por región
*Región compatible: europe-west4
64
GPU Nvidia A100 de 80 GB de entrenamiento de imagen restringido por región
*Región compatible: us-central1
* Región compatible: us-east4

8
2

* Las situaciones de ajuste tienen reservas de aceleradores en regiones específicas. Las cuotas para el ajuste son compatibles y deben solicitarse en regiones específicas.

Cuotas de evaluación en línea

El servicio en línea de evaluación usa el modelo text-bison como evaluador automático con mecanismos e instrucciones IP de Google para garantizar una evaluación coherente y objetiva de las métricas basadas en modelos.

Una sola solicitud de evaluación para una métrica basada en modelos puede dar como resultado varias solicitudes subyacentes al servicio de predicción en línea. La cuota de cada modelo se calcula por proyecto, lo que significa que cualquier solicitud dirigida a text-bison para la inferencia de modelo y la evaluación basada en modelos contribuyen a la cuota. Las distintas cuotas de modelos se configuran de manera diferente. La cuota del servicio de evaluación y la cuota del modelo de evaluador automático subyacente se muestran en la tabla.

Cuota de solicitudes Cuota predeterminada
Solicitudes de servicio de evaluación en línea por minuto 1,000 solicitudes por proyecto y por región
Solicitudes de predicción en línea por minuto para base_model, base_model: text-bison 1,600 solicitudes por proyecto por región

Si recibes un error relacionado con las cuotas mientras usas el servicio en línea de evaluación, es posible que debas presentar una solicitud de aumento de cuota. Consulta Ve y administra cuotas para obtener más información.

Límite Valor
Tiempo de espera de la solicitud del servicio de evaluación en línea 60 segundos

Los usuarios nuevos del servicio de evaluación en línea dentro de un proyecto nuevo pueden experimentar un retraso de configuración inicial de hasta dos minutos. Este es un proceso que solo deberá realizar una vez. Si tu primera solicitud falla, espera unos minutos y vuelve a intentarlo. Las solicitudes de evaluación posteriores suelen completarse en 60 segundos.

Los tokens de entrada y salida máximos están limitados para las métricas basadas en modelo según el modelo que se usa como evaluador automático. Consulta Información del modelo | IA generativa en Vertex AI | Google Cloud para conocer los límites de los modelos relevantes.

Cuotas de evaluación de canalizaciones

Si recibes un error relacionado con las cuotas mientras usas el servicio de canalizaciones de evaluación, es posible que debas presentar una solicitud de aumento de cuota. Consulta Ve y administra cuotas para obtener más información.

El servicio de canalizaciones de evaluación usa Vertex AI Pipelines para ejecutar PipelineJobs. Consulta las cuotas relevantes para Vertex AI Pipelines. Las siguientes son recomendaciones generales de cuota:

Servicio Cuota Recomendación
La API de Vertex AI Trabajos de predicción por lotes de LLM simultáneos por región Por puntos: 1 * num_concurrent_pipelines

Por pares: 2 * num_concurrent_pipelines
La API de Vertex AI Solicitudes de evaluación por minuto, por región 1,000 * num_concurrent_pipelines

Además, cuando se calculan las métricas de evaluación basadas en modelos, el evaluador automático puede alcanzar problemas de cuota. La cuota relevante depende del evaluador automático que se usó:

Tasks Cuota Modelo de base Recomendación
summarization
question_answering
Solicitudes de predicción en línea por modelo base por minuto, por región y por base_model text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

Cada trabajo de ajuste usa Vertex AI Pipelines. Para obtener más información, consulta Cuotas y límites de Vertex AI Pipelines.

Aumentos de cuota

Si quieres aumentar tus cuotas para IA generativa en Vertex AI, puedes usar la consola de Google Cloud para solicitar un aumento de la cuota. Para obtener más información sobre las cuotas, consulta Trabaja con cuotas.

¿Qué sigue?