Google Cloud usa cuotas para garantizar la equidad y reducir los aumentos repentinos en el uso y la disponibilidad de los recursos. Una cuota restringe la cantidad de un recurso de Google Cloud que puede usar tu proyecto de Google Cloud. Las cuotas se aplican a una variedad de tipos de recursos, incluidos los componentes de hardware, software y red. Por ejemplo, las cuotas pueden restringir la cantidad de llamadas a la API para un servicio, la cantidad de balanceadores de cargas que se usan en simultáneo en tu proyecto o la cantidad de proyectos que puedes crear. Las cuotas protegen a la comunidad de usuarios de Google Cloud mediante la prevención de la sobrecarga de los servicios. También te ayudan a administrar tus propios recursos de Google Cloud.
El sistema de cuotas Cloud realiza las siguientes acciones:
- Supervisa el consumo de productos y servicios de Google Cloud.
- Restringe el consumo de esos recursos.
- Proporciona un medio para solicitar cambios en el valor de la cuota.
En la mayoría de los casos, cuando intentas consumir más de lo que permite la cuota de un recurso, el sistema bloquea el acceso al recurso, y la tarea que intentas realizar falla.
Por lo general, las cuotas se aplican a nivel del proyecto de Google Cloud. El uso de un recurso en un proyecto no afecta tu cuota disponible en otro proyecto. Dentro de un proyecto de Google Cloud, las cuotas se comparten entre todas las aplicaciones y direcciones IP.
Cuotas por región y modelo
La cuota de consultas por minuto (QPM) se aplica a un modelo base y a todas las versiones, identificadores y versiones ajustadas de ese modelo. Por ejemplo, una solicitud a gemini-1.0-pro
y una solicitud a gemini-1.0-pro-001
se cuentan como dos solicitudes a la cuota de RPM del modelo base, gemini-1.0-pro
.
Del mismo modo, una solicitud a gemini-1.0-pro-001
y gemini-1.0-pro-002
se cuenta como dos solicitudes a la cuota de RPM del modelo base, gemini-1.0-pro
. Lo mismo se aplica a los modelos ajustados, por lo que una solicitud a gemini-1.0-pro-001
y un modelo ajustado basado en gemini-1.0-pro-001
llamado my-tuned-chat-model
se cuentan como dos solicitudes para el modelo base, gemini-1.0-pro
.
Las cuotas se aplican a las solicitudes de IA generativa en Vertex AI para un proyecto de Google Cloud determinado y una región compatible.
Para ver las cuotas en la consola de Google Cloud, haz lo siguiente:
- En la consola de Google Cloud, ve a la página Cuotas de IAM y administración.
- En el campo Filtro, especifica la dimensión o métrica.
Dimensión (identificador de modelo) | Métrica (identificador de cuota para modelos de Gemini) |
---|---|
base_model: gemini-1.5-flash base_model: gemini-1.5-pro |
Puedes solicitar ajustes en los siguientes casos:
|
Todos los demás modelos | Solo puedes ajustar una cuota:
|
Elige una región para ver los límites de cuota de cada modelo disponible:
Límites de frecuencia
Se aplican los siguientes límites de frecuencia a los modelos enumerados en todas las regiones para la métrica, generate_content_input_tokens_per_minute_per_base_model
:
Modelo base | Tokens por minuto |
---|---|
base_model: gemini-1.5-flash |
4M (4,000,000) |
base_model: gemini-1.5-pro |
4M (4,000,000) |
Solicitudes por lotes
Las cuotas y los límites de las solicitudes por lotes son los mismos en todas las regiones.
Solicitudes por lotes simultáneas
En la siguiente tabla, se enumeran las cuotas de la cantidad de solicitudes por lotes simultáneas:
Cuota | Valor |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/model_garden_oss_concurrent_batch_prediction_jobs |
1 |
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs |
1 |
Si la cantidad de tareas enviadas excede la cuota asignada, las tareas se colocan en una cola y se procesan cuando la capacidad de la cuota está disponible.
Límites de solicitudes por lotes
En la siguiente tabla, se muestra el límite de tamaño de cada solicitud de generación de texto por lotes.
Modelo | Límite |
---|---|
gemini-1.5-pro |
50,000 registros |
gemini-1.5-flash |
150,000 registros |
gemini-1.0-pro |
150,000 registros |
gemini-1.0-pro-vision |
50,000 registros |
Cuotas de un modelo entrenado personalizado
Las siguientes cuotas se aplican a los modelos generativos de IA de Vertex AI para un proyecto y una región determinados:
Cuota | Valor |
---|---|
Núcleos de pods de TPU V3 de entrenamiento de imagen restringido por región *Región compatible: europe-west4 |
64 |
GPU Nvidia A100 de 80 GB de entrenamiento de imagen restringido por región *Región compatible: us-central1 * Región compatible: us-east4 |
8 2 |
* Las situaciones de ajuste tienen reservas de aceleradores en regiones específicas. Las cuotas para el ajuste son compatibles y deben solicitarse en regiones específicas.
Cuotas de evaluación en línea
El servicio en línea de evaluación usa el modelo de Gemini 1.5 como evaluador automático con mecanismos e instrucciones IP de Google para garantizar una evaluación coherente y objetiva de las métricas basadas en modelos.
Una sola solicitud de evaluación para una métrica basada en modelos puede dar como resultado varias solicitudes subyacentes al servicio de predicción en línea. La cuota de cada modelo se calcula por proyecto, lo que significa que cualquier solicitud dirigida a Gemini 1.5 para la inferencia de modelo y la evaluación basada en modelos contribuyen a la cuota. Las distintas cuotas de modelos se configuran de manera diferente. La cuota del servicio de evaluación y la cuota del modelo de evaluador automático subyacente se muestran en la tabla.
Cuota de solicitudes | Cuota predeterminada |
---|---|
Solicitudes de servicio de evaluación en línea por minuto | 1,000 solicitudes por proyecto y por región |
Solicitudes de predicción en línea por minuto para base_model: gemini-1.5-pro |
1,600 solicitudes por proyecto por región |
Si recibes un error relacionado con las cuotas mientras usas el servicio en línea de evaluación, es posible que debas presentar una solicitud de aumento de cuota. Consulta Ve y administra cuotas para obtener más información.
Límite | Valor |
---|---|
Tiempo de espera de la solicitud del servicio de evaluación en línea | 60 segundos |
Los usuarios nuevos del servicio de evaluación en línea dentro de un proyecto nuevo pueden experimentar un retraso de configuración inicial de hasta dos minutos. Este es un proceso que solo deberá realizar una vez. Si tu primera solicitud falla, espera unos minutos y vuelve a intentarlo. Las solicitudes de evaluación posteriores suelen completarse en 60 segundos.
Los tokens de entrada y salida máximos están limitados para las métricas basadas en modelo según el modelo que se usa como evaluador automático. Consulta Información del modelo | IA generativa en Vertex AI | Google Cloud para conocer los límites de los modelos relevantes.
LlamaIndex en cuotas de Vertex AI para RAG
Las siguientes cuotas son para realizar la generación de aumento de recuperación (RAG) mediante LlamaIndex en Vertex AI:
Servicio | Cuota |
---|---|
LlamaIndex en las APIs de administración de datos de Vertex AI | 60 solicitudes por minuto (RPM) |
API RetrievalContexts |
1,500 RPM |
base_model: textembedding-gecko |
1,500 RPM |
Solicitudes de predicción en línea 1 | 30,000 RPM |
Transferencia de datos | 1,000 archivos |
1Esta cuota solo se aplica a los extremos públicos. Los extremos privados tienen solicitudes ilimitadas por minuto.
Cuotas de evaluación de canalizaciones
Si recibes un error relacionado con las cuotas mientras usas el servicio de canalizaciones de evaluación, es posible que debas presentar una solicitud de aumento de cuota. Consulta Ve y administra cuotas para obtener más información.
El servicio de canalizaciones de evaluación usa Vertex AI Pipelines para ejecutar PipelineJobs
. Consulta las cuotas relevantes para Vertex AI Pipelines. Las siguientes son recomendaciones generales de cuota:
Servicio | Cuota | Recomendación |
---|---|---|
La API de Vertex AI | Trabajos de predicción por lotes de LLM simultáneos por región | Por puntos: 1 * num_concurrent_pipelines Por pares: 2 * num_concurrent_pipelines |
La API de Vertex AI | Solicitudes de evaluación por minuto, por región | 1,000 * num_concurrent_pipelines |
Además, cuando se calculan las métricas de evaluación basadas en modelos, el evaluador automático puede alcanzar problemas de cuota. La cuota relevante depende del evaluador automático que se usó:
Tasks | Cuota | Modelo de base | Recomendación |
---|---|---|---|
summarization question_answering |
Solicitudes de predicción en línea por modelo base por minuto, por región y por base_model | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
Cada trabajo de ajuste usa Vertex AI Pipelines. Para obtener más información, consulta Cuotas y límites de Vertex AI Pipelines.
Cuota compartida dinámica
Para los servicios que admiten cuotas compartidas dinámicas, Google Cloud distribuye la capacidad según demanda entre todas las consultas que se procesan. Esta función elimina la necesidad de enviar solicitudes de aumento de cuota (QIR).
Si deseas controlar los costos y evitar los excesos de presupuesto, puedes configurar una cuota autoimpuesta llamada anulación de cuota del consumidor. Si deseas obtener más información, consulta Crea una anulación de cuota del consumidor.
Si necesitas tráfico priorizado, usa la capacidad de procesamiento aprovisionada.
También puedes supervisar tu uso a través de Cuotas y límites del sistema en la consola de Google Cloud.
Para obtener información sobre los modelos que admiten la cuota compartida dinámica, consulta Usa los modelos de Claude de Anthropic.
Ejemplo de cómo funciona la cuota compartida dinámica
Google Cloud analiza la capacidad disponible en una región específica, como Norteamérica y, luego, observa cuántos clientes envían solicitudes. Considera el cliente A, que envía 25 consultas por minuto (QPM) y el cliente B, que envía 25 QPM. El servicio puede admitir 100 QPM. Si el cliente A aumenta la frecuencia de sus consultas a 75 QPM, la cuota compartida dinámica admite el aumento. Si el cliente A aumenta la frecuencia de sus consultas a 100 QPM, la cuota compartida dinámica limita al cliente A a 75 QPM para seguir entregando al cliente B a 25 QPM.
Para solucionar errores que pueden ocurrir con el uso de la cuota compartida dinámica, consulta Soluciona problemas de errores de cuota.
Código de error 429
Si la cantidad de solicitudes supera la capacidad asignada para procesar solicitudes, se muestra el código de error 429
. En la siguiente tabla, se muestra el mensaje de error que genera cada tipo de framework de cuota:
Marco de trabajo de cuotas | Mensaje |
---|---|
Pay-as-you-go | Resource exhausted, please try again later. |
Capacidad de procesamiento aprovisionada | Too many requests. Exceeded the provisioned throughput. |
Con una suscripción de capacidad de procesamiento aprovisionada, puedes reservar una cantidad de capacidad de procesamiento para modelos de IA generativa específicos. Si no tienes una suscripción a la capacidad de procesamiento aprovisionada y los recursos no están disponibles para tu aplicación, se muestra un código de error 429
. Aunque no tengas capacidad reservada, puedes volver a enviar la solicitud. Sin embargo, la solicitud no se toma en cuenta en la tasa de error, como se describe en el Acuerdo de Nivel de Servicio (ANS).
En el caso de los proyectos que compraron el rendimiento aprovisionado, Vertex AI mide el rendimiento de un proyecto y reserva esa cantidad de rendimiento para que esté disponible. Cuando usas menos del importe de rendimiento comprado, los errores que, de otro modo, se mostrarían como 429
se muestran como 5XX
y se registran como parte del porcentaje de errores que se describe en el ANS.
Pay-as-you-go
En el framework de cuota de prepago, tienes las siguientes opciones para resolver los errores 429
:
- Implementa una estrategia de reintento con la retirada exponencial truncada.
- Si configuraste una anulación del consumidor y la configuraste para controlar el costo, aumenta el límite. Para obtener más información, consulta Cuota compartida dinámica.
- Suscríbete a la capacidad de procesamiento aprovisionada para obtener un nivel de servicio más coherente. Para obtener más información, consulta Capacidad de procesamiento aprovisionada.
Capacidad de procesamiento aprovisionada
Para corregir el error que genera la capacidad de procesamiento aprovisionada, haz lo siguiente:
- Usa el ejemplo predeterminado, que no establece un encabezado en las solicitudes de predicción. Cualquier excedente se procesa a pedido y se factura como pago por uso.
- Aumenta la cantidad de GSU en tu suscripción a la capacidad de procesamiento aprovisionada.
Aumentos de cuota
Si quieres aumentar tus cuotas para IA generativa en Vertex AI, puedes usar la consola de Google Cloud para solicitar un aumento de la cuota. Para obtener más información sobre las cuotas, consulta Trabaja con cuotas.
¿Qué sigue?
- Obtén más información sobre las cuotas y límites de Vertex AI.
- Obtén más información sobre las cuotas y límites de Google Cloud.