Google Cloud usa cuotas para garantizar la equidad y reducir los aumentos repentinos en el uso y la disponibilidad de los recursos. Una cuota restringe la cantidad de un recurso de Google Cloud que puede usar tu proyecto de Google Cloud. Las cuotas se aplican a una variedad de tipos de recursos, incluidos los componentes de hardware, software y red. Por ejemplo, las cuotas pueden restringir la cantidad de llamadas a la API para un servicio, la cantidad de balanceadores de cargas que se usan en simultáneo en tu proyecto o la cantidad de proyectos que puedes crear. Las cuotas protegen a la comunidad de usuarios de Google Cloud mediante la prevención de la sobrecarga de los servicios. También te ayudan a administrar tus propios recursos de Google Cloud.
El sistema de cuotas Cloud realiza las siguientes acciones:
- Supervisa el consumo de productos y servicios de Google Cloud.
- Restringe el consumo de esos recursos.
- Proporciona un medio para solicitar cambios en el valor de la cuota.
En la mayoría de los casos, cuando intentas consumir más de lo que permite la cuota de un recurso, el sistema bloquea el acceso al recurso, y la tarea que intentas realizar falla.
Por lo general, las cuotas se aplican a nivel del proyecto de Google Cloud. El uso de un recurso en un proyecto no afecta tu cuota disponible en otro proyecto. Dentro de un proyecto de Google Cloud, las cuotas se comparten entre todas las aplicaciones y direcciones IP.
Límites de frecuencia
En esta tabla, se enumeran los límites de frecuencia que se aplican a los siguientes modelos en todas las regiones para la métricagenerate_content_input_tokens_per_minute_per_base_model
:
Modelo base | Tokens por minuto |
---|---|
base_model: gemini-1.5-flash |
4M (4,000,000) |
base_model: gemini-1.5-pro |
4M (4,000,000) |
Para obtener información sobre la cuota de la versión 002 de Gemini 1.5 Flash (gemini-1.5-flash-002
) y Gemini 1.5 Pro (gemini-1.5-pro-002
), consulta Modelos de Google.
Cuotas por región y modelo
La cuota de consultas por minuto (QPM) se aplica a un modelo base y a todas las versiones, identificadores y versiones ajustadas de ese modelo. En los siguientes ejemplos, se muestra cómo se aplica la cuota de RPM:- Una solicitud al modelo base,
gemini-1.0-pro
, y una solicitud a su versión estable,gemini-1.0-pro-001
, se cuentan como dos solicitudes a la cuota de RPM del modelo base,gemini-1.0-pro
. - Una solicitud a dos versiones de un modelo base, "gemini-1.0-pro-001" y "gemini-1.0-pro-002", se cuenta como dos solicitudes a la cuota de RPM del modelo base, "gemini-1.0-pro".
- Una solicitud a dos versiones de un modelo base, "gemini-1.0-pro-001" y una versión ajustada llamada "my-tuned-chat-model", se cuenta como dos solicitudes para el modelo base, "gemini-1.0-pro".
Consulta las cuotas en la consola de Google Cloud
Para ver las cuotas en la consola de Google Cloud, haz lo siguiente:- En la consola de Google Cloud, ve a la página Cuotas de IAM y administración.
- Haz clic en Ver cuotas en la consola.
- En el campo Filtro, especifica la dimensión o métrica.
Dimension (model identifier) | Métrica (identificador de cuota para modelos de Gemini) |
---|---|
base_model: gemini-1.5-flash base_model: gemini-1.5-pro |
Puedes solicitar ajustes en los siguientes aspectos:
|
Todos los demás modelos | Solo puedes ajustar una cuota:
|
Consulta las cuotas por región y por modelo
Elige una región para ver los límites de cuota de cada modelo disponible:
Aumenta las cuotas
Si quieres aumentar tus cuotas para IA generativa en Vertex AI, puedes usar la consola de Google Cloud para solicitar un aumento de la cuota. Para obtener más información sobre las cuotas, consulta Trabaja con cuotas.
Cuotas de RAG Engine
Para que cada servicio realice la generación de aumento de recuperación (RAG) con el motor de RAG, se aplican las siguientes cuotas, que se miden como solicitudes por minuto (RPM).Servicio | Cuota | Métrica |
---|---|---|
APIs de administración de datos de RAG Engine | 60 rpm | VertexRagDataService requests per minute per region |
API RetrievalContexts |
1,500 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1,500 RPM | Online prediction requests per base model per minute per region per base_model Un filtro adicional que puedes especificar es base_model: textembedding-gecko |
Servicio | Límite | Métrica |
---|---|---|
Solicitudes ImportRagFiles simultáneas |
3 rpm | VertexRagService concurrent import requests per region |
Cantidad máxima de archivos por solicitud ImportRagFiles |
10,000 | VertexRagService import rag files requests per region |
Para obtener más información sobre los límites de frecuencia y las cuotas, consulta Límites de frecuencia de la IA generativa en Vertex AI.
Solicitudes por lotes
Las cuotas y los límites de las solicitudes por lotes son los mismos en todas las regiones.Solicitudes por lotes simultáneas
En la siguiente tabla, se enumeran las cuotas de la cantidad de solicitudes por lotes simultáneas:Cuota | Valor |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/gemini_flash_concurrent_batch_prediction_jobs |
4 |
Límites de solicitudes por lotes
En la siguiente tabla, se muestra el límite de tamaño de cada solicitud de generación de texto por lotes.Modelo | Límite |
---|---|
gemini-1.5-pro |
50,000 registros |
gemini-1.5-flash |
150,000 registros |
gemini-1.0-pro |
150,000 registros |
gemini-1.0-pro-vision |
50,000 registros |
Cuotas de un modelo entrenado personalizado
Las siguientes cuotas se aplican a los modelos generativos de IA de Vertex AI para un proyecto y una región determinados:Cuota | Valor |
---|---|
Núcleos de pods de TPU V3 de entrenamiento de imagen restringido por región *Región compatible: europe-west4 |
64 |
GPU Nvidia A100 de 80 GB de entrenamiento de imagen restringido por región * Región compatible: us-central1 * Región compatible: us-east4 |
8 2 |
Límites de embedding de texto
Cada solicitud de modelo de incorporación de texto puede tener hasta 250 textos de entrada (generando 1 incorporación por texto de entrada) y 20,000 tokens por solicitud. Solo se usan los primeros 2,048 tokens de cada texto de entrada para calcular las incorporaciones.
Cuotas de Gen AI Evaluation Service
El servicio de evaluación de IA generativa usagemini-1.5-pro
como modelo de juez y mecanismos para garantizar una evaluación coherente y objetiva de las métricas basadas en modelos.
Una sola solicitud de evaluación para una métrica basada en modelos puede dar como resultado varias solicitudes subyacentes al servicio de evaluación de IA generativa. La cuota de cada modelo se calcula por proyecto, lo que significa que cualquier solicitud dirigida a gemini-1.5-pro
para la inferencia de modelo y la evaluación basada en modelos contribuyen a la cuota. Las distintas cuotas de modelos se configuran de manera diferente. La cuota del servicio de evaluación de IA generativa y la cuota del modelo de evaluador automático subyacente se muestran en la tabla.
Solicita una cuota | Cuota predeterminada |
---|---|
Solicitudes de Gen AI Evaluation Service por minuto | 1,000 solicitudes por proyecto y por región |
Solicitudes de predicción en línea por minuto para base_model: gemini-1.5-pro |
Consulta Cuotas por región y modelo. |
Límite | Valor |
---|---|
Tiempo de espera de la solicitud de Gen AI Evaluation Service | 60 segundos |
Cuotas de evaluación de canalizaciones
Si recibes un error relacionado con las cuotas mientras usas el servicio de canalizaciones de evaluación, es posible que debas presentar una solicitud de aumento de cuota. Consulta Ve y administra cuotas para obtener más información. El servicio de canalizaciones de evaluación usa Vertex AI Pipelines para ejecutarPipelineJobs
. Consulta las cuotas relevantes para Vertex AI Pipelines. Las siguientes son recomendaciones generales de cuota:
Servicio | Cuota | Recomendación |
---|---|---|
La API de Vertex AI | Trabajos de predicción por lotes de LLM simultáneos por región | Por puntos: 1 * num_concurrent_pipelines Por pares: 2 * num_concurrent_pipelines |
La API de Vertex AI | Solicitudes de evaluación por minuto, por región | 1,000 * num_concurrent_pipelines |
Tareas | Cuota | Modelo base | Recomendación |
---|---|---|---|
summarization question_answering |
Solicitudes de predicción en línea por modelo base por minuto, por región y por base_model | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
Cada trabajo de ajuste usa Vertex AI Pipelines. Para obtener más información, consulta Cuotas y límites de Vertex AI Pipelines.
Motor de razonamiento Vertex AI
Los siguientes límites y cuotas se aplican a Vertex AI Reasoning Engine para un proyecto determinado en cada región.Cuota | Valor |
---|---|
Cantidad de motores de razonamiento creados, borrados o actualizados por minuto | 10 |
Consultas a Reasoning Engine por minuto | 60 |
Cantidad máxima de recursos de Reasoning Engine | 100 |
Cómo solucionar problemas relacionados con el código de error 429
Para solucionar el error 429, consulta Código de error 429.
¿Qué sigue?
- Para obtener más información sobre la cuota compartida dinámica, consulta Cuota compartida dinámica.
- Para obtener información sobre las cuotas y los límites de Vertex AI, consulta Cuotas y límites de Vertex AI.
- Para obtener más información sobre las cuotas y los límites de Google Cloud, consulta Obtén información sobre los valores de cuota y los límites del sistema.