Limites de débit de l'IA générative sur Vertex AI

Google Cloud utilise des quotas pour garantir l'équité et réduire les pics d'utilisation et de disponibilité des ressources. Un quota limite la quantité de ressources Google Cloud que votre projet Google Cloud peut utiliser. Les quotas s'appliquent à différents types de ressources, y compris les composants matériels, logiciels et réseau. Par exemple, les quotas peuvent limiter le nombre d'appels d'API à un service, le nombre d'équilibreurs de charge utilisés simultanément par votre projet ou le nombre de projets que vous pouvez créer. Les quotas protègent la communauté des utilisateurs de Google Cloud en empêchant la surcharge des services. Les quotas vous aident également à gérer vos propres ressources Google Cloud.

Le système Cloud Quotas effectue les opérations suivantes :

  • Surveille votre consommation de produits et services Google Cloud
  • Limite votre consommation de ces ressources
  • Permet de demander des modifications de la valeur du quota

Dans la plupart des cas, lorsque vous tentez d'utiliser plus d'une ressource que son quota ne le permet, le système bloque l'accès à la ressource et la tâche que vous essayez d'effectuer échoue.

Les quotas s'appliquent généralement au niveau du projet Google Cloud. Votre utilisation d'une ressource dans un projet n'affecte pas votre quota disponible dans un autre projet. Dans un projet Google Cloud, les quotas sont partagés entre toutes les applications et adresses IP.

Quotas par région et par modèle

Le quota de requêtes par minute (RPM) s'applique à un modèle de base, ainsi qu'à tous les versions, identifiants et versions réglées de ce modèle. Les exemples suivants montrent comment le quota de RPM est appliqué :

  • Une requête envoyée au modèle de base, gemini-1.0-pro, et une requête adressée à sa version stable, gemini-1.0-pro-001, sont comptabilisées comme deux requêtes dans le quota de RPM du modèle de base, gemini-1.0-pro.

  • Une requête envoyée à deux versions d'un modèle de base, gemini-1.0-pro-001 et gemini-1.0-pro-002, est comptabilisée comme deux requêtes dans le quota de RPM du modèle de base, gemini-1.0-pro.

  • Une requête envoyée à deux versions d'un modèle de base, gemini-1.0-pro-001 et une version réglée nommée my-tuned-chat-model, est comptabilisée comme deux requêtes vers le modèle de base, gemini-1.0-pro.

Les quotas s'appliquent aux requêtes d'IA générative sur Vertex AI pour un projet Google Cloud et une région compatibles.

Afficher les quotas dans la console Google Cloud

Pour afficher les quotas dans la console Google Cloud, procédez comme suit :

  1. Dans la console Google Cloud, accédez à la page des Quotas IAM et administration.

    Afficher les quotas dans la console

  2. Dans le champ Filtre, spécifiez la dimension ou la métrique.
Dimension (identifiant du modèle) Métrique (identifiant de quota pour les modèles Gemini)
base_model: gemini-1.5-flash
base_model: gemini-1.5-pro
Vous pouvez demander des ajustements dans les éléments suivants :
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
  • aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model
Tous les autres modèles Vous ne pouvez ajuster qu'un seul quota :
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model

Choisissez une région pour afficher les limites de quota pour chaque modèle disponible :

Limites de débit

Les limites de débit suivantes s'appliquent aux modèles listés dans toutes les régions pour la métrique generate_content_input_tokens_per_minute_per_base_model :

Modèle de base Jetons par minute
base_model: gemini-1.5-flash 4M (4 000 000)
base_model: gemini-1.5-pro 4M (4 000 000)

Requêtes par lot

Les quotas et les limites des requêtes par lot sont les mêmes dans toutes les régions.

Requêtes par lot simultanées

Le tableau suivant répertorie les quotas pour le nombre de requêtes par lot simultanées :

Quota Valeur
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/model_garden_oss_concurrent_batch_prediction_jobs 1
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs 1

Si le nombre de tâches envoyées dépasse le quota alloué, elles sont placées dans une file d'attente et traitées lorsque la capacité de quota devient disponible.

Limites des requêtes par lot

Le tableau suivant répertorie la taille maximale de chaque requête de génération de texte par lot.

Modèle Limite
gemini-1.5-pro 50 000 enregistrements
gemini-1.5-flash 150 000 enregistrements
gemini-1.0-pro 150 000 enregistrements
gemini-1.0-pro-vision 50 000 enregistrements

Quotas de modèles entraînés personnalisés

Les quotas suivants s'appliquent aux modèles réglés de l'IA générative sur Vertex AI pour un projet et une région donnés:

Quota Valeur
Cœurs de pods TPU V3 d'entraînement d'image restreint par région
* Région compatible - europe-west4
64
GPU Nvidia A100 80 Go pour l'entraînement d'images restreint par région
* Région compatible - us-central1
* Région compatible - us-east4

8
2

* Les scénarios de réglage comportent des réservations d'accélérateurs dans des régions spécifiques. Les quotas de réglage sont compatibles et doivent être demandés dans des régions spécifiques.

Limites d'embedding textuel

Lorsque vous utilisez le modèle text-embedding-004 dans la région us-central1, le nombre maximal de textes d'entrée est de 250. Dans les autres régions, le nombre maximal de textes d'entrée est de cinq.

Chaque texte d'entrée a une limite de 2 048 jetons.

Quotas de Gen AI Evaluation Service

Gen AI Evaluation Service utilise gemini-1.5-pro comme modèle d'évaluation et des mécanismes pour garantir une évaluation cohérente et objective des métriques basées sur les modèles.

Une seule requête d'évaluation pour une métrique basée sur un modèle peut entraîner plusieurs requêtes sous-jacentes adressées à Gen AI Evaluation Service Le quota de chaque modèle est calculé par projet, ce qui signifie que toutes les requêtes dirigées vers gemini-1.5-pro pour l'inférence de modèle et l'évaluation basée sur les modèles contribuent au quota. Différents quotas de modèles sont définis différemment. Le quota pour le service d'évaluation et le quota pour le modèle d'outil d'évaluation automatique sous-jacent sont affichés dans le tableau.

Quota de requêtes Quota par défaut
Requêtes de Gen AI Evaluation Service par minute 1 000 requêtes par projet et par région
Requêtes de prédiction en ligne par minute pour base_model: gemini-1.5-pro Consultez la section Quotas par région et par modèle.

Si vous recevez une erreur liée aux quotas lors de l'utilisation de Gen AI Evaluation Service, vous devrez peut-être envoyer une demande d'augmentation de quota. Pour en savoir plus, consultez la page Afficher et gérer les quotas.

Limite Valeur
Délai de requête Gen AI Evaluation Service 60 secondes

Pour les nouveaux utilisateurs de Gen AI Evaluation Service dans un nouveau projet, le délai de configuration initiale est généralement de deux minutes. Cette procédure est effectuée une seule fois. Si votre première requête échoue, attendez quelques minutes, puis réessayez. Les requêtes d'évaluation ultérieures sont généralement traitées dans un délai de 60 secondes.

Le nombre maximal de jetons d'entrée et de sortie est limité pour les métriques basées sur un modèle, comme c'est le cas pour le modèle utilisé en tant qu'outil d'évaluation automatique. Voir Informations sur le modèle | IA générative sur Vertex AI | Google Cloud pour connaître les limites des modèles pertinents.

Quotas LlamaIndex sur Vertex AI pour le RAG

Les quotas suivants s'appliquent à la génération de récupération-augmentation (RAG) à l'aide de LlamaIndex sur Vertex AI :

Service Quota
LlamaIndex sur les API de gestion des données Vertex AI 60 requêtes par minute (RPM)
RetrievalContexts API 1 500 RPM
base_model: textembedding-gecko 1 500 RPM
Requêtes de prédiction en ligne1 30 000 RPM
Ingestion de données 1 000 fichiers

1 Ce quota s'applique uniquement aux points de terminaison publics. Les points de terminaison privés ont un nombre illimité de requêtes par minute.

Quotas d'évaluation de pipeline

Si vous recevez une erreur liée aux quotas lors de l'utilisation du service de pipelines d'évaluation, vous devrez peut-être envoyer une demande d'augmentation de quota. Pour en savoir plus, consultez la page Afficher et gérer les quotas.

Le service de pipelines d'évaluation utilise Vertex AI Pipelines pour exécuter PipelineJobs. Consultez les quotas correspondants pour Vertex AI Pipelines. Voici les recommandations générales de quotas:

Service Quota Recommandation
API Vertex AI Tâches de prédiction par lot LLM simultanées par région Par point : 1 * num_concurrent_pipelines

Par pair : 2 * num_concurrent_pipelines
API Vertex AI Requêtes d'évaluation par minute et par région 1000 * num_concurrent_pipelines

En outre, lors du calcul des métriques d'évaluation basées sur un modèle, l'outil d'évaluation automatique peut rencontrer des problèmes de quota. Le quota approprié dépend de l'outil d'évaluation automatique utilisé:

Tâches Quota Modèle de base Recommandation
summarization
question_answering
Requêtes de prédiction en ligne par modèle de base par minute, par région et par base_model text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

Chaque tâche de réglage utilise Vertex AI Pipelines. Pour en savoir plus, consultez les quotas et limites de Vertex AI Pipelines.

Vertex AI Reasoning Engine

Les quotas et limites suivants s'appliquent à Vertex AI Reasoning Engine pour un projet donné dans chaque région.

Quota Valeur
Nombre d'opérations Lire, Créer, Mettre à jour, Supprimer de Reasoning Engine par minute 10
Nombre de requêtes Reasoning Engine par minute 60
Nombre maximal de ressources Reasoning Engine 100

Code d'erreur 429

Si le nombre de vos requêtes dépasse la capacité allouée pour les traiter, le code d'erreur 429 est renvoyé. Le tableau suivant affiche le message d'erreur généré par chaque type de framework de quota :

Framework de quota Message
Pay-as-you-go Resource exhausted, please try again later.
Débit provisionné Too many requests. Exceeded the provisioned throughput.

Si vous disposez d'un abonnement de débit provisionné, vous pouvez réserver un certain débit pour des modèles d'IA générative spécifiques. Si vous ne disposez pas d'un abonnement de débit provisionné et que les ressources ne sont pas disponibles pour votre application, un code d'erreur 429 est renvoyé. Bien que vous ne disposiez pas de capacité réservée, vous pouvez relancer votre requête. Toutefois, la requête n'est pas comptabilisée dans votre taux d'erreur, comme indiqué dans votre contrat de niveau de service (SLA).

Pour les projets ayant acheté un débit provisionné, Vertex AI mesure le débit d'un projet et réserve cette capacité de débit afin qu'il soit disponible. Lorsque vous utilisez moins que le débit acheté, les erreurs qui pourraient être renvoyées en tant qu'erreur 429 sont renvoyées en tant qu'erreur 5XX et sont comptabilisées dans le taux d'erreur décrit dans l'accord de niveau de service.

Pay-as-you-go

Dans le framework de quota de paiement à l'usage, vous disposez des options suivantes pour résoudre les erreurs 429 :

Débit provisionné

Pour corriger l'erreur générée par le débit provisionné, procédez comme suit :

  • Utilisez l'exemple par défaut, qui ne définit pas d'en-tête dans les requêtes de prédiction. Tous les dépassements sont traités à la demande et facturés selon le paiement à l'usage.
  • Augmentez le nombre de GSU dans votre abonnement de débit provisionné.

Augmentation des quotas

Si vous souhaitez augmenter vos quotas pour l'IA générative sur Vertex AI, vous pouvez en faire la demande via la console Google Cloud. Pour en savoir plus sur les quotas, consultez la page Utiliser des quotas.

Étape suivante