Un quota limite la quantité d'une ressource Google Cloud partagée particulière que votre projet Google Cloud peut utiliser, y compris les composants matériels, logiciels et réseau. Par conséquent, les quotas font partie d'un système qui effectue les opérations suivantes :
- Surveille votre utilisation ou votre consommation des produits et services Google Cloud
- Limite la consommation de ces ressources pour des raisons telles que l'équité et la réduction des pics d'utilisation.
- Gère des configurations qui appliquent automatiquement des restrictions recommandées.
- Fournit un moyen de demander ou d'effectuer des modifications de quota.
Dans la plupart des cas, lorsqu'un quota est dépassé, le système bloque immédiatement l'accès à la ressource Google concernée et la tâche que vous essayez d'effectuer échoue. Dans la plupart des cas, les quotas s'appliquent à chaque projet Google Cloud. Ils sont partagés entre toutes les applications et adresses IP qui utilisent ce projet.
Quotas par région et par modèle
Le quota de requêtes par minute (RPM) s'applique à un modèle de base, ainsi qu'à tous les versions, identifiants et versions réglées de ce modèle. Par exemple, une requête envoyée à text-bison
et une requête adressée à text-bison@001
sont comptabilisées comme deux requêtes dans le quota de RPM du modèle de base, text-bison
. De même, une requête envoyée à text-bison@001
et text-bison@002
est comptabilisée comme deux requêtes dans le quota de RPM du modèle de base, text-bison
. Il en va de même pour les modèles réglés. Par conséquent, une requête envoyée à chat-bison@002
et un modèle réglé basé sur chat-bison@002
nommé my-tuned-chat-model
sont comptabilisées comme deux requêtes vers le modèle de base, chat-bison
.
Les quotas s'appliquent aux requêtes d'IA générative sur Vertex AI pour un projet Google Cloud et une région compatibles.
Pour afficher les quotas dans la console Google Cloud, procédez comme suit :
- Dans la console Google Cloud, accédez à la page des Quotas IAM et administration.
Dans le champ Filtre, spécifiez la dimension ou la métrique.
Dimension : Identifiant du modèle. Par exemple,
base_model:gemini-1.0-pro
oubase_model:text-bison
.Métrique : Identifiant de quota.
- Pour les modèles Gemini :
aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
- Pour les modèles PaLM 2 :
aiplatform.googleapis.com/online_prediction_requests_per_base_model
- Pour les modèles Gemini :
Choisissez une région pour afficher les limites de quota pour chaque modèle disponible :
Quotas par lots
Les quotas et limites suivants sont identiques dans les différentes régions pour les jobs de prédiction par lot de l'IA générative sur Vertex AI :
Quota | Value (Valeur) |
---|---|
text_bison_concurrent_batch_prediction_jobs |
4 |
code_bison_concurrent_batch_prediction_jobs |
4 |
textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Quotas de modèles entraînés personnalisés
Les quotas suivants s'appliquent aux modèles réglés de l'IA générative sur Vertex AI pour un projet et une région donnés:
Quota | Valeur |
---|---|
Cœurs de pods TPU V3 d'entraînement d'image restreint par région * Région compatible - europe-west4 |
64 |
GPU Nvidia A100 80 Go pour l'entraînement d'images restreint par région * Région compatible - us-central1 * Région compatible - us-east4 |
8 2 |
* Les scénarios de réglage comportent des réservations d'accélérateurs dans des régions spécifiques. Les quotas de réglage sont compatibles et doivent être demandés dans des régions spécifiques.
Quotas d'évaluation en ligne
Le service d'évaluation en ligne utilise le modèle text-bison
en tant qu'outil d'évaluation automatique avec des requêtes et des mécanismes IP Google pour garantir une évaluation cohérente et objective des métriques basées sur les modèles.
Une seule requête d'évaluation pour une métrique basée sur un modèle peut entraîner plusieurs requêtes sous-jacentes adressées au service de prédiction en ligne. Le quota de chaque modèle est calculé par projet, ce qui signifie que toutes les requêtes dirigées vers text-bison
pour l'inférence de modèle et l'évaluation basée sur les modèles contribuent au quota. Différents quotas de modèles sont définis différemment. Le quota pour le service d'évaluation et le quota pour le modèle d'outil d'évaluation automatique sous-jacent sont affichés dans le tableau.
Quota de requêtes | Quota par défaut |
---|---|
Requêtes du service d'évaluation en ligne par minute | 1 000 requêtes par projet et par région |
Requêtes de prédiction en ligne par minute pour base_model : text-bison |
1 600 requêtes par projet et par région |
Si vous recevez une erreur liée aux quotas lors de l'utilisation du service d'évaluation en ligne, vous devrez peut-être envoyer une demande d'augmentation de quota. Pour en savoir plus, consultez la page Afficher et gérer les quotas.
Limite | Valeur |
---|---|
Délai avant expiration de la requête du service d'évaluation en ligne | 60 secondes |
Les nouveaux utilisateurs du service d'évaluation en ligne dans un nouveau projet peuvent rencontrer un délai de configuration initiale généralement de deux minutes. Cette procédure est effectuée une seule fois. Si votre première requête échoue, attendez quelques minutes, puis réessayez. Les requêtes d'évaluation ultérieures sont généralement traitées dans un délai de 60 secondes.
Le nombre maximal de jetons d'entrée et de sortie est limité pour les métriques basées sur un modèle, comme c'est le cas pour le modèle utilisé en tant qu'outil d'évaluation automatique. Voir Informations sur le modèle | IA générative sur Vertex AI | Google Cloud pour connaître les limites des modèles pertinents.
Quotas de LlamaIndex sur Vertex AI
Les quotas suivants s'appliquent à la génération de récupération-augmentation (RAG) à l'aide de LlamaIndex sur Vertex AI :
Service | Quota |
---|---|
LlamaIndex sur les API de gestion des données Vertex AI | 60 requêtes par minute (RPM) |
RetrievalContexts API |
1 500 RPM |
Ingestion de données | 1 000 fichiers |
Le quota de l'API de représentation vectorielle continue de texte textembedding-gecko@003
est utilisé pour l'indexation de documents. Pensez à augmenter le quota pour optimiser les performances d'indexation.
Quotas d'évaluation de pipeline
Si vous recevez une erreur liée aux quotas lors de l'utilisation du service de pipelines d'évaluation, vous devrez peut-être envoyer une demande d'augmentation de quota. Pour en savoir plus, consultez la page Afficher et gérer les quotas.
Le service de pipelines d'évaluation utilise Vertex AI Pipelines pour exécuter PipelineJobs
. Consultez les quotas correspondants pour Vertex AI Pipelines. Voici les recommandations générales de quotas:
Service | Quota | Recommandation |
---|---|---|
API Vertex AI | Tâches de prédiction par lot LLM simultanées par région | Par point : 1 * num_concurrent_pipelines Par pair : 2 * num_concurrent_pipelines |
API Vertex AI | Requêtes d'évaluation par minute et par région | 1000 * num_concurrent_pipelines |
En outre, lors du calcul des métriques d'évaluation basées sur un modèle, l'outil d'évaluation automatique peut rencontrer des problèmes de quota. Le quota approprié dépend de l'outil d'évaluation automatique utilisé:
Tâches | Quota | Modèle de base | Recommandation |
---|---|---|---|
summarization question_answering |
Requêtes de prédiction en ligne par modèle de base par minute, par région et par base_model | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
Chaque tâche de réglage utilise Vertex AI Pipelines. Pour en savoir plus, consultez les quotas et limites de Vertex AI Pipelines.
Augmentation des quotas
Si vous souhaitez augmenter vos quotas pour l'IA générative sur Vertex AI, vous pouvez en faire la demande via la console Google Cloud. Pour en savoir plus sur les quotas, consultez la page Utiliser des quotas.
Étapes suivantes
- En savoir plus sur les quotas et limites de Vertex AI