Si le nombre de vos requêtes dépasse la capacité allouée pour les traiter, le code d'erreur 429
est renvoyé. Le tableau suivant affiche le message d'erreur généré par chaque type de framework de quota :
Framework de quota | Message |
---|---|
Paiement à l'usage | Resource exhausted, please try again later. |
Débit provisionné | Too many requests. Exceeded the Provisioned Throughput. |
Si vous disposez d'un abonnement de débit provisionné, vous pouvez réserver un certain débit pour des modèles d'IA générative spécifiques. Si vous ne disposez pas d'un abonnement de débit provisionné et que les ressources ne sont pas disponibles pour votre application, un code d'erreur 429
est renvoyé. Bien que vous ne disposiez pas de capacité réservée, vous pouvez relancer votre requête. Toutefois, la requête n'est pas comptabilisée dans votre taux d'erreur, comme indiqué dans votre contrat de niveau de service (SLA).
Pour les projets ayant acheté un débit provisionné, Vertex AI mesure le débit d'un projet et réserve cette capacité de débit afin qu'il soit disponible. Lorsque vous utilisez moins que le débit acheté, les erreurs qui pourraient être renvoyées en tant qu'erreur 429
sont renvoyées en tant qu'erreur 5XX
et sont comptabilisées dans le taux d'erreur décrit dans l'accord de niveau de service.
Paiement à l'usage
Dans le framework de quota de paiement à l'usage, vous disposez des options suivantes pour résoudre les erreurs 429
:
- Implémentez une stratégie de nouvelle tentative à l'aide d'un intervalle exponentiel tronqué entre les tentatives.
- Si vous avez défini un quota de remplacement défini par le client et que l'avez configuré pour contrôler les coûts, augmentez la limite. Pour en savoir plus, consultez la section Quota partagé dynamique.
- Abonnez-vous au débit provisionné pour un niveau de service plus cohérent. Pour en savoir plus, consultez la section Débit provisionné.
Débit provisionné
Pour corriger l'erreur 429 générée par le débit provisionné, procédez comme suit:
- Utilisez l'exemple de comportement par défaut, qui ne définit pas d'en-tête dans les requêtes de prédiction. Tous les dépassements sont traités à la demande et facturés selon le paiement à l'usage.
- Augmentez le nombre de GSU dans votre abonnement de débit provisionné.
Étape suivante
- Pour en savoir plus sur le quota partagé dynamique, consultez la section Quota partagé dynamique.
- Pour en savoir plus sur le débit provisionné, consultez la section Débit provisionné.
- Pour en savoir plus sur les quotas et les limites de Vertex AI, consultez la section Quotas et limites de Vertex AI.
- Pour en savoir plus sur les Google Cloud quotas et les limites, consultez la section Comprendre les valeurs de quota et les limites du système.