Lorsque le nombre de requêtes envoyées à un modèle dépasse la capacité de traitement disponible, Vertex AI renvoie un code d'erreur 429
, indiquant que la ressource est épuisée. Le message d'erreur spécifique et le chemin de résolution dépendent de l'utilisation du service de paiement à l'usage ou de l'achat du débit provisionné.
Comprendre l'erreur 429
Le tableau suivant compare la gestion de l'erreur 429
dans les frameworks de quota de paiement à l'usage et de quota de débit provisionné.
Fonctionnalité | Paiement à l'usage | Débit provisionné |
---|---|---|
Message d'erreur | Resource exhausted, please try again later. |
Too many requests. Exceeded the Provisioned Throughput. |
Cause | Le nombre de requêtes dépasse la capacité disponible dans le pool de ressources partagé. | Le nombre de requêtes dépasse votre capacité de débit réservée. |
Impact sur le contrat de niveau de service | Les requêtes qui reçoivent une erreur 429 ne sont pas comptabilisées dans votre taux d'erreur, comme indiqué dans le contrat de niveau de service (SLA). |
Les erreurs pour une utilisation inférieure au débit acheté sont renvoyées en tant qu'erreur 5XX et sont comptabilisées dans le contrat de niveau de service. Les erreurs liées à une utilisation supérieure au débit que vous avez acheté sont traitées comme des paiements à l'usage et ne sont pas comptabilisées dans l'accord de niveau de service. |
Avec un abonnement de débit provisionné, vous réservez un débit spécifique pour vos modèles. Si vous ne disposez pas d'abonnement et que les ressources partagées ne sont pas disponibles, une erreur 429
s'affiche. Bien que vous ne disposiez pas de capacité réservée, vous pouvez relancer votre requête.
Pour les projets avec débit provisionné, Vertex AI réserve le débit acheté pour l'utilisation de votre projet. Lorsque vous utilisez moins que le montant acheté, les erreurs qui pourraient être renvoyées en tant qu'erreur 429
sont renvoyées en tant qu'erreur 5XX
et sont comptabilisées dans le taux d'erreur de l'accord de niveau de service. Lorsque vous dépassez le montant acheté, les requêtes supplémentaires sont traitées à la demande et facturées selon le paiement à l'usage.
Résoudre les erreurs 429
La procédure à suivre pour résoudre une erreur 429
varie selon votre framework de quota.
Paiement à l'usage
Dans le framework de quota de paiement à l'usage, vous disposez des options suivantes pour résoudre les erreurs 429
:
- Utilisez le point de terminaison global: lorsque cela est possible, utilisez le point de terminaison global au lieu d'un point de terminaison régional.
- Implémentez une stratégie de nouvelle tentative: utilisez un intervalle exponentiel tronqué entre les tentatives pour relancer les requêtes.
- Demander une augmentation de quota: si votre modèle utilise des quotas, vous pouvez envoyer une demande d'augmentation de quota.
- Lisser le trafic: si votre modèle utilise le quota partagé dynamique (DSQ), vous pouvez lisser le trafic et réduire les pics importants. Pour en savoir plus, consultez la section Quota partagé dynamique.
- S'abonner au débit provisionné: pour un niveau de service plus cohérent, abonnez-vous au débit provisionné. Pour en savoir plus, consultez la section Débit provisionné.
Débit provisionné
Pour résoudre une erreur 429
lorsque vous disposez d'un abonnement au débit provisionné, procédez comme suit:
- Autoriser le traitement à la demande: utilisez le comportement par défaut en ne définissant pas d'en-tête dans vos requêtes de prédiction. Tous les dépassements sont traités à la demande et facturés selon le paiement à l'usage.
- Augmenter la capacité réservée: augmentez le nombre de GSU dans votre abonnement de débit provisionné.
Étapes suivantes
- Pour en savoir plus sur le quota partagé dynamique, consultez la section Quota partagé dynamique.
- Pour en savoir plus sur le débit provisionné, consultez Débit provisionné.
- Pour en savoir plus sur les quotas et les limites de Vertex AI, consultez la section Quotas et limites de Vertex AI.
- Pour en savoir plus sur les quotas et les limites de Google Cloud, consultez Comprendre les valeurs de quota et les limites du système.
- Pour en savoir plus sur les erreurs d'API, consultez la section Erreurs d'API.