Cette page a été traduite par l'API Cloud Translation.

Quota de débit

Vertex AI propose deux façons de gérer le débit de vos modèles d'IA générative, ce qui vous permet d'équilibrer les coûts, la flexibilité et les performances. Vous pouvez soit utiliser un modèle de paiement à l'usage flexible, soit réserver une quantité de débit dédiée à un prix fixe.

Paiement à l'usage

Pour le modèle de paiement à l'utilisation par défaut, Vertex AI utilise le quota partagé dynamique, qui ne comporte pas de limite d'utilisation prédéfinie. Au lieu de cela, vous avez accès à un grand pool de ressources partagées qui sont allouées de manière dynamique en fonction de la disponibilité et de la demande en temps réel.

Ce modèle permet à vos charges de travail d'utiliser davantage de ressources lorsqu'elles sont disponibles. Si vous recevez une erreur resource exhausted (429), cela signifie que le pool partagé connaît temporairement une forte demande de la part de nombreux utilisateurs à la fois. Vous devez implémenter des mécanismes de nouvelle tentative dans votre application, car la disponibilité peut changer rapidement.

Capacité réservée

Pour les applications de production critiques qui nécessitent des performances constantes et des coûts prévisibles, vous pouvez utiliser le débit provisionné. Le débit provisionné est un abonnement à coût fixe qui réserve une quantité spécifique de débit pour vos modèles dans un emplacement de votre choix.

Étapes suivantes

En savoir plus sur le quota partagé dynamique
En savoir plus sur le débit provisionné
En savoir plus sur les quotas Google Cloud