Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Vertex AI propose deux façons de gérer le débit de vos modèles d'IA générative, ce qui vous permet d'équilibrer les coûts, la flexibilité et les performances. Vous pouvez soit utiliser un modèle de paiement à l'usage flexible, soit réserver une quantité de débit dédiée à un prix fixe.
Paiement à l'usage
Pour le modèle de paiement à l'utilisation par défaut, Vertex AI utilise le quota partagé dynamique, qui ne comporte pas de limite d'utilisation prédéfinie. Au lieu de cela, vous avez accès à un grand pool de ressources partagées qui sont allouées de manière dynamique en fonction de la disponibilité et de la demande en temps réel.
Ce modèle permet à vos charges de travail d'utiliser davantage de ressources lorsqu'elles sont disponibles.
Si vous recevez une erreur resource exhausted (429), cela signifie que le pool partagé connaît temporairement une forte demande de la part de nombreux utilisateurs à la fois. Vous devez implémenter des mécanismes de nouvelle tentative dans votre application, car la disponibilité peut changer rapidement.
Capacité réservée
Pour les applications de production critiques qui nécessitent des performances constantes et des coûts prévisibles, vous pouvez utiliser le débit provisionné.
Le débit provisionné est un abonnement à coût fixe qui réserve une quantité spécifique de débit pour vos modèles dans un emplacement de votre choix.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[],[],null,["# Throughput quota\n\nVertex AI offers two ways to manage throughput for your generative AI models, which lets you balance cost, flexibility, and performance. You can either use a flexible pay-as-you-go model or reserve a dedicated amount of throughput for a fixed price.\n\n\u003cbr /\u003e\n\nPay-as-you-go\n-------------\n\nFor the default pay-as-you-go model, Vertex AI uses\n[Dynamic Shared Quota](/vertex-ai/generative-ai/docs/dynamic-shared-quota),\nwhich doesn't have a predefined usage limit. Instead, you get access to a large,\nshared pool of resources that are dynamically allocated based on real-time\navailability and demand.\n\nThis model allows your workloads to use more resources when they are available.\nIf you receive a `resource exhausted` (429) error, it means the shared pool is\ntemporarily experiencing high demand from many users at once. You should\nimplement retry mechanisms in your application, as availability can change\nquickly.\n\nReserved Capacity\n-----------------\n\nFor critical production applications that require consistent performance and\npredictable costs, you can use\n[Provisioned Throughput](/vertex-ai/generative-ai/docs/provisioned-throughput/overview).\nProvisioned Throughput is a fixed-cost subscription that reserves a\nspecific amount of throughput for your models in a chosen location.\n\nWhat's next\n-----------\n\n- Learn more about [Dynamic Shared Quota](/vertex-ai/generative-ai/docs/dynamic-shared-quota).\n- Learn more about [Provisioned Throughput](/vertex-ai/generative-ai/docs/provisioned-throughput/overview).\n- Learn more about [Google Cloud quotas](/docs/quotas/overview)."]]