Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Vertex AI bietet zwei Möglichkeiten zum Verwalten des Durchsatzes für Ihre Modelle für generative KI, mit denen Sie Kosten, Flexibilität und Leistung in Einklang bringen können. Sie können entweder ein flexibles Pay-as-you-go-Modell verwenden oder eine bestimmte Menge an Durchsatz zu einem Festpreis reservieren.
Pay as you go
Für das standardmäßige Pay-as-you-go-Modell verwendet Vertex AI Dynamic Shared Quota, das kein vordefiniertes Nutzungslimit hat. Stattdessen erhalten Sie Zugriff auf einen großen, freigegebenen Ressourcenpool, der dynamisch auf Grundlage der Verfügbarkeit und Nachfrage in Echtzeit zugewiesen wird.
Bei diesem Modell können Ihre Arbeitslasten mehr Ressourcen nutzen, wenn diese verfügbar sind.
Wenn Sie den Fehler resource exhausted (429) erhalten, bedeutet das, dass die gemeinsame Nutzung des Pools vorübergehend von vielen Nutzern gleichzeitig stark beansprucht wird. Sie sollten Wiederholungsmechanismen in Ihrer Anwendung implementieren, da sich die Verfügbarkeit schnell ändern kann.
Reservierte Kapazität
Für kritische Produktionsanwendungen, die eine konsistente Leistung und vorhersehbare Kosten erfordern, können Sie bereitgestellten Durchsatz verwenden.
Provisioned Throughput ist ein Abo mit festen Kosten, das eine bestimmte Menge an Durchsatz für Ihre Modelle an einem ausgewählten Standort reserviert.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-09-04 (UTC)."],[],[],null,["# Throughput quota\n\nVertex AI offers two ways to manage throughput for your generative AI models, which lets you balance cost, flexibility, and performance. You can either use a flexible pay-as-you-go model or reserve a dedicated amount of throughput for a fixed price.\n\n\u003cbr /\u003e\n\nPay-as-you-go\n-------------\n\nFor the default pay-as-you-go model, Vertex AI uses\n[Dynamic Shared Quota](/vertex-ai/generative-ai/docs/dynamic-shared-quota),\nwhich doesn't have a predefined usage limit. Instead, you get access to a large,\nshared pool of resources that are dynamically allocated based on real-time\navailability and demand.\n\nThis model allows your workloads to use more resources when they are available.\nIf you receive a `resource exhausted` (429) error, it means the shared pool is\ntemporarily experiencing high demand from many users at once. You should\nimplement retry mechanisms in your application, as availability can change\nquickly.\n\nReserved Capacity\n-----------------\n\nFor critical production applications that require consistent performance and\npredictable costs, you can use\n[Provisioned Throughput](/vertex-ai/generative-ai/docs/provisioned-throughput/overview).\nProvisioned Throughput is a fixed-cost subscription that reserves a\nspecific amount of throughput for your models in a chosen location.\n\nWhat's next\n-----------\n\n- Learn more about [Dynamic Shared Quota](/vertex-ai/generative-ai/docs/dynamic-shared-quota).\n- Learn more about [Provisioned Throughput](/vertex-ai/generative-ai/docs/provisioned-throughput/overview).\n- Learn more about [Google Cloud quotas](/docs/quotas/overview)."]]