A partire dal 29 aprile 2025, i modelli Gemini 1.5 Pro e Gemini 1.5 Flash non sono disponibili nei progetti che non li hanno mai utilizzati, inclusi i nuovi progetti. Per maggiori dettagli, vedi Versioni e ciclo di vita dei modelli.
Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Vertex AI offre due modi per gestire il throughput dei modelli di AI generativa, consentendoti di bilanciare costi, flessibilità e prestazioni. Puoi utilizzare un modello flessibile con pagamento a consumo o prenotare una quantità dedicata di throughput a un prezzo fisso.
Pagamento a consumo
Per il modello pay-as-you-go predefinito, Vertex AI utilizza
Quota condivisa dinamica,
che non ha un limite di utilizzo predefinito. Invece, ottieni l'accesso a un ampio pool condiviso di risorse che vengono allocate dinamicamente in base alla disponibilità e alla domanda in tempo reale.
Questo modello consente ai tuoi carichi di lavoro di utilizzare più risorse quando sono disponibili.
Se ricevi un errore resource exhausted (429), significa che il pool condiviso
sta temporaneamente registrando una domanda elevata da parte di molti utenti contemporaneamente. Devi
implementare meccanismi di ripetizione nella tua applicazione, poiché la disponibilità può cambiare
rapidamente.
Capacità riservata
Per le applicazioni di produzione critiche che richiedono prestazioni costanti e
costi prevedibili, puoi utilizzare
Provisioned Throughput.
Il Throughput riservato è un abbonamento a costo fisso che riserva una
quantità specifica di throughput per i tuoi modelli in una località scelta.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-09-04 UTC."],[],[],null,["# Throughput quota\n\nVertex AI offers two ways to manage throughput for your generative AI models, which lets you balance cost, flexibility, and performance. You can either use a flexible pay-as-you-go model or reserve a dedicated amount of throughput for a fixed price.\n\n\u003cbr /\u003e\n\nPay-as-you-go\n-------------\n\nFor the default pay-as-you-go model, Vertex AI uses\n[Dynamic Shared Quota](/vertex-ai/generative-ai/docs/dynamic-shared-quota),\nwhich doesn't have a predefined usage limit. Instead, you get access to a large,\nshared pool of resources that are dynamically allocated based on real-time\navailability and demand.\n\nThis model allows your workloads to use more resources when they are available.\nIf you receive a `resource exhausted` (429) error, it means the shared pool is\ntemporarily experiencing high demand from many users at once. You should\nimplement retry mechanisms in your application, as availability can change\nquickly.\n\nReserved Capacity\n-----------------\n\nFor critical production applications that require consistent performance and\npredictable costs, you can use\n[Provisioned Throughput](/vertex-ai/generative-ai/docs/provisioned-throughput/overview).\nProvisioned Throughput is a fixed-cost subscription that reserves a\nspecific amount of throughput for your models in a chosen location.\n\nWhat's next\n-----------\n\n- Learn more about [Dynamic Shared Quota](/vertex-ai/generative-ai/docs/dynamic-shared-quota).\n- Learn more about [Provisioned Throughput](/vertex-ai/generative-ai/docs/provisioned-throughput/overview).\n- Learn more about [Google Cloud quotas](/docs/quotas/overview)."]]