Questa pagina è stata tradotta dall'API Cloud Translation.

Quota di velocità effettiva

Vertex AI offre due modi per gestire il throughput dei modelli di AI generativa, consentendoti di bilanciare costi, flessibilità e prestazioni. Puoi utilizzare un modello flessibile con pagamento a consumo o prenotare una quantità dedicata di throughput a un prezzo fisso.

Pagamento a consumo

Per il modello pay-as-you-go predefinito, Vertex AI utilizza Quota condivisa dinamica, che non ha un limite di utilizzo predefinito. Invece, ottieni l'accesso a un ampio pool condiviso di risorse che vengono allocate dinamicamente in base alla disponibilità e alla domanda in tempo reale.

Questo modello consente ai tuoi carichi di lavoro di utilizzare più risorse quando sono disponibili. Se ricevi un errore resource exhausted (429), significa che il pool condiviso sta temporaneamente registrando una domanda elevata da parte di molti utenti contemporaneamente. Devi implementare meccanismi di ripetizione nella tua applicazione, poiché la disponibilità può cambiare rapidamente.

Capacità riservata

Per le applicazioni di produzione critiche che richiedono prestazioni costanti e costi prevedibili, puoi utilizzare Provisioned Throughput. Il Throughput riservato è un abbonamento a costo fisso che riserva una quantità specifica di throughput per i tuoi modelli in una località scelta.

Passaggi successivi

Scopri di più sulla quota condivisa dinamica.
Scopri di più sul throughput riservato.
Scopri di più sulle quote di Google Cloud.