Questa pagina spiega cos'è il throughput sottoposto a provisioning e quando utilizzarlo.
Introduzione al throughput riservato
Il Throughput riservato è un abbonamento a costo fisso e durata fissa disponibile in diverse durate che riserva il throughput per i modelli di AI generativa supportati su Vertex AI. Per riservare la velocità effettiva, devi specificare il modello e le posizioni disponibili in cui viene eseguito.
Quando utilizzare il throughput di cui è stato eseguito il provisioning
Se al tuo caso d'uso si applica una delle seguenti considerazioni, valuta la possibilità di utilizzare il throughput di cui è stato eseguito il provisioning:
- Stai creando applicazioni di produzione di AI generativa in tempo reale, come chatbot e agenti.
- I tuoi workload critici richiedono costantemente una velocità effettiva elevata. La misurazione del throughput dipende dal modello.
- Vuoi offrire un'esperienza coerente e prevedibile agli utenti delle tue applicazioni.
- Vuoi costi deterministici dell'AI generativa pagando un prezzo mensile o settimanale fisso con controllo dei costi aggiuntivi.
Il throughput sottoposto a provisioning è uno dei due modi per utilizzare i modelli di AI generativa. Il secondo modo è il pagamento a consumo, detto anche on demand.
Passaggi successivi
- Modelli supportati che utilizzano il throughput riservato.