Questa pagina spiega che cos'è la funzionalità Throughput Provisioning e quando utilizzarla.
Introduzione al throughput riservato
La funzionalità Throughput riservato è un servizio settimanale o un abbonamento mensile a costo fisso che riserva il throughput per i modelli di IA generativa supportati su Vertex AI. Per prenotare il throughput, devi specificare il modello e le località disponibili in cui viene eseguito.
Quando utilizzare la velocità effettiva sottoposta a provisioning
Se una delle seguenti considerazioni si applica al tuo caso d'uso, ti consigliamo di utilizzare il throughput pianificato:
- I tuoi carichi di lavoro critici richiedono costantemente una velocità in uscita elevata. La misurazione del throughput dipende dal modello.
- Stai creando applicazioni di produzione di AI generativa in tempo reale, come chatbot e agenti.
- Vuoi offrire un'esperienza coerente e prevedibile agli utenti delle tue applicazioni.
- Vuoi costi deterministici dell'IA generativa pagando un prezzo mensile fisso con controllo degli eccessi.
- Vuoi costi deterministici dell'AI generativa pagando un prezzo fisso mensile o settimanale con controllo degli eccessi.
La funzionalità Throughput riservato è uno dei due modi per utilizzare i modelli di AI generativa. Il secondo metodo è il pagamento a consumo, chiamato anche on demand.
Passaggi successivi
- Modelli supportati che utilizzano la velocità effettiva sottoposta a provisioning.