Panoramica del throughput riservato

Questa pagina spiega che cos'è la funzionalità Throughput Provisioning e quando utilizzarla.

Introduzione al throughput riservato

La funzionalità Throughput riservato è un servizio settimanale o un abbonamento mensile a costo fisso che riserva il throughput per i modelli di IA generativa supportati su Vertex AI. Per prenotare il throughput, devi specificare il modello e le località disponibili in cui viene eseguito.

Quando utilizzare la velocità effettiva sottoposta a provisioning

Se una delle seguenti considerazioni si applica al tuo caso d'uso, ti consigliamo di utilizzare il throughput pianificato:

  • I tuoi carichi di lavoro critici richiedono costantemente una velocità in uscita elevata. La misurazione del throughput dipende dal modello.
  • Stai creando applicazioni di produzione di AI generativa in tempo reale, come chatbot e agenti.
  • Vuoi offrire un'esperienza coerente e prevedibile agli utenti delle tue applicazioni.
  • Vuoi costi deterministici dell'IA generativa pagando un prezzo mensile fisso con controllo degli eccessi.
  • Vuoi costi deterministici dell'AI generativa pagando un prezzo fisso mensile o settimanale con controllo degli eccessi.

La funzionalità Throughput riservato è uno dei due modi per utilizzare i modelli di AI generativa. Il secondo metodo è il pagamento a consumo, chiamato anche on demand.

Passaggi successivi