Panoramica del throughput riservato

Questa pagina spiega cos'è il throughput sottoposto a provisioning e quando utilizzarlo.

Introduzione al throughput riservato

Il Throughput riservato è un abbonamento a costo fisso e durata fissa disponibile in diverse durate che riserva il throughput per i modelli di AI generativa supportati su Vertex AI. Per riservare la velocità effettiva, devi specificare il modello e le posizioni disponibili in cui viene eseguito.

Quando utilizzare il throughput di cui è stato eseguito il provisioning

Se al tuo caso d'uso si applica una delle seguenti considerazioni, valuta la possibilità di utilizzare il throughput di cui è stato eseguito il provisioning:

  • Stai creando applicazioni di produzione di AI generativa in tempo reale, come chatbot e agenti.
  • I tuoi workload critici richiedono costantemente una velocità effettiva elevata. La misurazione del throughput dipende dal modello.
  • Vuoi offrire un'esperienza coerente e prevedibile agli utenti delle tue applicazioni.
  • Vuoi costi deterministici dell'AI generativa pagando un prezzo mensile o settimanale fisso con controllo dei costi aggiuntivi.

Il throughput sottoposto a provisioning è uno dei due modi per utilizzare i modelli di AI generativa. Il secondo modo è il pagamento a consumo, detto anche on demand.

Passaggi successivi