Portata sottoposta a provisioning

La velocità effettiva sottoposta a provisioning è un abbonamento mensile a costo fisso che prenota la velocità effettiva per modelli di AI generativa supportati su Vertex AI. Per prenotare la velocità effettiva, devi specificare il modello località disponibili in cui dell'esecuzione del modello.

Questa pagina spiega quando utilizzare il throughput pianificato, come funziona e come abbonarsi.

Modelli supportati

Le seguenti tabelle mostrano i modelli che supportano Velocità effettiva sottoposta a provisioning, la velocità effettiva per generative AI scale unit (GSU) e i tasso di burndown per ogni modello.

Modelli Google

Questa tabella mostra la velocità effettiva, l'incremento degli acquisti e i tassi di burndown per Modelli Google che supportano la velocità effettiva sottoposta a provisioning. I modelli Google sono misurata in caratteri al secondo, ovvero l'input del prompt e caratteri di output di testo generati in tutte le richieste al secondo.

Modello Velocità effettiva per GSU (caratteri/sec) Incremento minimo dell'acquisto in GSU Tassi di burndown
gemini-1.5-flash Finestra di contesto inferiore o uguale a 128.000:
54.000

Oltre 128.000 finestre contestuali:
27.000
1 Finestra di contesto inferiore o uguale a 128.000:
1 carattere di input = 1 carattere
1 carattere di output = 4 caratteri
1 immagine = 1067 caratteri
1 video al secondo = 1067 caratteri
1 audio al secondo = 107 caratteri
Oltre 128.000 finestre contestuali:
1 carattere di input = 2 caratteri
1 carattere di output = 8 caratteri
1 immagine = 2134 caratteri
1 video al secondo = 2134 caratteri
1 audio al secondo = 214 caratteri
gemini-1.5-pro 800 1 Finestra di contesto inferiore o uguale a 128.000:
1 carattere di input = 1 carattere
1 carattere di output = 3 caratteri
1 immagine = 1052 caratteri
1 video al secondo = 1052 caratteri
1 audio al secondo = 100 caratteri
Oltre 128.000 finestre contestuali:
1 carattere di input = 2 caratteri
1 carattere di output = 6 caratteri
1 immagine = 2104 caratteri
1 video al secondo = 2104 caratteri
1 audio al secondo = 200 caratteri
gemini-1.0-pro 8000 1 1 carattere di input = 1 carattere
1 carattere di output = 3 caratteri
1 immagine = 20.000 caratteri
1 video al secondo = 16.000 caratteri
imagen-3.0-generate-001 0,025
La velocità effettiva viene misurata in immagini/sec anziché in caratteri/sec.
1 Solo le immagini di output vengono conteggiate ai fini della quota di velocità effettiva sottoposta a provisioning.
imagen-3.0-fast-generate-001 0,05
La velocità effettiva viene misurata in immagini/sec anziché in caratteri/sec.
1 Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato.
MedLM-medium 2000 1 1 carattere di input = 1 carattere
1 carattere di output = 2 caratteri
MedLM-large 200 1 1 carattere di input = 1 carattere
1 carattere di output = 3 caratteri

Per ulteriori informazioni sulle località supportate, consulta Località disponibili.

Puoi eseguire l'upgrade ai nuovi modelli man mano che vengono resi disponibili. Per informazioni su disponibilità e date di ritiro, consulta Modelli Google.

Modelli Google legacy

Consulta Modelli precedenti che supportano il throughput pianificato.

Modelli di partner

Questa tabella mostra la portata, l'incremento degli acquisti e i tassi di burndown per i modelli partner che supportano la funzionalità Throughput pianificato. I modelli Claude vengono misurati in token. al secondo, ovvero il totale dei token di input e di output in tutti come utilizzo della CPU, utilizzo della rete, richieste per secondo.

Modello Velocità effettiva per GSU (token/sec) Incremento minimo dell'acquisto in GSU Tassi di burndown
Anthropic Claude 3.5 Sonnet 350 25 1 token di input = 1 token
1 token di output = 5 token
Anthropic Claude 3 Opus 70 35 1 token di input = 1 token
1 token di output = 5 token
Anthropic Claude 3 Haiku 4200 5 1 token di input = 1 token
1 token di output = 5 token
Anthropic Claude 3 Sonnet 350 25 1 token di input = 1 token
1 token di output = 5 token

Per ulteriori informazioni sulle località supportate, vedi Località disponibili.

Quando utilizzare la velocità effettiva sottoposta a provisioning

Se una delle seguenti considerazioni si applica al tuo caso d'uso, ti consigliamo di utilizzare il throughput pianificato:

  • I tuoi carichi di lavoro critici richiedono costantemente una velocità effettiva elevata. Velocità effettiva la misurazione dipende dal modello.
  • Stai creando applicazioni di produzione di AI generativa in tempo reale, come chatbot e agenti.
  • La tua produttività deve superare i 20.000 caratteri al secondo.
  • Vuoi fornire un'esperienza coerente e prevedibile agli utenti del tuo diverse applicazioni.
  • Vuoi costi deterministici dell'AI generativa pagando un prezzo mensile fisso con il controllo delle eccedenze.

La velocità effettiva sottoposta a provisioning è uno dei due modi per utilizzare di AI generativa. Il secondo metodo è il pagamento a consumo, detto anche on demand.

Come viene misurata la velocità effettiva sottoposta a provisioning

Questa sezione illustra i concetti di unità della scala di AI generativa (GSU) e di tassi di burndown. La velocità effettiva di cui è stato eseguito il provisioning viene calcolata e tariffata utilizzando le GSU e le percentuali di burndown.

Un'unità di scala di AI generativa (GSU) è una misura della velocità effettiva per i tuoi prompt. e risposte. Questo valore specifica la quantità di throughput con cui eseguire il provisioning di un modello.

Per produrre un'unità standard in tutti i modelli, tutti gli input e gli output vengono convertiti in caratteri di input al secondo (throughput) utilizzando rapporti specifici del modello chiamati tassi di burndown.

Modelli diversi utilizzano quantità diverse di velocità effettiva. Per informazioni sui l'importo minimo di acquisto GSU e gli incrementi per ogni modello, consulta Modelli supportati e tassi di burndown in questo documento.

Questa equazione mostra come viene calcolata la velocità effettiva:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

La velocità in MB/s calcolata determina il numero di GSU necessarie per il tuo caso d'uso.

Esempio di stima delle esigenze di velocità effettiva sottoposta a provisioning

Per stimare le esigenze di velocità effettiva sottoposta a provisioning, utilizza strumento di stima nella console Google Cloud. L'esempio seguente illustra il processo di stima della quantità di Velocità effettiva sottoposta a provisioning per il modello. La regione non è considerata nella calcoli delle stime.

  1. Raccogli le tue esigenze.

    1. In questo esempio, il tuo requisito è assicurarti di poter inviare 2000 caratteri con 2 immagini e ricevere 300 caratteri di output per 10 query al secondo utilizzando gemini-1.5-flash.

      Questo passaggio presuppone che tu comprenda il tuo caso d'uso, in quanto hai identificato le dimensioni degli input e degli output, il numero di query al secondo (QPS) e il tuo modello.

    2. Per stimare la produttività, specifica il modello. In questo esempio, è gemini-1.5-flash.

    3. Specifica il tipo di input e identifica il tasso di burndown. Utilizza la tabella delle intensità di riduzione per identificare l'intensità di riduzione in base al tipo di input.

      La percentuale di burndown di un'immagine per il modello gemini-1.5-flash è 1067 caratteri.

  2. Calcola il throughput.

    1. Moltiplica il numero di immagini per il tasso di burndown per il tipo di input per il tuo modello specifico.

      2 immagini * 1067 caratteri di input per immagine = 2134 caratteri di input

    2. Il numero totale di caratteri di output è 300. Torna alla tabella dei tassi di riduzione e individua il tasso di riduzione per i caratteri di output (quattro caratteri per carattere di output) per il tuo modello specifico (gemini-1.5-flash).

      300 caratteri di output * 4 caratteri per carattere di output = 1.200 caratteri di input convertiti

    3. Somma i totali.

      2000 caratteri di input + 2134 caratteri di input convertiti per le immagini + 1200 caratteri di input convertiti per l'output = 5334 caratteri di input convertiti per query

    4. Moltiplica i caratteri per query per le query previste al secondo per ottenere la velocità effettiva totale al secondo.

      5334 caratteri di input convertiti per query * 10 QPS = 53.340 caratteri di input convertiti totali al secondo

  3. Calcola le unità di servizio Google.

    1. Le GSU sono la portata totale al secondo divisa per la portata per GSU della tabella di burndown.

      53.340 caratteri di input convertiti totali al secondo ÷ 54.000 di throughput per GSU = 0,988 GSU

    2. L'incremento minimo di acquisto in GSU per gemini-1.5-flash è 1, che soddisfa il tuo requisito.

Aspetti da considerare prima di sottoscrivere l'abbonamento

Per aiutarti a decidere se abbonarti al throughput pianificato, consulta questo elenco di dettagli sull'abbonamento:

  • Non puoi annullare l'ordine.

    L'acquisto della velocità effettiva sottoposta a provisioning è un impegno, il che significa non può annullare l'ordine. Tuttavia, puoi aumentare il numero di GSU acquistati. Se acquisti accidentalmente un impegno o si verifica un problema con la configurazione, contatta il rappresentante del tuo account Google Cloud per ricevere assistenza.

  • Puoi rinnovare automaticamente l'abbonamento.

    Quando invii l'ordine, puoi scegliere di rinnovare automaticamente l'abbonamento alla fine del periodo di validità o lasciare scadere l'abbonamento. Puoi annullare la procedura di rinnovo automatico. Per annullare l'abbonamento prima del rinnovo automatico, annulla il rinnovo automatico 30 giorni prima dell'inizio del periodo successivo.

    Se hai bisogno di assistenza per questa procedura, contatta il rappresentante Google Cloud per il tuo account.

  • Puoi modificare la versione o la regione del modello con preavviso.

    La velocità effettiva sottoposta a provisioning viene attivata dopo che hai scelto progetto, regione, modello e versione. Puoi modificare la versione del modello entro lo stesso publisher del modello o la stessa regione con un preavviso di 10 giorni lavorativi contattando per ricevere assistenza, il tuo rappresentante dell'account Google Cloud. Ad esempio, puoi passare da un modello di Google all'altro. Puoi passare da un modello all'altro del partner A. Puoi passare da un modello all'altro del partner B. Non puoi passare tra i modelli di Google, del partner A e del partner B.

  • Quando si passa alla velocità effettiva sottoposta a provisioning dal pagamento a consumo, non si verificano tempi di inattività.

    Non si verificano tempi di inattività quando si passa da un modello all'altro per una Ordine di velocità effettiva. Tuttavia, il tempo di risposta per l'acquisizione della velocità effettiva obbligatorio.

  • Per impostazione predefinita, l'utilizzo in eccesso viene fatturato con pagamento a consumo.

    Se la velocità effettiva supera l'ordine Velocità effettiva sottoposta a provisioning le eccedenze vengono elaborate e fatturate con pagamento a consumo. Puoi controllare eccedenze su richiesta. Per ulteriori informazioni, consulta Utilizzare l'API REST.

  • Le richieste vengono assegnate una priorità.

    Le richieste dei clienti della velocità effettiva sottoposta a provisioning hanno la priorità e vengono gestite prima delle richieste on demand.

  • Devi impegnarti a effettuare un utilizzo minimo e a un pagamento.

    L'utilizzo minimo dipende dal modello di AI generativa selezionato. Qualsiasi l'utilizzo oltre la velocità effettiva acquistata non è garantito e viene gestito su una di sforzo ragionevole.

  • La velocità effettiva non si accumula.

    La velocità effettiva inutilizzata non si accumula né viene riportata al mese successivo.

  • La portata sottoposta a provisioning viene misurata in caratteri o token al secondo.

    La velocità effettiva pianificata viene misurata in caratteri o token al secondo, non in query al minuto (QPM). Di conseguenza, la misurazione della velocità effettiva pianificata dipende dalle dimensioni delle query e dal QPM del caso d'uso.

Velocità effettiva sottoposta a provisioning di acquisto

Questa sezione fornisce le autorizzazioni necessarie per effettuare o visualizzare un ordine di throughput provisionato, nonché le istruzioni per effettuare e visualizzare gli ordini.

Autorizzazioni

Per sottoscrivere la velocità effettiva sottoposta a provisioning, devi disporre di uno dei seguenti requisiti autorizzazioni assegnate al tuo progetto, che ti consentono di elencare e inserire ordini.

  • aiplatform.googleapis.com/provisionedThroughputAdmin: specifica per Velocità effettiva sottoposta a provisioning.
  • aiplatform.googleapis.com/admin: conferisce diritti amministrativi a ogni di Vertex AI in Vertex AI.

Questo ruolo ti consente di elencare solo i tuoi ordini:

  • aiplatform.googleapis.com/viewer

Effettuare un ordine di velocità effettiva sottoposta a provisioning

Per i modelli Imagen 3 e Imagen 3 Fast, invia questo modulo (Richiesta di autorizzazione) per ottenere le autorizzazioni per l'utilizzo di questi modelli prima di effettuare l'ordine.

Per acquistare un abbonamento con throughput pianificato:

Console

  1. Nella console Google Cloud, vai alla pagina Velocità effettiva sottoposta a provisioning.

    Vai alla velocità effettiva sottoposta a provisioning

  2. Per avviare un nuovo ordine, fai clic su Crea.
  3. Inserisci un Nome ordine.
  4. Seleziona il Modello.
  5. Seleziona la Regione.
  6. Inserisci il numero di unità della scala di AI generativa (GSU) che devi acquistare. Per stimare il numero di GSU, fai clic Strumento di stima.
    1. Seleziona il tuo Modello.
    2. Inserisci il numero di Query al secondo.
    3. Inserisci il numero di caratteri dell'input per query.
    4. Inserisci il numero di immagini dell'input per query.
    5. Inserisci il numero di secondi di video per query.
    6. Inserisci il numero di secondi di audio per query.
    7. Inserisci il numero di Caratteri di output per query.
    8. Per utilizzare i valori inseriti nello strumento di stima, Fai clic su Utilizza calcolato.
  7. Seleziona il tuo Periodo di validità.
  8. Seleziona l'opzione Rinnovo.
  9. Fai clic su Continua.
  10. Nella sezione Riepilogo, esamina le stime di prezzo e velocità effettiva per l'ordine. Leggi i termini elencati e consultati tramite i link nel modulo.
  11. Per finalizzare l'ordine, fai clic su Conferma.

Verifica lo stato dell'ordine

Dopo aver inviato l'ordine di throughput provisionato, lo stato dell'ordine potrebbe essere uno dei seguenti:

  • In attesa di revisione: hai effettuato l'ordine. Poiché l'approvazione dipende dalla capacità disponibile per il provisioning dell'ordine, l'ordine è in attesa di revisione e approvazione. Per ulteriori informazioni sullo stato dell'ordine in attesa, contatta il rappresentante dell'account Google Cloud.
  • Attivo: Google ha approvato ed eseguito il provisioning del tuo ordine e la fatturazione inizierà.
  • Scaduto: il tuo ordine è scaduto.

Visualizzare gli ordini di portata sottoposta a provisioning

Per visualizzare gli ordini relativi alla velocità effettiva sottoposta a provisioning:

Console

  1. Nella console Google Cloud, vai alla pagina Velocità effettiva sottoposta a provisioning.

    Vai alla velocità effettiva sottoposta a provisioning

  2. Seleziona la Regione. Viene visualizzato l'elenco degli ordini.

Utilizza la velocità effettiva sottoposta a provisioning

Questa sezione spiega come controllare gli sforamenti o ignorare il throughput Provisioning e come monitorare l'utilizzo del throughput Provisioning.

Controllare gli sforamenti o bypassare la velocità effettiva di cui è stato eseguito il provisioning

Usa l'API REST per controllare le eccedenze quando superi la velocità effettiva acquistata o per bypassare la velocità effettiva sottoposta a provisioning su richiesta.

Leggi attentamente ogni opzione per determinare cosa devi fare per soddisfare il tuo caso d'uso.

Comportamento predefinito

Se superi la quantità di velocità effettiva acquistata, i superamenti vengono applicati al modello on demand e vengono fatturati al tariffa di pagamento a consumo. Una volta attivo l'ordine di throughput provisionato, viene applicato automaticamente il comportamento predefinito. Non devi modificare il codice per iniziare a utilizzare i tuoi ordine.

Questo esempio di curl mostra il comportamento predefinito.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Utilizza solo la velocità effettiva sottoposta a provisioning

Se gestisci i costi evitando addebiti on demand, utilizza solo Velocità effettiva. Le richieste che superano l'importo dell'ordine della portata sottoposta a provisioning restituiscono un errore 429.

Questo esempio di curl mostra come utilizzare l'API REST per utilizzare Solo sottoscrizione Velocità effettiva sottoposta a provisioning, con superamento della soglia che restituisce un errore 429.

Imposta l'intestazione X-Vertex-AI-LLM-Request-Type su dedicated.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Utilizza solo il pagamento a consumo

Questo approccio è detto anche on demand. Le richieste ignorano il modulo Ordini di velocità effettiva e vengono inviati direttamente al pagamento a consumo. Potrebbe esserti utile per esperimenti o applicazioni in fase di sviluppo.

Questo esempio di curl mostra come utilizzare l'API REST per bypassare il throughput pianificato e utilizzare solo il pagamento a consumo.

Imposta l'intestazione X-Vertex-AI-LLM-Request-Type su shared.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Monitora la velocità effettiva sottoposta a provisioning

Puoi monitorare l'utilizzo del throughput pianificato tramite le metriche di monitoraggio e su base per richiesta.

Intestazioni della risposta

Se una richiesta è stata elaborata utilizzando il throughput pianificato, nella risposta è presente la seguente intestazione HTTP. Questa riga di codice si applica solo Chiamata API generateContent.

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

Metriche

La velocità effettiva sottoposta a provisioning può essere monitorata utilizzando un insieme di metriche misurate nel tipo di risorsa aiplatform.googleapis.com/PublisherModel. Ogni metrica è filtrabile in base alle seguenti dimensioni:

  • type: input, output
  • request_type: dedicated, shared

Per filtrare una metrica in modo da visualizzare l'utilizzo della velocità effettiva sottoposta a provisioning, utilizza dedicated tipo di richiesta. Il prefisso del percorso per una metrica è aiplatform.googleapis.com/publisher/online_serving. Ad esempio, il percorso completo della metrica /consumed_throughput è aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Nella risorsaaiplatform.googleapis.com/PublisherModel sono disponibili le seguenti metriche di Cloud Monitoring:

Metrica Nome visualizzato Descrizione Filtra per utilizzo della velocità effettiva sottoposta a provisioning
/characters Caratteri Distribuzione del numero di caratteri di input e output.
/character_count Numero di caratteri Conteggio dei caratteri di input e output accumulato.
/consumed_throughput Velocità in caratteri Velocità effettiva consumata (tieni conto del tasso di burndown) in caratteri.
/model_invocation_count Conteggio chiamate del modello Numero di invocazioni del modello (richieste di previsione).
/model_invocation_latencies Tempi di chiamata del modello Latenze di chiamata del modello (latenze di previsione).
/first_token_latencies Latenze del primo token Durata tra la richiesta ricevuta e il primo token restituito.
/tokens Token Distribuzione del conteggio dei token di input e di output.
/token_count Conteggio token Conteggio cumulativo dei token di input e di output.

Passaggi successivi