Portata sottoposta a provisioning

La velocità effettiva sottoposta a provisioning è un servizio in abbonamento mensile a costo fisso che prenota la velocità effettiva per i modelli di AI generativa supportati su Vertex AI. Per prenotare la velocità effettiva, devi specificare il modello e località disponibili in cui dell'esecuzione del modello.

Questa pagina spiega quando utilizzare la velocità effettiva sottoposta a provisioning, come funziona e su come abbonarsi.

Modelli supportati

Le tabelle seguenti mostrano i modelli che supportano la velocità effettiva sottoposta a provisioning, per ogni generative AI scale unit (GSU) e i tasso di burndown per ogni modello.

Modelli Google

Questa tabella mostra la velocità effettiva, l'incremento degli acquisti e i tassi di burndown per Modelli Google che supportano la velocità effettiva sottoposta a provisioning. I modelli Google sono misurata in caratteri al secondo, ovvero l'input del prompt e caratteri di output di testo generati in tutte le richieste al secondo.

Modello Velocità effettiva per GSU (caratteri/sec) Incremento minimo dell'acquisto in GSU Tassi di burndown
gemini-1.5-flash 8000 5 Meno di o uguale a 128.000 contesto:
1 carattere di input = 1 carattere
1 carattere di output = 3 caratteri
1 immagine = 1052 caratteri
1 video al secondo = 1052 caratteri
1 audio al secondo = 100 caratteri
Più di 128.000 contesti:
1 carattere di input = 2 caratteri
1 carattere di output = 6 caratteri
1 immagine = 2104 caratteri
1 video al secondo = 2104 caratteri
1 audio al secondo = 200 caratteri
gemini-1.5-pro 800 50 Meno di o uguale a 128.000 contesto:
1 carattere di input = 1 carattere
1 carattere di output = 3 caratteri
1 immagine = 1052 caratteri
1 video al secondo = 1052 caratteri
1 audio al secondo = 100 caratteri
Più di 128.000 contesti:
1 carattere di input = 2 caratteri
1 carattere di output = 6 caratteri
1 immagine = 2104 caratteri
1 video al secondo = 2104 caratteri
1 audio al secondo = 200 caratteri
gemini-1.0-pro 8000 5 1 carattere di input = 1 carattere
1 carattere di output = 3 caratteri
1 immagine = 20.000 caratteri
1 video al secondo = 16.000 caratteri
MedLM-medium 2000 5 1 carattere di input = 1 carattere
1 carattere di output = 2 caratteri
MedLM-large 200 50 1 carattere di input = 1 carattere
1 carattere di output = 3 caratteri

Per ulteriori informazioni sulle località supportate, vedi Località disponibili.

Puoi eseguire l'upgrade ai nuovi modelli non appena vengono resi disponibili. Per informazioni su su disponibilità e date di interruzione, vedi Modelli Google.

Modelli Google legacy

Consulta Modelli legacy che supportano la velocità effettiva sottoposta a provisioning.

Modelli dei partner

Questa tabella mostra la velocità effettiva, l'incremento degli acquisti e i tassi di burndown per modelli di partner che supportano Velocità effettiva sottoposta a provisioning. I modelli Claude vengono misurati in token. al secondo, ovvero il totale dei token di input e di output in tutti come utilizzo della CPU, utilizzo della rete, richieste per secondo.

Modello Velocità effettiva per GSU (token/sec) Incremento minimo dell'acquisto in GSU Tassi di burndown
Anthropic Claude 3.5 Sonnet 350 25 1 token di input = 1 token
1 token di output = 5 token
Anthropic Claude 3 Opus 70 35 1 token di input = 1 token
1 token di output = 5 token
Anthropic Claude 3 Haiku 4200 5 1 token di input = 1 token
1 token di output = 5 token
Anthropic Claude 3 Sonnet 350 25 1 token di input = 1 token
1 token di output = 5 token

Per ulteriori informazioni sulle località supportate, vedi Località disponibili.

Quando utilizzare la velocità effettiva sottoposta a provisioning

Se una delle seguenti considerazioni si applica al tuo caso d'uso, valuta l'utilizzo Velocità effettiva sottoposta a provisioning:

  • I carichi di lavoro critici richiedono costantemente una velocità effettiva elevata. Velocità effettiva la misurazione dipende dal modello.
  • Stai creando applicazioni di produzione di AI generativa in tempo reale, come chatbot e agenti.
  • La velocità effettiva deve essere superiore a 20.000 caratteri al secondo.
  • Vuoi fornire un'esperienza coerente e prevedibile agli utenti del tuo diverse applicazioni.
  • Vuoi costi deterministici dell'AI generativa pagando un prezzo mensile fisso con il controllo delle eccedenze.

La velocità effettiva sottoposta a provisioning è uno dei due modi per utilizzare i tuoi modelli di AI generativa. Il secondo metodo è il pagamento a consumo, noto anche come on demand.

Come viene misurata la velocità effettiva sottoposta a provisioning

Questa sezione spiega i concetti dell'AI generativa di scala (GSU) e tassi di burndown. La velocità effettiva sottoposta a provisioning viene calcolata e il prezzo viene determinato utilizzando le GSU e tassi di burndown.

Un'unità di scala di AI generativa (GSU) è una misura della velocità effettiva per i tuoi prompt. e risposte. Questo importo specifica la velocità effettiva di cui eseguire il provisioning di un modello con.

Per produrre un'unità standard nei modelli, tutti gli input e gli output vengono convertiti per inserire caratteri al secondo (velocità effettiva) utilizzando rapporti specifici del modello chiamati tassi di burndown.

Modelli diversi utilizzano quantità diverse di velocità effettiva. Per informazioni sui l'importo minimo di acquisto GSU e gli incrementi per ogni modello, consulta Modelli supportati e tassi di burndown in questo documento.

Questa equazione mostra come viene calcolata la velocità effettiva:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

La velocità effettiva calcolata al secondo determina quante GSU sono necessarie per il tuo caso d'uso.

Esempio di stima delle esigenze di velocità effettiva sottoposta a provisioning

Per stimare le esigenze di velocità effettiva sottoposta a provisioning, utilizza strumento di stima nella console Google Cloud. L'esempio seguente illustra il processo di stima della quantità di per il modello. La regione non è considerata nella calcoli delle stime.

  1. Raccogli le tue esigenze.

    1. In questo esempio, devi assicurarti di poter inviare 2000 con 2 immagini e riceve 300 caratteri di output per 10 query al secondo utilizzando gemini-1.5-flash.

      Questo passaggio implica che comprendi il tuo caso d'uso, perché hai identificato la dimensione degli input e degli output, il numero di query secondo (QPS) e il modello.

    2. Per stimare la velocità effettiva, specifica il tuo modello. In questo esempio, è gemini-1.5-flash.

    3. Specifica il tipo di input e identifica il tasso di burndown. Utilizza la tabella dei tassi di burndown per identificare il tasso di burndown in base in base al tipo di input.

      La percentuale di burndown di un'immagine per il modello gemini-1.5-flash è 1052 caratteri.

  2. Calcola la velocità effettiva.

    1. Moltiplica il numero di immagini per la percentuale di burndown per il tipo di input per del modello specifico.

      2 immagini * 1052 caratteri = 2104 caratteri di input

    2. Il numero totale di caratteri di output è 300. Torna alla tabella dei tassi di burndown, e trova il tasso di burn-down dei caratteri di output (3 caratteri) del tuo modello specifico (gemini-1.5-flash).

      300 caratteri di output * 3 caratteri = 900 caratteri di input

    3. Somma i totali.

      2000 caratteri di input + 2104 caratteri di input convertiti per le immagini + 900 caratteri di input convertiti per l’output = 5004 caratteri di input per query

    4. Moltiplica i caratteri per query per le query previste al secondo per ottenere la velocità effettiva totale al secondo.

      5004 caratteri di input per query * 10 QPS = 50.040 caratteri di input al secondo

  3. Calcola le tue GSU.

    1. Le GSU corrispondono alla velocità effettiva totale al secondo divisa per la velocità effettiva per GSU dalla tabella di burndown.

      50.040 caratteri di ingresso al secondo ÷ 8.000 throughput per GSU = 6,255 GSU

    2. L'incremento minimo di acquisto in GSU per gemini-1.5-flash è 5. Il prossimo multiplo di 5 da 6.255 è 10. Ti servono quindi 10 GSU per soddisfare questo requisito.

Aspetti da considerare prima di sottoscrivere l'abbonamento

Per aiutarti a decidere se sottostare alla velocità effettiva sottoposta a provisioning, consulta questo elenco di dettagli sull'abbonamento:

  • Non puoi annullare l'ordine.

    L'acquisto della velocità effettiva sottoposta a provisioning è un impegno, il che significa non può annullare l'ordine. Tuttavia, puoi aumentare il numero di GSU. Se acquisti per errore un impegno o hai un problema con il tuo configurazione, contatta il tuo account Google Cloud di assistenza.

  • Puoi rinnovare automaticamente l'abbonamento.

    Puoi scegliere di rinnovare automaticamente l'abbonamento alla fine del periodo di validità. lasciare scadere l'abbonamento.

  • Puoi modificare la versione o la regione del modello con preavviso.

    La velocità effettiva sottoposta a provisioning viene attivata dopo aver scelto il progetto, la regione modello e versione. Puoi cambiare la versione all'interno dello stesso modello publisher o regione con un preavviso di 10 giorni lavorativi contattando Rappresentante dell'account Google Cloud per ricevere assistenza. Ad esempio, puoi passare da un modello all'altro di Google. Puoi alternare tra i modelli del partner A. Puoi passare da un modello all'altro del partner B. Non puoi effettuare il passaggio tra i modelli di Google, del partner A e del partner B.

  • Quando si passa alla velocità effettiva sottoposta a provisioning dal pagamento a consumo, non si verificano tempi di inattività.

    Non si verificano tempi di inattività quando si passa da un modello all'altro per una Ordine di velocità effettiva. Tuttavia, il tempo di risposta per l'acquisizione della velocità effettiva obbligatorio.

  • Per impostazione predefinita, il superamento della soglia viene fatturato come pagamento a consumo.

    Se la velocità effettiva supera l'importo dell'ordine relativo alla velocità effettiva sottoposta a provisioning, le eccedenze vengono elaborate e fatturate come pagamento a consumo. Puoi controllare le eccedenze su richiesta. Per ulteriori informazioni, consulta Utilizzare il l'API REST.

  • Le richieste hanno la priorità.

    Le richieste dei clienti della velocità effettiva sottoposta a provisioning hanno la priorità e vengono gestite prima delle richieste on demand.

  • Devi impegnarti per un utilizzo minimo e un pagamento.

    L'utilizzo minimo dipende dal modello di AI generativa selezionato. Qualsiasi l'utilizzo oltre la velocità effettiva acquistata non è garantito e viene gestito su una di sforzo ragionevole.

  • La velocità effettiva non si accumula.

    La velocità effettiva inutilizzata non si accumula né viene riportata al mese successivo.

  • La velocità effettiva sottoposta a provisioning viene misurata in caratteri o token al secondo.

    La velocità effettiva sottoposta a provisioning viene misurata in caratteri o token al secondo, non per le query al minuto (QPM). Di conseguenza, misurare la velocità effettiva sottoposta a provisioning dipende dalle dimensioni delle query e dal valore di QPM del tuo caso d'uso.

Velocità effettiva sottoposta a provisioning di acquisto

Questa sezione fornisce le autorizzazioni necessarie per posizionare o visualizzare Ordine di velocità effettiva sottoposta a provisioning e istruzioni per l'inserimento e la visualizzazione i tuoi ordini.

Autorizzazioni

Per sottoscrivere la velocità effettiva sottoposta a provisioning, devi disporre di uno dei seguenti requisiti autorizzazioni assegnate al tuo progetto, che ti consentono di elencare e inserire ordini.

  • aiplatform.googleapis.com/provisionedThroughputAdmin: specifica per Velocità effettiva sottoposta a provisioning.
  • aiplatform.googleapis.com/admin: conferisce diritti amministrativi a ogni di Vertex AI in Vertex AI.

Questo ruolo ti consente di elencare solo i tuoi ordini:

  • aiplatform.googleapis.com/viewer

Effettuare un ordine di velocità effettiva sottoposta a provisioning

Segui questi passaggi per acquistare un abbonamento per la velocità effettiva sottoposta a provisioning:

Console

  1. Nella console Google Cloud, vai alla pagina Velocità effettiva sottoposta a provisioning.

    Vai alla velocità effettiva sottoposta a provisioning

  2. Per creare un nuovo ordine, fai clic su Crea.
  3. Inserisci un Nome ordine.
  4. Seleziona il Modello.
  5. Seleziona la Regione.
  6. Inserisci il Numero di unità di scala dell'AI generativa (GSU) che devi acquisto. Per stimare il numero di GSU, fai clic Strumento di stima.
    1. Seleziona il tuo Modello.
    2. Inserisci il numero di Query al secondo.
    3. Inserisci il numero di Caratteri di input per query.
    4. Inserisci il numero di immagini di input per query.
    5. Inserisci il numero di secondi video per query.
    6. Inserisci il numero di secondi audio per query.
    7. Inserisci il numero di Caratteri di output per query.
    8. Per utilizzare i valori inseriti nello strumento di stima, Fai clic su Utilizza calcolato.
  7. Seleziona il tuo Periodo di validità.
  8. Seleziona l'opzione per Rinnovo.
  9. Fai clic su Continua.
  10. Nella sezione Riepilogo, esamina le stime di prezzo e velocità effettiva per l'ordine. Leggi i termini elencati e consultati tramite i link nel modulo.
  11. Per finalizzare l'ordine, fai clic su Conferma.

Verifica lo stato dell'ordine

Dopo aver inviato l'ordine Velocità effettiva sottoposta a provisioning, lo stato dell'ordine potrebbe essere visualizzati in uno dei seguenti modi:

  • In attesa di revisione: hai effettuato l'ordine. Poiché l'approvazione dipende capacità disponibile per eseguire il provisioning dell'ordine, il tuo ordine è in attesa di revisione e approvazione. Per ulteriori informazioni sullo stato dell'ordine in attesa, contatta il rappresentante Google Cloud per il tuo account.
  • Attivo: Google ha approvato ed eseguito il provisioning del tuo ordine e la fatturazione inizierà.

Visualizza ordini di velocità effettiva sottoposta a provisioning

Per visualizzare gli ordini relativi alla velocità effettiva sottoposta a provisioning:

Console

  1. Nella console Google Cloud, vai alla pagina Velocità effettiva sottoposta a provisioning.

    Vai alla velocità effettiva sottoposta a provisioning

  2. Seleziona la Regione. Viene visualizzato l'elenco degli ordini.

Utilizza la velocità effettiva sottoposta a provisioning

Questa sezione spiega come controllare le eccedenze o bypassare la velocità effettiva sottoposta a provisioning e come monitorare l'uso della velocità effettiva sottoposta a provisioning.

Controlla i superamenti o ignora la velocità effettiva sottoposta a provisioning

Usa l'API REST per controllare le eccedenze quando superi la velocità effettiva acquistata o per bypassare la velocità effettiva sottoposta a provisioning su richiesta.

Leggi attentamente ogni opzione per determinare cosa devi fare per soddisfare il tuo caso d'uso.

Comportamento predefinito

Se superi la quantità di velocità effettiva acquistata, i superamenti vengono applicati al modello on demand e vengono fatturati al tariffa di pagamento a consumo. Dopo L'ordine della velocità effettiva sottoposta a provisioning è attivo; viene applicato il comportamento predefinito automaticamente. Non devi modificare il codice per iniziare a utilizzare i tuoi ordine.

Questo esempio di curl mostra il comportamento predefinito.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Utilizza solo la velocità effettiva sottoposta a provisioning

Se gestisci i costi evitando addebiti on demand, utilizza solo Velocità effettiva. Richieste che superano la restituzione dell'importo dell'ordine relativo alla velocità effettiva sottoposta a provisioning un errore 429.

Questo esempio di curl mostra come utilizzare l'API REST per utilizzare Solo sottoscrizione Velocità effettiva sottoposta a provisioning, con superamento della soglia che restituisce un errore 429.

Imposta l'intestazione X-Vertex-AI-LLM-Request-Type su dedicated.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Utilizza solo il pagamento a consumo

Denominato anche "utilizzo on demand". Le richieste ignorano il modulo Ordini di velocità effettiva e vengono inviati direttamente al pagamento a consumo. Potrebbe esserti utile per esperimenti o applicazioni in fase di sviluppo.

Questo esempio di curl mostra come utilizzare l'API REST per bypassare Velocità effettiva sottoposta a provisioning e utilizza solo il pagamento a consumo.

Imposta l'intestazione X-Vertex-AI-LLM-Request-Type su shared.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Monitora la velocità effettiva sottoposta a provisioning

Puoi monitorare l'utilizzo della velocità effettiva sottoposta a provisioning attraverso il monitoraggio delle metriche su richiesta.

Intestazioni della risposta

Se una richiesta è stata elaborata utilizzando la velocità effettiva sottoposta a provisioning, viene restituito il codice HTTP è presente nella risposta. Questa riga di codice si applica solo Chiamata API generateContent.

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

Metriche

La velocità effettiva sottoposta a provisioning può essere monitorata utilizzando un insieme di metriche misurate nel tipo di risorsa aiplatform.googleapis.com/PublisherModel. Ogni metrica è filtrabile in base alle seguenti dimensioni:

  • type: input e output
  • request_type: dedicated e shared

Per filtrare una metrica in modo da visualizzare l'utilizzo della velocità effettiva sottoposta a provisioning, utilizza dedicated tipo di richiesta. Il prefisso del percorso di una metrica è aiplatform.googleapis.com/publisher/online_serving. Ad esempio, il percorso completo della metrica /consumed_throughput è aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Le seguenti metriche di Cloud Monitoring sono disponibili nella aiplatform.googleapis.com/PublisherModel risorsa:

Metrica Descrizione Filtra per utilizzo della velocità effettiva sottoposta a provisioning
/characters Distribuzione del numero di caratteri di input e output
/character_count Conteggio dei caratteri di input e output accumulato
/consumed_throughput Velocità effettiva consumata (tieni conto del tasso di burndown) in caratteri
/model_invocation_count Numero di chiamate del modello (richieste di previsione)
/model_invocation_latencies Latenze di chiamata del modello (latenze di previsione)
/first_token_latencies Durata dalla richiesta ricevuta al primo token restituito
/tokens Distribuzione del conteggio dei token di input e output
/token_count Conteggio di token di input e output accumulato

Passaggi successivi