Utilizzare la velocità effettiva di cui è stato eseguito il provisioning

Questa pagina spiega come controllare gli sforamenti o bypassare il throughput Provisioning e come monitorare l'utilizzo del throughput Provisioning.

Controllare gli sforamenti o bypassare il throughput riservato

Utilizza l'API REST per controllare le eccedenze quando superi la capacità acquistata o per bypassare la funzionalità Throughput pianificato su base per richiesta.

Leggi ogni opzione per determinare cosa devi fare per soddisfare il tuo caso d'uso.

Comportamento predefinito

Se superi la quantità di throughput acquistata, le eccedenze vengono addebitate in base al servizio on demand e vengono fatturate in base alla tariffa di pagamento a consumo. Una volta attivo l'ordine di throughput provisionato, il comportamento predefinito viene applicato automaticamente. Non devi modificare il codice per iniziare a utilizzare l'ordine.

Questo esempio di curl mostra il comportamento predefinito.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Utilizza solo la velocità effettiva di cui è stato eseguito il provisioning

Se gestisci i costi evitando gli addebiti on demand, utilizza solo il throughput pianificato. Le richieste che superano l'importo dell'ordine di throughput riservato restituiscono un errore 429.

Questo esempio di curl mostra come utilizzare l'API REST per utilizzare solo l'abbonamento a Throughput Provisioning, con gli eccessi che restituiscono un errore 429.

Imposta l'intestazione X-Vertex-AI-LLM-Request-Type su dedicated.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Utilizza solo il pagamento a consumo

Questo approccio è detto anche on demand. Le richieste ignorano l'ordine di throughput provisionato e vengono inviate direttamente al pagamento a consumo. Questa opzione può essere utile per esperimenti o applicazioni in fase di sviluppo.

Questo esempio di curl mostra come utilizzare l'API REST per bypassare il throughput pianificato e utilizzare solo il pagamento a consumo.

Imposta l'intestazione X-Vertex-AI-LLM-Request-Type su shared.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Monitorare il throughput riservato

Puoi monitorare l'utilizzo del throughput provisionato tramite le metriche di monitoraggio e su base per richiesta.

Intestazioni della risposta

Se una richiesta è stata elaborata utilizzando il throughput pianificato, nella risposta è presente la seguente intestazione HTTP. Questa riga di codice si applica solo alla chiamata dell'API generateContent.

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

Metriche

Il throughput pianificato può essere monitorato utilizzando un insieme di metriche misurate sul tipo di risorsa aiplatform.googleapis.com/PublisherModel. A ogni metrica è possibile applicare un filtro in base alle seguenti dimensioni:

  • type: input, output
  • request_type: dedicated, shared

Per filtrare una metrica in modo da visualizzare l'utilizzo del throughput pianificato, utilizza il tipo di richiesta dedicated. Il prefisso percorso per una metrica è aiplatform.googleapis.com/publisher/online_serving.

Ad esempio, il percorso completo della metrica /consumed_throughput è aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Le seguenti metriche di Cloud Monitoring sono disponibili per la risorsa aiplatform.googleapis.com/PublisherModel nei modelli Gemini e hanno un filtro per l'utilizzo del throughput pianificato:

Metrica Nome visualizzato Descrizione
/characters Caratteri Distribuzione del numero di caratteri di input e output.
/character_count Numero di caratteri Conteggio dei caratteri di input e output accumulati.
/consumed_throughput Velocità effettiva dei caratteri Throughput consumato (tiene conto del tasso di burndown) in caratteri.
/model_invocation_count Conteggio chiamate del modello Numero di invocazioni del modello (richieste di previsione).
/model_invocation_latencies Latenze di chiamata del modello Latenze di chiamata del modello (latenze di previsione).
/first_token_latencies Latenze del primo token Durata dalla richiesta ricevuta al primo token restituito.
/tokens Token Distribuzione del conteggio dei token di input e output.
/token_count Conteggio token Conteggio dei token di input e di output accumulati.

I modelli Anthropic hanno anche un filtro per il throughput riservato, ma solo per tokens/token_count.

Passaggi successivi