Questa pagina spiega come controllare gli sforamenti o bypassare il throughput Provisioning e come monitorare l'utilizzo del throughput Provisioning.
Controllare gli sforamenti o bypassare il throughput riservato
Utilizza l'API REST per controllare le eccedenze quando superi la capacità acquistata o per bypassare la funzionalità Throughput pianificato su base per richiesta.
Leggi ogni opzione per determinare cosa devi fare per soddisfare il tuo caso d'uso.
Comportamento predefinito
Se superi la quantità di throughput acquistata, le eccedenze vengono addebitate in base al servizio on demand e vengono fatturate in base alla tariffa di pagamento a consumo. Una volta attivo l'ordine di throughput provisionato, il comportamento predefinito viene applicato automaticamente. Non devi modificare il codice per iniziare a utilizzare l'ordine.
Questo esempio di curl mostra il comportamento predefinito.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Utilizza solo la velocità effettiva di cui è stato eseguito il provisioning
Se gestisci i costi evitando gli addebiti on demand, utilizza solo il throughput pianificato. Le richieste che superano l'importo dell'ordine di throughput riservato restituiscono un errore 429.
Questo esempio di curl mostra come utilizzare l'API REST per utilizzare solo l'abbonamento a Throughput Provisioning, con gli eccessi che restituiscono un errore 429.
Imposta l'intestazione X-Vertex-AI-LLM-Request-Type
su dedicated
.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Utilizza solo il pagamento a consumo
Questo approccio è detto anche on demand. Le richieste ignorano l'ordine di throughput provisionato e vengono inviate direttamente al pagamento a consumo. Questa opzione può essere utile per esperimenti o applicazioni in fase di sviluppo.
Questo esempio di curl mostra come utilizzare l'API REST per bypassare il throughput pianificato e utilizzare solo il pagamento a consumo.
Imposta l'intestazione X-Vertex-AI-LLM-Request-Type
su shared
.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: shared" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Monitorare il throughput riservato
Puoi monitorare l'utilizzo del throughput provisionato tramite le metriche di monitoraggio e su base per richiesta.
Intestazioni della risposta
Se una richiesta è stata elaborata utilizzando il throughput pianificato, nella risposta è presente la seguente intestazione HTTP. Questa riga di codice si applica solo alla chiamata dell'API generateContent
.
{"X-Vertex-AI-LLM-Request-Type": "dedicated"}
Metriche
Il throughput pianificato può essere monitorato utilizzando un insieme di metriche misurate sul tipo di risorsa aiplatform.googleapis.com/PublisherModel
.
A ogni metrica è possibile applicare un filtro in base alle seguenti dimensioni:
type
:input
,output
request_type
:dedicated
,shared
Per filtrare una metrica in modo da visualizzare l'utilizzo del throughput pianificato, utilizza il tipo di richiesta dedicated
. Il prefisso percorso per una metrica è
aiplatform.googleapis.com/publisher/online_serving
.
Ad esempio, il percorso completo della metrica /consumed_throughput
è
aiplatform.googleapis.com/publisher/online_serving/consumed_throughput
.
Le seguenti metriche di Cloud Monitoring sono disponibili per la risorsa aiplatform.googleapis.com/PublisherModel
nei modelli Gemini e hanno un filtro per l'utilizzo del throughput pianificato:
Metrica | Nome visualizzato | Descrizione |
---|---|---|
/characters |
Caratteri | Distribuzione del numero di caratteri di input e output. |
/character_count |
Numero di caratteri | Conteggio dei caratteri di input e output accumulati. |
/consumed_throughput |
Velocità effettiva dei caratteri | Throughput consumato (tiene conto del tasso di burndown) in caratteri. |
/model_invocation_count |
Conteggio chiamate del modello | Numero di invocazioni del modello (richieste di previsione). |
/model_invocation_latencies |
Latenze di chiamata del modello | Latenze di chiamata del modello (latenze di previsione). |
/first_token_latencies |
Latenze del primo token | Durata dalla richiesta ricevuta al primo token restituito. |
/tokens |
Token | Distribuzione del conteggio dei token di input e output. |
/token_count |
Conteggio token | Conteggio dei token di input e di output accumulati. |
I modelli Anthropic hanno anche un filtro per il throughput riservato, ma solo per tokens/token_count
.
Passaggi successivi
- Risolvi il problema relativo al codice di errore
429
.