Modelli supportati
I seguenti modelli multimodali supportano il recupero di una stima del token del prompt conteggio:
gemini-1.5-flash-001
gemini-1.5-pro-001
gemini-1.0-pro-002
gemini-1.0-pro-vision-001
Per scoprire di più sulle versioni del modello, consulta Versioni dei modelli Gemini e ciclo di vita.
Recupera il conteggio dei token per un prompt
Puoi ottenere la stima del conteggio dei token e il numero di caratteri fatturabili per un utilizzando l'API Vertex AI.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, vedi Installare l'SDK Vertex AI per Python. Per ulteriori informazioni, consulta documentazione di riferimento dell'API Python.
Java
Prima di provare questo esempio, segui le istruzioni per la configurazione di Java nel Guida rapida di Vertex AI con librerie client. Per ulteriori informazioni, consulta API Java Vertex AI documentazione di riferimento.
Per eseguire l'autenticazione su Vertex AI, configura Credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Prima di provare questo esempio, segui le istruzioni per la configurazione di Node.js nel Guida rapida di Vertex AI con librerie client. Per ulteriori informazioni, consulta API Node.js Vertex AI documentazione di riferimento.
Per eseguire l'autenticazione su Vertex AI, configura Credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
REST
a ottenere il conteggio dei token e il numero di caratteri fatturabili per una richiesta Utilizzando l'API Vertex AI, invia una richiesta POST all'endpoint del modello del publisher.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- LOCATION: la regione in cui elaborare la richiesta. Disponibile
sono le seguenti:
Fai clic per espandere un elenco parziale delle regioni disponibili
us-central1
us-west4
northamerica-northeast1
us-east4
us-west1
asia-northeast3
asia-southeast1
asia-northeast1
- PROJECT_ID: il tuo ID progetto.
- MODEL_ID: l'ID del modello multimodale che vuoi utilizzare.
- ROLE:
Il ruolo in una conversazione associata ai contenuti. La specifica di un ruolo è obbligatoria anche in
e i casi d'uso a turno singolo.
I valori accettati sono:
USER
: specifica i contenuti inviati da te.
- TEXT: Le istruzioni testuali da includere nel prompt.
- NAME: il nome della funzione da chiamare.
- DESCRIPTION: descrizione e scopo della funzione.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_ID:countTokens
Corpo JSON della richiesta:
{ "contents": [{ "role": "ROLE", "parts": [{ "text": "TEXT" }] }], "system_instruction": { "role": "ROLE", "parts": [{ "text": "TEXT" }] } "tools": [{ "function_declarations": [ { "name": "NAME", "description": "DESCRIPTION", "parameters": { "type": "OBJECT", "properties": { "location": { "type": "TYPE", "description": "DESCRIPTION" } }, "required": [ "location" ] } } ] }] }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_ID:countTokens"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_ID:countTokens" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Console
Per ottenere il conteggio dei token per un prompt utilizzando Vertex AI Studio nella Console Google Cloud, segui questi passaggi:
- Nella sezione Vertex AI della console Google Cloud, vai a la pagina Vertex AI Studio.
- In Progettazione di prompt (a turno singolo), fai clic su Apri.
(Facoltativo) Configura il modello e i parametri:
- Modello: seleziona un modello.
- Regione: seleziona la regione che vuoi utilizzare.
Temperatura: utilizza il cursore o la casella di testo per inserire un valore per la temperatura dell'acqua.
La temperatura viene utilizzata per il campionamento durante la generazione della risposta, che si verifica quandotopP
etopK
. La temperatura controlla il grado di casualità nella selezione dei token. Le temperature più basse sono ideali per prompt che richiedono una risposta meno aperta o creativa, mentre temperature più alte possono portare a risultati più diversificati o creativi. Una temperatura di0
significa che vengono sempre selezionati i token con la probabilità più alta. In questo caso, le risposte per un determinato sono per lo più deterministici, ma è ancora possibile una piccola variazione.Se il modello restituisce una risposta troppo generica, troppo breve, oppure fornisce una risposta di riserva di risposta, prova ad aumentare la temperatura.
Limite di token di output. Utilizza il dispositivo di scorrimento o la casella di testo per inserire un valore per il parametro limite massimo di output.
Numero massimo di token che possono essere generati nella risposta. Un token è di circa quattro caratteri. 100 token corrispondono a circa 60-80 parole.Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe diverse.
- Aggiungi una sequenza di interruzioni: facoltativo. Inserisci una sequenza di interruzioni, ovvero una serie che includono spazi. Se il modello incontra una sequenza di interruzioni, la generazione della risposta si interrompe. La sequenza di interruzioni non è inclusa nella risposta e puoi aggiungere fino a cinque sequenze di interruzioni.
- (Facoltativo) Per configurare parametri avanzati, fai clic su Avanzato e
configurala come segue:
. Fai clic per espandere le configurazioni avanzate
Top-K: utilizza il cursore o la casella di testo per inserire un valore per top-K.
Top-K cambia il modo in cui il modello seleziona i token per l'output. Un top-K di1
significa che il successivo token selezionato è il più probabile tra tutti nel vocabolario del modello (chiamato anche decodifica greedy), mentre una top-K di3
significa che il token successivo viene selezionato tra i tre probabili token utilizzando la temperatura.Per ogni passaggio di selezione dei token, vengono mostrati i token top-K con il vengono campionate. Quindi i token vengono ulteriormente filtrati in base a top-P con il token finale selezionato utilizzando il campionamento della temperatura.
Specifica un valore più basso per risposte meno casuali e un valore più alto per più risposte risposte casuali.
- Top-P: utilizza il cursore o la casella di testo per inserire un valore per top-P.
I token vengono selezionati dal più probabile al meno probabile fino alla somma dei loro
le probabilità equivalgono al valore di top-P. Per ottenere risultati meno variabili,
imposta top-P su
0
. - Attiva grounding: aggiungi un'origine di grounding e un percorso per personalizzare questa funzionalità.
- Inserisci il prompt di testo nel riquadro Prompt.
- Per visualizzare il numero di token calcolati nei file audio, il numero di token di testo e la somma di tutti i token, fai clic su Visualizza token. Puoi visualizzare i token o gli ID token del tuo prompt di testo.
- Per visualizzare nel prompt di testo i token evidenziati con colori diversi che contrassegnano il confine di ciascun ID token, fai clic su da ID token a testo. I token multimediali non sono supportati.
- Per visualizzare gli ID token, fai clic su ID token.
Per chiudere il riquadro dello strumento tokenizzatore, fai clic sulla X o fai clic all'esterno del riquadro.
Esempio di comando curl per testo con immagine o video:
MODEL_ID="gemini-1.0-pro-vision"
PROJECT_ID="my-project"
TEXT="Provide a summary with about two sentences for the following article."
REGION="us-central1"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${REGION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${REGION}/publishers/google/models/${MODEL_ID}:countTokens -d \
$'{
"contents": [{
"role": "user",
"parts": [
{
"file_data": {
"file_uri": "gs://cloud-samples-data/generative-ai/video/pixel8.mp4",
"mime_type": "video/mp4"
}
},
{
"text": "'"$TEXT"'"
}]
}]
}'
Comando curl di esempio solo per il testo:
MODEL_ID="gemini-1.0-pro-vision"
PROJECT_ID="my-project"
TEXT="Provide a summary with about two sentences for the following article."
REGION="us-central1"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${REGION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${REGION}/publishers/google/models/${MODEL_ID}:countTokens -d \
$'{
"contents": [{
"role": "user",
"parts": [{
"text": "'"$TEXT"'"
}]
}]
}'
Prezzi e quote
Non sono previsti addebiti o limitazioni di quota per l'utilizzo dell'API CountTokens
. La
La quota massima per l'API CountTokens
è di 3000 richieste al minuto.
Passaggi successivi
- Scopri come testare i prompt di chat.
- Scopri come testare i prompt di testo.