Gemini può rispondere ai prompt sui video. Puoi aggiungere video alle richieste di Gemini per eseguire attività che comportano la comprensione dei contenuti del video incluso.
La comprensione dei video è uno degli input multimodali di Gemini che combinano il testo con i file multimediali.
Per ulteriori informazioni sulla comprensione dei video con Gemini e istruzioni passo passo per l'invio di richieste API, consulta la sezione Inviare un prompt multimodale.
Specifiche per i prompt con video
Puoi aggiungere file video alla tua richiesta a Gemini. La durata massima supportata dei dati video dipende dalla presenza o meno di audio nel video. Gemini supporta le seguenti durate massime dei video:
- Video con audio: 100 secondi
- Video senza audio: 120 secondi
Il numero massimo di file video consentiti in una richiesta di prompt è 10.
I video devono essere in uno dei seguenti tipi MIME supportati:
- AVI:
video/avi - FLV:
video/x-flv - MOV:
video/mov - MPEG:
video/mpeg - MPG:
video/mpg - MP4:
video/mp4 - WEBM:
video/webm - WMV:
video/wmv - 3GP:
video/3gpp
Gemini impone le seguenti regole sui video:
- I video vengono campionati a un frame al secondo (fps). Ogni frame video conta 258 token.
- La traccia audio è codificata con i frame video e suddivisa in segmenti di un secondo, ognuno dei quali conta 32 token. Il frame video e i token audio sono interlacciati insieme ai relativi timestamp, rappresentati da sette token.
- Se il prompt contiene un solo video, posizionalo prima del prompt di testo.
Puoi utilizzare l'endpoint Completamenti di chat nell'API REST e utilizzare un client HTTP. Puoi fornire il video come dati incorporati nella richiesta di prompt come file codificato in base64 o caricare il file video in un bucket di archiviazione prima di effettuare la richiesta di prompt.
Scopri di più sulle best practice e sulle limitazioni per i video nella documentazione di Google Cloud .
Per saperne di più su OpenAI e sull'endpoint Chat Completions che Gemini implementa in Google Distributed Cloud (GDC) air-gapped, consulta https://platform.openai.com/docs/api-reference/chat.
Comprendere il video da un prompt
Gli esempi seguenti mostrano una richiesta dell'API Gemini Chat Completions per
generare testo dall'input video utilizzando curl.
Inviare richieste di dati inline
Fornisci il video come dati incorporati alla richiesta del prompt dai file con codifica Base64.
La richiesta API contiene il campo input_video per il video codificato in base64. Il
seguente esempio mostra come inviare richieste video codificate in base64:
curl \
-X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
-H "Content-Type: application/json; charset=utf-8" \
-H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
-d '{
"model_id": "MODEL_ID",
"messages": [
{
"role": "user",
"content": [
{
"type": "input_video",
"input_video": {
"data": BASE64_DATA,
# Valid formats are avi, flv, mov, mpeg, mpg, mp4, webm, wmv, or 3gpp
"format": "wmv"
}
}
]
}
],
}'
Sostituisci quanto segue:
ENDPOINT: l'endpoint API che utilizzi per la tua organizzazione.PROJECT: il tuo ID progetto.MODEL_ID: l'ID endpoint del modello da cui vuoi generare la risposta.BASE64_DATA: i dati codificati in base64 del file video. I dati con codifica Base64 devono avere come prefisso uno schema URI dati, RFC 2397. Pertanto, il formato del campodataper i dati con codifica Base64 è, ad esempio,"data": f"data:video/wmv;base64,{base64_video}".
Invia gli URL dei video nella richiesta
Carica il file video in un bucket di archiviazione prima di inviare la richiesta di prompt. La richiesta
API contiene il campo video_url per i file video nei bucket di archiviazione. Il seguente esempio mostra come inviare richieste di URL video:
curl \
-X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
-H "Content-Type: application/json; charset=utf-8" \
-H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
-d '{
"model_id": "MODEL_ID",
"messages": [
{
"role": "user",
"content": [
{
"type": "video_url",
"video_url": {
"url": "VIDEO_URL",
}
}
]
}
],
}'
Sostituisci quanto segue:
ENDPOINT: l'endpoint API che utilizzi per la tua organizzazione.PROJECT: il tuo ID progetto.MODEL_ID: l'ID endpoint del modello da cui vuoi generare la risposta.VIDEO_URL: il percorso di un URL video in un bucket di archiviazione. Gli URL dei video devono fare riferimento a file video archiviati in un bucket di archiviazione GDC. Per maggiori informazioni, consulta la pagina Memorizzare i dati.