Comprendere i video

Gemini può rispondere ai prompt sui video. Puoi aggiungere video alle richieste di Gemini per eseguire attività che comportano la comprensione dei contenuti del video incluso.

La comprensione dei video è uno degli input multimodali di Gemini che combinano il testo con i file multimediali.

Per ulteriori informazioni sulla comprensione dei video con Gemini e istruzioni passo passo per l'invio di richieste API, consulta la sezione Inviare un prompt multimodale.

Specifiche per i prompt con video

Puoi aggiungere file video alla tua richiesta a Gemini. La durata massima supportata dei dati video dipende dalla presenza o meno di audio nel video. Gemini supporta le seguenti durate massime dei video:

Video con audio: 100 secondi
Video senza audio: 120 secondi

Il numero massimo di file video consentiti in una richiesta di prompt è 10.

I video devono essere in uno dei seguenti tipi MIME supportati:

AVI: video/avi
FLV: video/x-flv
MOV: video/mov
MPEG: video/mpeg
MPG: video/mpg
MP4: video/mp4
WEBM: video/webm
WMV: video/wmv
3GP: video/3gpp

Gemini impone le seguenti regole sui video:

I video vengono campionati a un frame al secondo (fps). Ogni frame video conta 258 token.
La traccia audio è codificata con i frame video e suddivisa in segmenti di un secondo, ognuno dei quali conta 32 token. Il frame video e i token audio sono interlacciati insieme ai relativi timestamp, rappresentati da sette token.
Se il prompt contiene un solo video, posizionalo prima del prompt di testo.

Puoi utilizzare l'endpoint Completamenti di chat nell'API REST e utilizzare un client HTTP. Puoi fornire il video come dati incorporati nella richiesta di prompt come file codificato in base64 o caricare il file video in un bucket di archiviazione prima di effettuare la richiesta di prompt.

Scopri di più sulle best practice e sulle limitazioni per i video nella documentazione di Google Cloud .

Per saperne di più su OpenAI e sull'endpoint Chat Completions che Gemini implementa in Google Distributed Cloud (GDC) air-gapped, consulta https://platform.openai.com/docs/api-reference/chat.

Comprendere il video da un prompt

Gli esempi seguenti mostrano una richiesta dell'API Gemini Chat Completions per generare testo dall'input video utilizzando curl.

Inviare richieste di dati inline

Fornisci il video come dati incorporati alla richiesta del prompt dai file con codifica Base64. La richiesta API contiene il campo input_video per il video codificato in base64. Il seguente esempio mostra come inviare richieste video codificate in base64:

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d '{
      "model_id": "MODEL_ID",
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "input_video",
              "input_video": {
                "data": BASE64_DATA,
                # Valid formats are avi, flv, mov, mpeg, mpg, mp4, webm, wmv, or 3gpp
                "format": "wmv"
              }
            }
          ]
        }
      ],
    }'

Sostituisci quanto segue:

ENDPOINT: l'endpoint API che utilizzi per la tua organizzazione.
PROJECT: il tuo ID progetto.
MODEL_ID: l'ID endpoint del modello da cui vuoi generare la risposta.
BASE64_DATA: i dati codificati in base64 del file video. I dati con codifica Base64 devono avere come prefisso uno schema URI dati, RFC 2397. Pertanto, il formato del campo data per i dati con codifica Base64 è, ad esempio, "data": f"data:video/wmv;base64,{base64_video}".

Invia gli URL dei video nella richiesta

Carica il file video in un bucket di archiviazione prima di inviare la richiesta di prompt. La richiesta API contiene il campo video_url per i file video nei bucket di archiviazione. Il seguente esempio mostra come inviare richieste di URL video:

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d '{
      "model_id": "MODEL_ID",
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "video_url",
              "video_url": {
                "url": "VIDEO_URL",
              }
            }
          ]
        }
      ],
    }'