Analizar vídeos

Gemini puede responder a peticiones sobre vídeos. Puedes añadir vídeos a las peticiones de Gemini para que realice tareas que impliquen comprender el contenido del vídeo incluido.

.

La comprensión de vídeo es una de las entradas multimodales de Gemini que combina texto con archivos multimedia.

Para obtener más información sobre la comprensión de vídeo con Gemini e instrucciones paso a paso para enviar solicitudes a la API, consulta Enviar una petición multimodal.

Especificaciones de las peticiones con vídeo

Puedes añadir archivos de vídeo a tu petición a Gemini. La duración máxima admitida de los datos de vídeo depende de si el vídeo contiene audio. Gemini admite las siguientes duraciones máximas de vídeo:

  • Vídeo con audio: 100 segundos
  • Vídeos sin audio: 120 segundos

El número máximo de archivos de vídeo permitidos en una solicitud es 10.

Los vídeos deben tener uno de los siguientes tipos MIME admitidos:

  • AVI: video/avi
  • FLV: video/x-flv
  • MOV: video/mov
  • MPEG: video/mpeg
  • MPG: video/mpg
  • MP4: video/mp4
  • WEBM: video/webm
  • WMV: video/wmv
  • 3GP: video/3gpp

Gemini impone las siguientes reglas en los vídeos:

  • Los vídeos se muestrean a un fotograma por segundo (fps). Cada fotograma de vídeo equivale a 258 tokens.
  • La pista de audio se codifica con fotogramas de vídeo y se desglosa en fragmentos de un segundo, cada uno de los cuales representa 32 tokens. Los fotogramas de vídeo y los tokens de audio se entrelazan con sus marcas de tiempo, que se representan con siete tokens.
  • Si tu petición contiene un solo vídeo, colócalo antes del texto de la petición.

Puedes usar el endpoint Chat Completions de la API REST y un cliente HTTP. Puedes proporcionar el vídeo como datos insertados en la solicitud de petición como un archivo codificado en base64 o subir el archivo de vídeo a un contenedor de almacenamiento antes de enviar la solicitud de petición.

Consulte más información sobre las prácticas recomendadas y las limitaciones de los vídeos en la Google Cloud documentación.

Para obtener más información sobre OpenAI y el endpoint Chat Completions que Gemini implementa en la configuración con air gap de Google Distributed Cloud (GDC), consulta https://platform.openai.com/docs/api-reference/chat.

Entender un vídeo a partir de una petición

En los siguientes ejemplos se muestra una solicitud a la API Completions de Gemini Chat para generar texto a partir de una entrada de vídeo mediante curl.

Enviar solicitudes de datos insertados

Proporciona vídeo como datos insertados en la solicitud de la petición a partir de archivos codificados en base64. La solicitud de la API contiene el campo input_video para el vídeo codificado en base64. En el siguiente ejemplo se muestra cómo enviar solicitudes de vídeo codificadas en Base64:

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d '{
      "model_id": "MODEL_ID",
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "input_video",
              "input_video": {
                "data": BASE64_DATA,
                # Valid formats are avi, flv, mov, mpeg, mpg, mp4, webm, wmv, or 3gpp
                "format": "wmv"
              }
            }
          ]
        }
      ],
    }'

Haz los cambios siguientes:

  • ENDPOINT: el endpoint de la API que usas en tu organización.
  • PROJECT: tu ID de proyecto.
  • MODEL_ID: el ID del endpoint del modelo con el que quieres generar la respuesta.
  • BASE64_DATA: los datos codificados en base64 del archivo de vídeo. Los datos codificados en Base64 deben ir precedidos de un esquema de URI de datos, RFC 2397. Por lo tanto, el formato del campo data de los datos codificados en base64 es, por ejemplo, "data": f"data:video/wmv;base64,{base64_video}".

Enviar URLs de vídeos en la solicitud

Sube el archivo de vídeo a un contenedor de almacenamiento antes de enviar la solicitud. La solicitud de la API contiene el campo video_url para los archivos de vídeo de los segmentos de almacenamiento. En el siguiente ejemplo se muestra cómo enviar solicitudes de URL de vídeo:

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d '{
      "model_id": "MODEL_ID",
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "video_url",
              "video_url": {
                "url": "VIDEO_URL",
              }
            }
          ]
        }
      ],
    }'

Haz los cambios siguientes:

  • ENDPOINT: el endpoint de la API que usas en tu organización.
  • PROJECT: tu ID de proyecto.
  • MODEL_ID: el ID del endpoint del modelo con el que quieres generar la respuesta.
  • VIDEO_URL: la ruta a una URL de vídeo en un contenedor de almacenamiento. Las URLs de vídeo deben hacer referencia a archivos de vídeo almacenados en un segmento de almacenamiento de GDC. Para obtener más información, consulta Almacenar datos.

Siguientes pasos