Comprensión de videos

Gemini puede responder instrucciones sobre videos. Puedes agregar videos a las solicitudes de Gemini para realizar tareas que impliquen comprender el contenido de los videos incluidos.

La comprensión de videos es una de las entradas multimodales de Gemini que combinan texto con archivos multimedia.

Para obtener más información sobre la comprensión de videos con Gemini y las instrucciones paso a paso para enviar solicitudes a la API, consulta Envía una instrucción multimodal.

Especificaciones para las instrucciones con video

Puedes agregar archivos de video a tu solicitud de Gemini. La duración máxima admitida de los datos de video depende de si el video contiene audio. Gemini admite las siguientes duraciones máximas de video:

  • Video con audio: 100 segundos
  • Video sin audio: 120 segundos

La cantidad máxima de archivos de video permitidos en una solicitud de instrucciones es de 10.

Los videos deben estar en uno de los siguientes tipos de MIME admitidos:

  • AVI: video/avi
  • FLV: video/x-flv
  • MOV: video/mov
  • MPEG: video/mpeg
  • MPG: video/mpg
  • MP4: video/mp4
  • WEBM: video/webm
  • WMV: video/wmv
  • 3GP: video/3gpp

Gemini impone las siguientes reglas en los videos:

  • Los videos se muestrean a un fotograma por segundo (fps). Cada fotograma de video representa 258 tokens.
  • La pista de audio se codifica con fotogramas de video y se desglosa en enlaces troncales de un segundo, cada uno de los cuales representa 32 tokens. El fotograma de video y los tokens de audio se intercalan junto con sus marcas de tiempo, que se representan con siete tokens.
  • Si la instrucción contiene un solo video, colócalo antes de la instrucción de texto.

Puedes usar el extremo de Chat Completions en la API de REST y un cliente HTTP. Puedes proporcionar el video como datos intercalados en la solicitud de mensaje como un archivo codificado en base64 o subir el archivo de video a un bucket de almacenamiento antes de realizar la solicitud de mensaje.

Obtén más información sobre las prácticas recomendadas y las limitaciones para los videos en la documentación de Google Cloud .

Para obtener más información sobre OpenAI y el extremo de Chat Completions que Gemini implementa en Google Distributed Cloud (GDC) aislado, consulta https://platform.openai.com/docs/api-reference/chat.

Comprende el video a partir de una instrucción

En los siguientes ejemplos, se muestra una solicitud a la API de Gemini Chat Completions para generar texto a partir de una entrada de video con curl.

Envía solicitudes de datos intercalados

Proporciona el video como datos intercalados en la solicitud de instrucción a partir de archivos codificados en Base64. La solicitud a la API contiene el campo input_video para el video codificado en Base64. En el siguiente ejemplo, se muestra cómo enviar solicitudes de video codificadas en Base64:

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d '{
      "model_id": "MODEL_ID",
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "input_video",
              "input_video": {
                "data": BASE64_DATA,
                # Valid formats are avi, flv, mov, mpeg, mpg, mp4, webm, wmv, or 3gpp
                "format": "wmv"
              }
            }
          ]
        }
      ],
    }'

Reemplaza lo siguiente:

  • ENDPOINT: Es el extremo de API que usas para tu organización.
  • PROJECT: el ID de tu proyecto
  • MODEL_ID: Es el ID del extremo del modelo con el que deseas generar la respuesta.
  • BASE64_DATA: Son los datos codificados en base64 del archivo de video. Los datos codificados en Base64 deben tener el prefijo de un esquema de URI de datos, RFC 2397. Por lo tanto, el formato del campo data para los datos codificados en base64 es, por ejemplo, "data": f"data:video/wmv;base64,{base64_video}".

Envía URLs de videos en la solicitud

Sube el archivo de video a un bucket de almacenamiento antes de realizar la solicitud de instrucción. La solicitud de API contiene el campo video_url para los archivos de video en buckets de almacenamiento. En el siguiente ejemplo, se muestra cómo enviar solicitudes de URLs de videos:

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d '{
      "model_id": "MODEL_ID",
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "video_url",
              "video_url": {
                "url": "VIDEO_URL",
              }
            }
          ]
        }
      ],
    }'

Reemplaza lo siguiente:

  • ENDPOINT: Es el extremo de API que usas para tu organización.
  • PROJECT: el ID de tu proyecto
  • MODEL_ID: Es el ID del extremo del modelo con el que deseas generar la respuesta.
  • VIDEO_URL: Es la ruta de acceso a una URL de video en un bucket de almacenamiento. Las URLs de video deben hacer referencia a archivos de video almacenados en un bucket de almacenamiento de GDC. Para obtener más información, consulta Almacena datos.

¿Qué sigue?