Se usó la API de Cloud Translation para traducir esta página.

Comprensión de videos

Puedes agregar videos a las solicitudes de Gemini para realizar tareas que impliquen comprender el contenido de los videos incluidos. En esta página, se muestra cómo agregar videos a tus solicitudes de Gemini en Vertex AI con la consola de Google Cloud y la API de Vertex AI.

Modelos compatibles

En la siguiente tabla, se enumeran los modelos que admiten la comprensión de videos:

Modelo	Detalles de los medios	Tipos de MIME
Gemini 2.5 Flash (versión preliminar)	Duración máxima del video (con audio): Aproximadamente 45 minutos Duración máxima del video (sin audio): Aproximadamente 1 hora Cantidad máxima de videos por instrucción: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash-Lite (versión preliminar)	Duración máxima del video (con audio): Aproximadamente 45 minutos Duración máxima del video (sin audio): Aproximadamente 1 hora Cantidad máxima de videos por instrucción: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash-Lite	Duración máxima del video (con audio): Aproximadamente 45 minutos Duración máxima del video (sin audio): Aproximadamente 1 hora Cantidad máxima de videos por instrucción: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash con audio nativo de la API de Live (versión preliminar)	Resolución estándar: 768 x 768	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash con la API en vivo (versión preliminar)	Duración máxima del video (con audio): Aproximadamente 45 minutos Duración máxima del video (sin audio): Aproximadamente 1 hora Cantidad máxima de videos por instrucción: 10 Cantidad máxima de tokens por minuto (TPM): Resolución de medios alta, media o predeterminada: EE.UU./Asia: 37.9 M UE: 9.5 M Baja resolución de los medios: EE.UU./Asia: 1 G UE: 2.5 millones	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash con generación de imágenes (versión preliminar)	Duración máxima del video (con audio): Aproximadamente 45 minutos Duración máxima del video (sin audio): Aproximadamente 1 hora Cantidad máxima de videos por instrucción: 10 Cantidad máxima de tokens por minuto (TPM): Resolución de medios alta, media o predeterminada: EE.UU./Asia: 37.9 M UE: 9.5 M Baja resolución de los medios: EE.UU./Asia: 1 G UE: 2.5 millones
Gemini 2.5 Pro	Duración máxima del video (con audio): Aproximadamente 45 minutos Duración máxima del video (sin audio): Aproximadamente 1 hora Cantidad máxima de videos por instrucción: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash	Duración máxima del video (con audio): Aproximadamente 45 minutos Duración máxima del video (sin audio): Aproximadamente 1 hora Cantidad máxima de videos por instrucción: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash	Duración máxima del video (con audio): Aproximadamente 45 minutos Duración máxima del video (sin audio): Aproximadamente 1 hora Cantidad máxima de videos por instrucción: 10 Cantidad máxima de tokens por minuto (TPM): Resolución de medios alta, media o predeterminada: US/Asia: 38 M UE: 10 millones Baja resolución de los medios: EE.UU./Asia: 10 millones UE: 2.5 millones	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash-Lite	Duración máxima del video (con audio): Aproximadamente 45 minutos Duración máxima del video (sin audio): Aproximadamente 1 hora Cantidad máxima de videos por instrucción: 10 Cantidad máxima de tokens por minuto (TPM): Resolución de medios alta, media o predeterminada: EE.UU./Asia: 6.3 M UE: 3.2 M Baja resolución de los medios: EE.UU./Asia: 3.2 M UE: 3.2 M	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`

La métrica de cuota es generate_content_video_input_per_base_model_id_and_resolution.

Para obtener una lista de los idiomas compatibles con los modelos de Gemini, consulta la información del modelo de los Modelos de Google. Para obtener más información sobre cómo diseñar instrucciones multimodales, consulta Diseña instrucciones multimodales. Si buscas una manera de usar Gemini directamente desde tus apps web y para dispositivos móviles, consulta los SDK de cliente de Firebase AI Logic para apps de Swift, Android, Web, Flutter y Unity.

Agregar videos a una solicitud

Puedes agregar uno o varios videos a tu solicitud a Gemini, y estos pueden incluir audio.

Video único

En el código de ejemplo de cada una de las siguientes pestañas, se muestra una forma diferente de identificar el contenido de un video. Esta muestra funciona con todos los modelos multimodales de Gemini.

Console

Para enviar una instrucción multimodal con la Google Cloud consola, haz lo siguiente:

En la sección Vertex AI de la Google Cloud consola, ve a la página Vertex AI Studio.

Ir a Vertex AI Studio
Haz clic en Crear mensaje.
Opcional: Configura el modelo y los parámetros:
- Modelo: Selecciona un modelo.
Opcional: Para configurar parámetros avanzados, haz clic en Avanzada y establece la configuración de la siguiente manera:
Haz clic para expandir las configuraciones avanzadas
- K superior: Usa el control deslizante o el cuadro de texto con el fin de ingresar un valor para K superior.
  K superior cambia la manera en que el modelo selecciona tokens para la salida. K superior a 1 significa que el siguiente token seleccionado es el más probable entre todos los tokens en el vocabulario del modelo (también llamado decodificación voraz), mientras que el K superior a 3 significa que el siguiente token se selecciona de los tres tokens más probables mediante la temperatura.
  Para cada paso de selección de tokens, se muestran los tokens de K superior con las probabilidades más altas. Luego, los tokens se filtran según el superior con el token final seleccionado mediante el muestreo de temperatura.
  
  Especifica un valor más bajo para respuestas menos aleatorias y un valor más alto para respuestas más aleatorias.
- P superior: Usa el control deslizante o el cuadro de texto con el fin de ingresar un valor de P superior. Los tokens se seleccionan del más probable al menos hasta que la suma de sus probabilidades sea igual al valor de P superior. Para obtener los resultados menos variables, establece top-P como 0.
- Respuestas máximas: Usa el control deslizante o el cuadro de texto para ingresar un valor para la cantidad de respuestas que se generarán.
- Respuestas de transmisión: Habilita esta opción para imprimir las respuestas a medida que se generan.
- Umbral del filtro de seguridad: Selecciona el umbral de probabilidad de ver respuestas que podrían ser dañinas.
- Habilitar fundamentos: Los fundamentos no son compatibles con las instrucciones multimodales.
- Región: selecciona la región que deseas usar.
- Temperatura: Usa el control deslizante o el cuadro de texto para ingresar un valor de temperatura.
  The temperature is used for sampling during response generation, which occurs when topP and topK are applied. Temperature controls the degree of randomness in token selection. Lower temperatures are good for prompts that require a less open-ended or creative response, while higher temperatures can lead to more diverse or creative results. A temperature of 0 means that the highest probability tokens are always selected. In this case, responses for a given prompt are mostly deterministic, but a small amount of variation is still possible. If the model returns a response that's too generic, too short, or the model gives a fallback response, try increasing the temperature. <li>**Output token limit**: Use the slider or textbox to enter a value for the max output limit. Maximum number of tokens that can be generated in the response. A token is approximately four characters. 100 tokens correspond to roughly 60-80 words. Specify a lower value for shorter responses and a higher value for potentially longer responses. <li>**Add stop sequence**: Optional. Enter a stop sequence, which is a series of characters that includes spaces. If the model encounters a stop sequence, the response generation stops. The stop sequence isn't included in the response, and you can add up to five stop sequences. </ul>
Haz clic en Insertar medios y selecciona una fuente para tu archivo.
Subir
Selecciona el archivo que quieras subir y haz clic en Abrir.

Por URL
Ingresa la URL del archivo que quieres usar y haz clic en Insertar.

YouTube

Vista previa

Esta función está sujeta a las “Condiciones de la Oferta de la Fase Previa a la DG” en la sección Condiciones del Servicio Generales de las Condiciones Específicas del Servicio. Las funciones de la fase previa a la DG están disponibles "sin modificaciones" y pueden tener asistencia limitada. Para obtener más información, consulta las descripciones de la etapa de lanzamiento.

Ingresa la URL del video de YouTube que quieres usar y haz clic en Insertar.

Puedes usar cualquier video público o uno que pertenezca a la cuenta que usaste para acceder a la consola de Google Cloud .

Cloud Storage
Selecciona el bucket y, luego, el archivo del bucket que deseas importar y haz clic en Seleccionar.
Google Drive
1. Elige una cuenta y da consentimiento a Vertex AI Studio para acceder a tu cuenta la primera vez que selecciones esta opción. Puedes subir varios archivos con un tamaño total de hasta 10 MB. Un solo archivo no puede superar los 7 MB.
2. Haz clic en el archivo que quieras agregar.
3. Haz clic en Seleccionar.
  
  La miniatura del archivo se muestra en el panel Instrucción. También se muestra la cantidad total de tokens. Si los datos de la instrucción superan el límite de tokens, los tokens se truncan y no se incluyen en el procesamiento de tus datos.
Ingresa tu mensaje de texto en el panel Mensaje.
Opcional: Para ver el ID de token a texto y los IDs de token, haz clic en el recuento de tokens en el panel Instrucción.

Nota: No se admiten tokens multimedia.
Haz clic en Enviar.
Opcional: Para guardar la instrucción en Mis instrucciones, haz clic en Guardar.
Opcional: Para obtener el código de Python o un comando curl para tu instrucción, haz clic en Compilar con código > Obtener código.

Python

Instalar

pip install --upgrade google-genai

Para obtener más información, consulta la documentación de referencia del SDK.

Establece variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
            mime_type="video/mp4",
        ),
        "What is in the video?",
    ],
)
print(response.text)
# Example response:
# The video shows several people surfing in an ocean with a coastline in the background. The camera ...

Go

Obtén más información para instalar o actualizar Go.

Para obtener más información, consulta la documentación de referencia del SDK.

Establece variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"

	genai "google.golang.org/genai"
)

// generateWithMuteVideo shows how to generate text using a video with no sound as the input.
func generateWithMuteVideo(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{APIVersion: "v1"},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := []*genai.Content{
		{Parts: []*genai.Part{
			{Text: "What is in the video?"},
			{FileData: &genai.FileData{
				FileURI:  "gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
				MIMEType: "video/mp4",
			}},
		},
			Role: "user"},
	}

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// The video shows several surfers riding waves in an ocean setting. The waves are ...

	return nil
}

Java

Obtén más información para instalar o actualizar Java.

Para obtener más información, consulta la documentación de referencia del SDK.

Establece variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.Content;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.HttpOptions;
import com.google.genai.types.Part;

public class TextGenerationWithMuteVideo {

  public static void main(String[] args) {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash";
    generateContent(modelId);
  }

  // Generates text with mute video input
  public static String generateContent(String modelId) {
    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests.
    try (Client client =
        Client.builder()
            .location("global")
            .vertexAI(true)
            .httpOptions(HttpOptions.builder().apiVersion("v1").build())
            .build()) {

      GenerateContentResponse response =
          client.models.generateContent(
              modelId,
              Content.fromParts(
                  Part.fromUri(
                      "gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
                      "video/mp4"),
                  Part.fromText("What is in this video?")),
              null);

      System.out.print(response.text());
      // Example response:
      // This video features **surfers in the ocean**.
      //
      // The main focus is on **one individual who catches and rides a wave**, executing various
      // turns and maneuvers as the wave breaks and dissipates into whitewater...
      return response.text();
    }
  }
}

Node.js

Instalar

npm install @google/genai

Para obtener más información, consulta la documentación de referencia del SDK.

Establece variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const {GoogleGenAI} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION = process.env.GOOGLE_CLOUD_LOCATION || 'global';

async function generateText(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const client = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
  });

  const response = await client.models.generateContent({
    model: 'gemini-2.5-flash',
    contents: [
      {
        role: 'user',
        parts: [
          {
            fileData: {
              mimeType: 'video/mp4',
              fileUri:
                'gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4',
            },
          },
          {
            text: 'What is in the video?',
          },
        ],
      },
    ],
  });

  console.log(response.text);

  // Example response:
  // The video shows several people surfing in an ocean with a coastline in the background. The camera ...

  return response.text;
}

REST

Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

PROJECT_ID: El ID del proyecto.
FILE_URI: Es el URI o la URL del archivo que se incluirá en la instrucción. Los valores aceptables son los siguientes:
- URI del bucket de Cloud Storage: El objeto debe poder leerse de forma pública o residir en el mismo proyecto Google Cloud que envía la solicitud. Para gemini-2.0-flash y gemini-2.0-flash-lite, el límite de tamaño es de 2 GB.
- URL HTTP: La URL del archivo debe ser legible públicamente. Puedes especificar un archivo de video, un archivo de audio y hasta 10 archivos de imagen por solicitud. Los archivos de audio, los archivos de video y los documentos no pueden superar los 15 MB.
- URL del video de YouTube: El video de YouTube debe ser propiedad de la cuenta que usaste para acceder a la consola de Google Cloud o ser público. Solo se admite una URL de video de YouTube por solicitud.
Cuando especifiques un fileURI, también debes especificar el tipo de medio (mimeType) del archivo. Si los Controles del servicio de VPC están habilitados, no se admite especificar una URL de archivo multimedia para fileURI.

Si no tienes un archivo de video en Cloud Storage, puedes usar el siguiente archivo disponible de forma pública: gs://cloud-samples-data/video/animals.mp4 con un tipo de MIME de video/mp4. Para ver este video, abre el MP4 de muestra .
MIME_TYPE El tipo de medio del archivo especificado en los campos data o fileUri. Los valores aceptables son los siguientes:
Haz clic para expandir los tipos de MIME.
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
TEXT: Las instrucciones de texto que se incluirán en el mensaje. Por ejemplo, What is in the video?

Para enviar tu solicitud, elige una de estas opciones:

curl

Nota: Con el siguiente comando, se supone que accediste a la CLI de gcloud con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login, o a través del uso de Cloud Shell, que accede de forma automática a la CLI de gcloud. Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json. Ejecuta el comando siguiente en la terminal para crear o reemplazar este archivo en el directorio actual:

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

Luego, ejecuta el siguiente comando para enviar tu solicitud de REST:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"

PowerShell

Nota: En el siguiente comando, se supone que accediste a la CLI de gcloud con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login . Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json. Ejecuta el comando siguiente en la terminal para crear o reemplazar este archivo en el directorio actual:

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Luego, ejecuta el siguiente comando para enviar tu solicitud de REST:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Respuesta

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "This video is a commercial for Google Photos, featuring animals taking selfies
              with the Google Photos app. The commercial plays on the popularity of media in which
              animals act like humans, especially their use of technology. The commercial also
              highlights the app's ability to automatically back up photos."
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.053601142,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.053799648
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.06278921,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07850098
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.090253234,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.058453236
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1647851,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09285216
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 28916,
    "candidatesTokenCount": 61,
    "totalTokenCount": 28977
  }
}

Ten en cuenta lo siguiente en la URL para esta muestra:

Usa el método generateContent para solicitar que la respuesta se muestre después de que se haya generado por completo. Para reducir la percepción de latencia a un público humano, transmite la respuesta a medida que se genera; para ello, usa el método streamGenerateContent.
El ID del modelo multimodal se encuentra al final de la URL antes del método (por ejemplo, gemini-2.0-flash). Esta muestra también puede admitir otros modelos.

Video con audio

A continuación, se muestra cómo resumir un archivo de video con audio y mostrar capítulos con marcas de tiempo. Esta muestra funciona con Gemini 2.0.

Python

Instalar

pip install --upgrade google-genai

Para obtener más información, consulta la documentación de referencia del SDK.

Establece variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
            mime_type="video/mp4",
        ),
        "What is in the video?",
    ],
)
print(response.text)
# Example response:
# The video shows several people surfing in an ocean with a coastline in the background. The camera ...

REST

Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

PROJECT_ID: .
FILE_URI: Es el URI o la URL del archivo que se incluirá en la instrucción. Los valores aceptables son los siguientes:
- URI del bucket de Cloud Storage: El objeto debe poder leerse de forma pública o residir en el mismo proyecto Google Cloud que envía la solicitud. Para gemini-2.0-flash y gemini-2.0-flash-lite, el límite de tamaño es de 2 GB.
- URL HTTP: La URL del archivo debe ser legible públicamente. Puedes especificar un archivo de video, un archivo de audio y hasta 10 archivos de imagen por solicitud. Los archivos de audio, los archivos de video y los documentos no pueden superar los 15 MB.
- URL del video de YouTube: El video de YouTube debe ser propiedad de la cuenta que usaste para acceder a la consola de Google Cloud o ser público. Solo se admite una URL de video de YouTube por solicitud.
Cuando especifiques un fileURI, también debes especificar el tipo de medio (mimeType) del archivo. Si los Controles del servicio de VPC están habilitados, no se admite especificar una URL de archivo multimedia para fileURI.

Si no tienes un archivo de video en Cloud Storage, puedes usar el siguiente archivo disponible de forma pública: gs://cloud-samples-data/generative-ai/video/pixel8.mp4 con un tipo de MIME de video/mp4. Para ver este video, abre el MP4 de muestra .
MIME_TYPE El tipo de medio del archivo especificado en los campos data o fileUri. Los valores aceptables son los siguientes:
Haz clic para expandir los tipos de MIME.
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
```
TEXT
```
Las instrucciones de texto que se incluirán en el mensaje. Por ejemplo, Provide a description of the video. The description should also contain anything important which people say in the video.

Para enviar tu solicitud, elige una de estas opciones:

curl

Guarda el cuerpo de la solicitud en un archivo llamado request.json. Ejecuta el comando siguiente en la terminal para crear o reemplazar este archivo en el directorio actual:

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

Luego, ejecuta el siguiente comando para enviar tu solicitud de REST:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"

PowerShell

Guarda el cuerpo de la solicitud en un archivo llamado request.json. Ejecuta el comando siguiente en la terminal para crear o reemplazar este archivo en el directorio actual:

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Luego, ejecuta el siguiente comando para enviar tu solicitud de REST:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Respuesta

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "The video opens with a shot of a train traveling over a bridge in the night. \n
              \nThe scene changes to a woman walking in the streets of Tokyo. She says "My name is
              Saeko. I am a photographer in Tokyo. Tokyo has many faces. The city at night
              is totally different from what you see during the day. The new Pixel has a feature
              called "Video Boost". In low light, it activates "Night Sight" to make the quality
              even better." \n\nShe then uses her phone to take several photos of different parts of
              the city including a street with a lot of shops, a small alleyway, and a small
              restaurant. She says "Sancha is where I used to live when I first moved to Tokyo. I
              have a lot of great memories here. Oh, I like this." \n\nShe smiles and says
              "Beautiful".\n\nThe video ends with the woman standing in a different part of the
              city. She says "Next, I came to Shibuya." The scene shows the famous Shibuya crossing
              in the night. \n\nThe video features a woman showcasing the camera features of the
              Google Pixel phone while walking around the streets of Tokyo. She mentions "Night
              Sight" and "Video Boost" features. \n"
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.053601142,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.053799648
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.06278921,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07850098
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.090253234,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.058453236
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1647851,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09285216
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 28916,
    "candidatesTokenCount": 61,
    "totalTokenCount": 28977
  }
}

Ten en cuenta lo siguiente en la URL para esta muestra:

Usa el método generateContent para solicitar que la respuesta se muestre después de que se haya generado por completo. Para reducir la percepción de latencia a un público humano, transmite la respuesta a medida que se genera; para ello, usa el método streamGenerateContent.
El ID del modelo multimodal se encuentra al final de la URL antes del método (por ejemplo, gemini-2.0-flash). Esta muestra también puede admitir otros modelos.

Console

Para enviar una instrucción multimodal con la Google Cloud consola, haz lo siguiente:

En la sección Vertex AI de la Google Cloud consola, ve a la página Vertex AI Studio.

Ir a Vertex AI Studio
Haz clic en Crear mensaje.
Opcional: Configura el modelo y los parámetros:
- Modelo: Selecciona un modelo.
Opcional: Para configurar parámetros avanzados, haz clic en Avanzada y establece la configuración de la siguiente manera:
Haz clic para expandir las configuraciones avanzadas
- K superior: Usa el control deslizante o el cuadro de texto con el fin de ingresar un valor para K superior.
  K superior cambia la manera en que el modelo selecciona tokens para la salida. K superior a 1 significa que el siguiente token seleccionado es el más probable entre todos los tokens en el vocabulario del modelo (también llamado decodificación voraz), mientras que el K superior a 3 significa que el siguiente token se selecciona de los tres tokens más probables mediante la temperatura.
  Para cada paso de selección de tokens, se muestran los tokens de K superior con las probabilidades más altas. Luego, los tokens se filtran según el superior con el token final seleccionado mediante el muestreo de temperatura.
  
  Especifica un valor más bajo para respuestas menos aleatorias y un valor más alto para respuestas más aleatorias.
- P superior: Usa el control deslizante o el cuadro de texto con el fin de ingresar un valor de P superior. Los tokens se seleccionan del más probable al menos hasta que la suma de sus probabilidades sea igual al valor de P superior. Para obtener los resultados menos variables, establece top-P como 0.
- Respuestas máximas: Usa el control deslizante o el cuadro de texto para ingresar un valor para la cantidad de respuestas que se generarán.
- Respuestas de transmisión: Habilita esta opción para imprimir las respuestas a medida que se generan.
- Umbral del filtro de seguridad: Selecciona el umbral de probabilidad de ver respuestas que podrían ser dañinas.
- Habilitar fundamentos: Los fundamentos no son compatibles con las instrucciones multimodales.
- Región: selecciona la región que deseas usar.
- Temperatura: Usa el control deslizante o el cuadro de texto para ingresar un valor de temperatura.
  The temperature is used for sampling during response generation, which occurs when topP and topK are applied. Temperature controls the degree of randomness in token selection. Lower temperatures are good for prompts that require a less open-ended or creative response, while higher temperatures can lead to more diverse or creative results. A temperature of 0 means that the highest probability tokens are always selected. In this case, responses for a given prompt are mostly deterministic, but a small amount of variation is still possible. If the model returns a response that's too generic, too short, or the model gives a fallback response, try increasing the temperature. <li>**Output token limit**: Use the slider or textbox to enter a value for the max output limit. Maximum number of tokens that can be generated in the response. A token is approximately four characters. 100 tokens correspond to roughly 60-80 words. Specify a lower value for shorter responses and a higher value for potentially longer responses. <li>**Add stop sequence**: Optional. Enter a stop sequence, which is a series of characters that includes spaces. If the model encounters a stop sequence, the response generation stops. The stop sequence isn't included in the response, and you can add up to five stop sequences. </ul>
Haz clic en Insertar medios y selecciona una fuente para tu archivo.
Subir
Selecciona el archivo que quieras subir y haz clic en Abrir.

Por URL
Ingresa la URL del archivo que quieres usar y haz clic en Insertar.

YouTube

Vista previa

Esta función está sujeta a las “Condiciones de la Oferta de la Fase Previa a la DG” en la sección Condiciones del Servicio Generales de las Condiciones Específicas del Servicio. Las funciones de la fase previa a la DG están disponibles "sin modificaciones" y pueden tener asistencia limitada. Para obtener más información, consulta las descripciones de la etapa de lanzamiento.

Ingresa la URL del video de YouTube que quieres usar y haz clic en Insertar.

Puedes usar cualquier video público o uno que pertenezca a la cuenta que usaste para acceder a la consola de Google Cloud .

Cloud Storage
Selecciona el bucket y, luego, el archivo del bucket que deseas importar y haz clic en Seleccionar.
Google Drive
1. Elige una cuenta y da consentimiento a Vertex AI Studio para acceder a tu cuenta la primera vez que selecciones esta opción. Puedes subir varios archivos con un tamaño total de hasta 10 MB. Un solo archivo no puede superar los 7 MB.
2. Haz clic en el archivo que quieras agregar.
3. Haz clic en Seleccionar.
  
  La miniatura del archivo se muestra en el panel Instrucción. También se muestra la cantidad total de tokens. Si los datos de la instrucción superan el límite de tokens, los tokens se truncan y no se incluyen en el procesamiento de tus datos.
Ingresa tu mensaje de texto en el panel Mensaje.
Opcional: Para ver el ID de token a texto y los IDs de token, haz clic en el recuento de tokens en el panel Instrucción.

Nota: No se admiten tokens multimedia.
Haz clic en Enviar.
Opcional: Para guardar la instrucción en Mis instrucciones, haz clic en Guardar.
Opcional: Para obtener el código de Python o un comando curl para tu instrucción, haz clic en Compilar con código > Obtener código.

Personaliza el procesamiento de videos

Puedes personalizar el procesamiento de video en la API de Gemini para Google Cloud configurando intervalos de recorte o proporcionando un muestreo de frecuencia de fotogramas personalizado.

Cómo establecer intervalos de recorte

Puedes crear clips de videos especificando videoMetadata con compensaciones iniciales y finales.

Cómo establecer una frecuencia de fotogramas personalizada

Puedes establecer un muestreo de la frecuencia de fotogramas personalizado pasando un argumento fps a videoMetadata.

De forma predeterminada, se muestrea 1 fotograma por segundo (FPS) del video. Es posible que desees establecer un valor de FPS bajo (inferior a 1) para los videos largos. Esto es especialmente útil para los videos que son mayormente estáticos (p.ej., conferencias). Si quieres capturar más detalles en imágenes que cambian rápidamente, considera establecer un valor de FPS más alto.

Cómo ajustar la resolución del contenido multimedia

Puedes ajustar MediaResolution para procesar tus videos con menos tokens.

Cómo establecer parámetros del modelo opcionales

Cada modelo tiene un conjunto de parámetros opcionales que puedes establecer. Para obtener más información, consulta Parámetros de generación de contenido.

Tokenización de videos

A continuación, te mostramos cómo se calculan los tokens para los videos:

La pista de audio está codificada con fotogramas de video. La pista de audio también se desglosa en enlaces troncales de 1 segundo, cada uno de los cuales tiene 32 tokens. El fotograma de video y los tokens de audio se intercalan junto con sus marcas de tiempo. Las marcas de tiempo se representan como 5 tokens.
En el caso de los videos que se muestrean a 1 fotograma por segundo (fps) o menos, las marcas de tiempo de la primera hora del video se representan como 5 tokens por fotograma de video. Las marcas de tiempo restantes se representan como 7 tokens por fotograma de video.
En el caso de los videos que se muestrean a más de 1 fotograma por segundo (FPS), las marcas de tiempo de la primera hora de video se representan como 9 tokens por fotograma de video. Las marcas de tiempo restantes se representan como 11 tokens por fotograma de video.

Prácticas recomendadas

Cuando uses videos, usa la siguiente información y prácticas recomendadas para obtener los mejores resultados:

Si la instrucción contiene un solo video, colócalo antes de la instrucción de texto.
Si necesitas la localización de marcas de tiempo en un video con audio, pídele al modelo que genere marcas de tiempo que sigan el formato que se describe en "Formato de marca de tiempo".

Limitaciones

Si bien los modelos multimodales de Gemini son potentes en muchos casos de usuarios multimodales, es importante comprender las limitaciones de los modelos:

Moderador de contenido: Los modelos se niegan a proporcionar respuestas en los videos que infringen nuestras políticas de seguridad.
Reconocimiento de sonido sin voz: los modelos que admiten audio pueden cometer errores que reconozcan un sonido que no es una voz.

Detalles técnicos sobre los videos

Modelos y contexto admitidos: Todos los modelos de Gemini 2.0 y 2.5 pueden procesar datos de video.
- Los modelos con una ventana de contexto de 2 millones de tokens pueden procesar videos de hasta 2 horas de duración con la resolución de medios predeterminada o de 6 horas con la resolución de medios baja, mientras que los modelos con una ventana de contexto de 1 millón de tokens pueden procesar videos de hasta 1 hora de duración con la resolución de medios predeterminada o de 3 horas con la resolución de medios baja.
Procesamiento de la API de File: Cuando se usa la API de File, los videos se muestrean a 1 fotograma por segundo (FPS) y el audio se procesa a 1 Kbps (canal único). Las marcas de tiempo se agregan cada segundo.
- Estas tasas están sujetas a cambios en el futuro para mejorar la inferencia.
Cálculo de tokens: Cada segundo de video se tokeniza de la siguiente manera:
- Fotogramas individuales (muestreados a 1 FPS):
  - Si mediaResolution se establece en bajo, los fotogramas se tokenizan a 66 tokens por fotograma, más los tokens de marca de tiempo.
  - De lo contrario, los fotogramas se tokenizan a 258 tokens por fotograma, más los tokens de marca de tiempo.
- Audio: 25 tokens por segundo, más tokens de marca de tiempo
- También se incluyen los metadatos.
- Total: Aproximadamente 300 tokens por segundo de video en la resolución de medios predeterminada o 100 tokens por segundo de video en la resolución de medios baja.
Formato de marca de tiempo: Cuando te refieras a momentos específicos de un video en tu instrucción, el formato de marca de tiempo dependerá de la tasa de muestreo de fotogramas por segundo (FPS) del video:
- Para frecuencias de muestreo de 1 FPS o menos: Usa el formato MM:SS, en el que los dos primeros dígitos representan minutos y los dos últimos, segundos. Si tienes desplazamientos superiores a 1 hora, usa el formato H:MM:SS.
- Para frecuencias de muestreo superiores a 1 FPS: Usa el formato MM:SS.sss o, si tienes desplazamientos superiores a 1 hora, usa el formato H:MM:SS.sss, que se describe a continuación:
  - El primer dígito representa la hora.
  - Los segundos dos dígitos representan los minutos.
  - Los terceros dos dígitos representan los segundos.
  - Los últimos tres dígitos representan los subsegundos.
Recomendaciones:
- Para obtener resultados óptimos, usa solo un video por solicitud de instrucción.
- Si combinas texto y un solo video, coloca la instrucción de texto después de la parte del video en el array contents.
- Ten en cuenta que las secuencias de acción rápidas pueden perder detalles debido a la frecuencia de muestreo de 1 FPS. Si es necesario, considera reducir la velocidad de esos clips.

¿Qué sigue?

Comienza a compilar con los modelos multimodales de Gemini: Los clientes nuevos obtienen USD 300 en créditos Google Cloud gratuitos para explorar lo que pueden hacer con Gemini.
Aprende a enviar solicitudes de mensaje de chat.
Obtén información sobre las prácticas recomendadas de IA responsable y los filtros de seguridad de Vertex AI.

Comprensión de videos

Modelos compatibles

Agregar videos a una solicitud

Video único

Console

Haz clic para expandir las configuraciones avanzadas

Subir

Por URL

YouTube

Cloud Storage

Google Drive

Python

Instalar

Go

Java

Node.js

Instalar

REST

curl

PowerShell

Respuesta

Video con audio

Python

Instalar

REST

curl

PowerShell

Respuesta

Console

Haz clic para expandir las configuraciones avanzadas

Subir

Por URL

YouTube

Cloud Storage

Google Drive

Personaliza el procesamiento de videos

Cómo establecer intervalos de recorte

Cómo establecer una frecuencia de fotogramas personalizada

Cómo ajustar la resolución del contenido multimedia

Cómo establecer parámetros del modelo opcionales

Tokenización de videos

Prácticas recomendadas

Limitaciones

Detalles técnicos sobre los videos

¿Qué sigue?