Comprendre les vidéos

Gemini peut répondre à des requêtes sur des vidéos. Vous pouvez ajouter des vidéos aux requêtes Gemini pour effectuer des tâches qui impliquent de comprendre le contenu des vidéos incluses.

La compréhension des vidéos est l'une des entrées multimodales de Gemini qui combinent du texte avec des fichiers multimédias.

Pour en savoir plus sur la compréhension des vidéos avec Gemini et obtenir des instructions détaillées sur l'envoi de requêtes d'API, consultez Envoyer une invite multimodale.

Spécifications pour les requêtes avec vidéo

Vous pouvez ajouter des fichiers vidéo à votre requête Gemini. La durée maximale des données vidéo acceptée dépend de la présence ou non de contenu audio dans la vidéo. Gemini accepte les durées vidéo maximales suivantes :

  • Vidéo avec audio : 100 secondes
  • Vidéo sans son : 120 secondes

Le nombre maximal de fichiers vidéo autorisé dans une requête est de 10.

Les vidéos doivent correspondre à l'un des types MIME acceptés suivants :

  • AVI : video/avi
  • FLV : video/x-flv
  • MOV : video/mov
  • MPEG : video/mpeg
  • MPG : video/mpg
  • MP4 : video/mp4
  • WEBM : video/webm
  • WMV : video/wmv
  • 3GP : video/3gpp

Gemini impose les règles suivantes concernant les vidéos :

  • Les vidéos sont échantillonnées à une image par seconde (fps). Chaque image vidéo équivaut à 258 jetons.
  • La piste audio est encodée avec les images vidéo et divisée en segments d'une seconde, chacun représentant 32 jetons. Les trames vidéo et les jetons audio sont entrelacés avec leurs codes temporels, qui sont représentés par sept jetons.
  • Si votre requête contient une vidéo, placez-la avant la requête textuelle.

Vous pouvez utiliser le point de terminaison Chat Completions dans l'API REST et un client HTTP. Vous pouvez fournir la vidéo en tant que données intégrées à la requête d'invite sous forme de fichier encodé en base64 ou importer le fichier vidéo dans un bucket de stockage avant d'envoyer la requête d'invite.

Découvrez les bonnes pratiques et les limites concernant les vidéos dans la documentation Google Cloud .

Pour en savoir plus sur OpenAI et le point de terminaison Chat Completions que Gemini implémente dans Google Distributed Cloud (GDC) air-gapped, consultez https://platform.openai.com/docs/api-reference/chat.

Comprendre une vidéo à partir d'une requête

Les exemples suivants montrent une requête de l'API Gemini Chat Completions permettant de générer du texte à partir d'une entrée vidéo à l'aide de curl.

Envoyer des demandes de données intégrées

Fournissez la vidéo en tant que données intégrées à la requête d'invite à partir de fichiers encodés en base64. La requête API contient le champ input_video pour la vidéo encodée en base64. L'exemple suivant montre comment envoyer des requêtes vidéo encodées en base64 :

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d '{
      "model_id": "MODEL_ID",
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "input_video",
              "input_video": {
                "data": BASE64_DATA,
                # Valid formats are avi, flv, mov, mpeg, mpg, mp4, webm, wmv, or 3gpp
                "format": "wmv"
              }
            }
          ]
        }
      ],
    }'

Remplacez les éléments suivants :

  • ENDPOINT : point de terminaison de l'API que vous utilisez pour votre organisation.
  • PROJECT : ID de votre projet.
  • MODEL_ID : ID du point de terminaison du modèle avec lequel vous souhaitez générer la réponse.
  • BASE64_DATA : données encodées en base64 du fichier vidéo. Les données encodées en base64 doivent être précédées d'un schéma d'URI de données, RFC 2397. Par conséquent, le format du champ data pour les données encodées en base64 est, par exemple, "data": f"data:video/wmv;base64,{base64_video}".

Envoyer les URL des vidéos dans la demande

Importez le fichier vidéo dans un bucket de stockage avant d'envoyer la requête. La requête API contient le champ video_url pour les fichiers vidéo dans les buckets de stockage. L'exemple suivant montre comment envoyer des requêtes d'URL de vidéo :

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d '{
      "model_id": "MODEL_ID",
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "video_url",
              "video_url": {
                "url": "VIDEO_URL",
              }
            }
          ]
        }
      ],
    }'

Remplacez les éléments suivants :

  • ENDPOINT : point de terminaison de l'API que vous utilisez pour votre organisation.
  • PROJECT : ID de votre projet.
  • MODEL_ID : ID du point de terminaison du modèle avec lequel vous souhaitez générer la réponse.
  • VIDEO_URL : chemin d'accès à l'URL d'une vidéo dans un bucket de stockage. Les URL vidéo doivent faire référence à des fichiers vidéo stockés dans un bucket de stockage GDC. Pour en savoir plus, consultez Stocker des données.

Étapes suivantes