Videos verstehen

Gemini kann auf Prompts zu Videos reagieren. Sie können Gemini-Anfragen Videos hinzufügen, um Aufgaben auszuführen, bei denen die Inhalte der enthaltenen Videos berücksichtigt werden müssen.

Video-Understanding ist eine der multimodalen Eingaben von Gemini, bei denen Text mit Mediendateien kombiniert wird.

Weitere Informationen zur Videoanalyse mit Gemini und eine Schritt-für-Schritt-Anleitung zum Senden von API-Anfragen finden Sie unter Multimodalen Prompt senden.

Spezifikationen für Prompts mit Video

Sie können Ihren Anfragen an Gemini Videodateien hinzufügen. Die maximal unterstützte Länge von Videodaten hängt davon ab, ob das Video Audioinhalte enthält. Gemini unterstützt die folgenden maximalen Videolängen:

Video mit Audio: 100 Sekunden
Video ohne Audio: 120 Sekunden

Die maximale Anzahl von Videodateien, die in einer Prompt-Anfrage zulässig sind, beträgt 10.

Videos müssen in einem der folgenden unterstützten MIME-Typen vorliegen:

AVI: video/avi
FLV: video/x-flv
MOV: video/mov
MPEG: video/mpeg
MPG: video/mpg
MP4: video/mp4
WEBM: video/webm
WMV: video/wmv
3GP: video/3gpp

Für Videos gelten in Gemini die folgenden Regeln:

Videos werden mit einem Frame pro Sekunde (fps) gesampelt. Jeder Videoframes berücksichtigt 258 Tokens.
Der Audiotrack wird mit Videoframes codiert und in 1-Sekunden-Blöcke unterteilt, die jeweils 32 Tokens enthalten. Die Videoframes und Audio-Tokens werden zusammen mit ihren Zeitstempeln verschachtelt, die durch sieben Tokens dargestellt werden.
Wenn Ihr Prompt ein einzelnes Video enthält, platzieren Sie das Video vor dem Text-Prompt.

Sie können den Chat Completions-Endpunkt in der REST API und einen HTTP-Client verwenden. Sie können das Video als Inline-Daten in der Prompts-Anfrage als base64-codierte Datei bereitstellen oder die Videodatei hochladen, bevor Sie die Prompts-Anfrage stellen.

Weitere Informationen zu Best Practices und Einschränkungen für Videos finden Sie in der Google Cloud -Dokumentation.

Weitere Informationen zu OpenAI und dem Chat Completions-Endpunkt, den Gemini in Google Distributed Cloud (GDC) Air-Gapped implementiert, finden Sie unter https://platform.openai.com/docs/api-reference/chat.

Video anhand eines Prompts erstellen

In den folgenden Beispielen sehen Sie eine Anfrage an die Gemini Chat Completions API, um mit curl Text aus Videoeingaben zu generieren.

Inline-Datenanfragen senden

Stellen Sie Videos als Inlinedaten für die Prompt-Anfrage aus Base64-codierten Dateien bereit. Die API-Anfrage enthält das Feld input_video für Base64-codierte Videos. Im folgenden Beispiel wird gezeigt, wie Base64-codierte Videoanfragen gesendet werden:

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d '{
      "model_id": "MODEL_ID",
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "input_video",
              "input_video": {
                "data": BASE64_DATA,
                # Valid formats are avi, flv, mov, mpeg, mpg, mp4, webm, wmv, or 3gpp
                "format": "wmv"
              }
            }
          ]
        }
      ],
    }'

Ersetzen Sie Folgendes:

ENDPOINT: Der API-Endpunkt, den Sie für Ihre Organisation verwenden.
PROJECT: Ihre Projekt-ID.
MODEL_ID: Die Endpunkt-ID des Modells, mit dem Sie die Antwort generieren möchten.
BASE64_DATA: Die base64-codierten Daten der Videodatei. Base64-codierte Daten müssen mit einem Daten-URI-Schema gemäß RFC 2397 beginnen. Das Format für das Feld data für base64-codierte Daten ist beispielsweise "data": f"data:video/wmv;base64,{base64_video}".

Video-URLs in der Anfrage senden

Laden Sie die Videodatei in einen Storage-Bucket hoch, bevor Sie die Aufforderung senden. Die API-Anfrage enthält das Feld video_url für Videodateien in Speicher-Buckets. Im folgenden Beispiel wird gezeigt, wie Video-URL-Anfragen gesendet werden:

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d '{
      "model_id": "MODEL_ID",
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "video_url",
              "video_url": {
                "url": "VIDEO_URL",
              }
            }
          ]
        }
      ],
    }'