Memahami video

Gemini dapat merespons perintah tentang video. Anda dapat menambahkan video ke permintaan Gemini untuk melakukan tugas yang melibatkan pemahaman konten video yang disertakan.

Pemahaman video adalah salah satu input multimodal Gemini yang menggabungkan teks dengan file media.

Untuk mengetahui informasi selengkapnya tentang pemahaman video dengan Gemini dan petunjuk langkah demi langkah untuk mengirim permintaan API, lihat Mengirim perintah multimodal.

Spesifikasi untuk perintah dengan video

Anda dapat menambahkan file video ke permintaan Anda kepada Gemini. Durasi maksimum data video yang didukung bergantung pada apakah video berisi audio atau tidak. Gemini mendukung durasi video maksimum berikut:

  • Video dengan audio: 100 detik
  • Video tanpa audio: 120 detik

Jumlah maksimum file video yang diizinkan dalam permintaan perintah adalah 10.

Video harus dalam salah satu jenis MIME yang didukung berikut:

  • AVI: video/avi
  • FLV: video/x-flv
  • MOV: video/mov
  • MPEG: video/mpeg
  • MPG: video/mpg
  • MP4: video/mp4
  • WEBM: video/webm
  • WMV: video/wmv
  • 3GP: video/3gpp

Gemini menerapkan aturan berikut pada video:

  • Video diambil sampelnya pada satu frame per detik (fps). Setiap frame video dihitung sebagai 258 token.
  • Trek audio dienkode dengan frame video dan dibagi menjadi potongan satu detik, yang masing-masing terdiri dari 32 token. Frame video dan token audio disisipkan bersama dengan stempel waktunya, yang diwakili oleh tujuh token.
  • Jika perintah Anda berisi satu video, tempatkan video sebelum perintah teks.

Anda dapat menggunakan endpoint Chat Completions di REST API dan menggunakan klien HTTP. Anda dapat memberikan video sebagai data inline ke permintaan perintah sebagai file berenkode base64 atau mengupload file video ke bucket penyimpanan sebelum membuat permintaan perintah.

Pelajari lebih lanjut praktik terbaik dan batasan untuk video dalam dokumentasi Google Cloud .

Untuk mempelajari lebih lanjut OpenAI dan endpoint Chat Completions yang diterapkan Gemini dalam lingkungan air-gapped Google Distributed Cloud (GDC), lihat https://platform.openai.com/docs/api-reference/chat.

Memahami video dari perintah

Contoh berikut menunjukkan permintaan Gemini Chat Completions API untuk membuat teks dari input video menggunakan curl.

Mengirim permintaan data inline

Menyediakan video sebagai data inline ke permintaan perintah dari file berenkode base64. Permintaan API berisi kolom input_video untuk video berenkode base64. Contoh berikut menunjukkan cara mengirim permintaan video berenkode base64:

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d '{
      "model_id": "MODEL_ID",
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "input_video",
              "input_video": {
                "data": BASE64_DATA,
                # Valid formats are avi, flv, mov, mpeg, mpg, mp4, webm, wmv, or 3gpp
                "format": "wmv"
              }
            }
          ]
        }
      ],
    }'

Ganti kode berikut:

  • ENDPOINT: endpoint API yang Anda gunakan untuk organisasi Anda.
  • PROJECT: project ID Anda.
  • MODEL_ID: ID endpoint model yang ingin Anda gunakan untuk membuat respons.
  • BASE64_DATA: data file video yang dienkode base64. Data berenkode Base64 harus diawali dengan skema URI data, RFC 2397. Oleh karena itu, format untuk kolom data untuk data yang dienkode base64 adalah, misalnya, "data": f"data:video/wmv;base64,{base64_video}".

Mengirim URL video dalam permintaan

Upload file video ke bucket penyimpanan sebelum membuat permintaan perintah. Permintaan API berisi kolom video_url untuk file video di bucket penyimpanan. Contoh berikut menunjukkan cara mengirim permintaan URL video:

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d '{
      "model_id": "MODEL_ID",
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "video_url",
              "video_url": {
                "url": "VIDEO_URL",
              }
            }
          ]
        }
      ],
    }'

Ganti kode berikut:

  • ENDPOINT: endpoint API yang Anda gunakan untuk organisasi Anda.
  • PROJECT: project ID Anda.
  • MODEL_ID: ID endpoint model yang ingin Anda gunakan untuk membuat respons.
  • VIDEO_URL: jalur ke URL video di bucket penyimpanan. URL video harus merujuk ke file video yang disimpan di bucket penyimpanan GDC. Untuk mengetahui informasi selengkapnya, lihat Menyimpan data.

Langkah berikutnya