Coba model Gemini 1.5, model multimodal terbaru di Vertex AI, dan lihat model yang dapat Anda bangun dengan jendela konteks hingga 2 juta token. Coba model Gemini 1.5, model multimodal terbaru di Vertex AI, dan lihat model yang dapat Anda bangun dengan jendela konteks hingga 2 juta token.

Halaman ini diterjemahkan oleh Cloud Translation API.

Pemahaman video

Anda dapat menambahkan video ke permintaan Gemini untuk melakukan tugas yang melibatkan memahami konten dari video yang disertakan. Halaman ini menunjukkan cara tambahkan video ke permintaan Anda ke Gemini di Vertex AI menggunakan Konsol Google Cloud dan Vertex AI API.

Model yang didukung

Tabel berikut mencantumkan model yang mendukung pemahaman video:

Model	Detail modalitas video
Flash Gemini 1.5 Buka kartu model Flash Gemini 1.5	Durasi video maksimum: Dengan audio: ~50 menit Tanpa audio: 60 menit Video maksimum per perintah: 10
Gemini 1.5 Pro Buka kartu model Gemini 1.5 Pro	Durasi video maksimum: Dengan audio: ~50 menit Tanpa audio: 60 menit Video maksimum per perintah: 10
Gemini 1.0 Pro Vision Buka kartu model Gemini 1.0 Pro Vision	Durasi video maksimum: 2 menit Jumlah video maksimum per perintah: 1 Audio dalam video akan diabaikan.

Model

Detail modalitas video

Flash Gemini 1.5

Buka kartu model Flash Gemini 1.5

Durasi video maksimum:

Dengan audio: ~50 menit
Tanpa audio: 60 menit

Video maksimum per perintah: 10

Gemini 1.5 Pro

Buka kartu model Gemini 1.5 Pro

Durasi video maksimum:

Dengan audio: ~50 menit
Tanpa audio: 60 menit

Video maksimum per perintah: 10

Gemini 1.0 Pro Vision

Buka kartu model Gemini 1.0 Pro Vision

Durasi video maksimum: 2 menit

Jumlah video maksimum per perintah: 1

Audio dalam video akan diabaikan.

Untuk daftar bahasa yang didukung oleh model Gemini, lihat informasi model Model Google. Untuk mempelajari selengkapnya tentang cara mendesain prompt multimodal. Mendesain prompt multimodal. Jika Anda mencari cara untuk menggunakan Gemini langsung dari perangkat seluler Anda dan aplikasi web, lihat Vertex AI for Firebase SDK untuk Aplikasi Android, Swift, web, dan Flutter.

Menambahkan video ke permintaan

Anda dapat menambahkan satu atau beberapa video dalam permintaan Anda ke Gemini dan video dapat menyertakan audio.

Video tunggal

Kode contoh di setiap tab berikut menunjukkan cara berbeda untuk mengidentifikasi apa yang ada dalam video. Contoh ini berfungsi dengan semua model multimodal Gemini.

Python

Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk informasi selengkapnya, lihat Vertex AI SDK untuk Python dokumentasi referensi API.

Respons streaming dan non-streaming

Anda dapat memilih apakah model akan menghasilkan respons streaming atau non-streaming. Untuk respons bertahap, Anda menerima setiap respons segera setelah token output-nya dibuat. Untuk respons non-streaming, Anda menerima semua respons setelah semua token output dibuat.

Untuk respons streaming, gunakan parameter stream di generate_content.

  response = model.generate_content(contents=[...], stream = True)

Untuk respons non-streaming, hapus parameter, atau setel parameter ke False.

Kode contoh

import vertexai

from vertexai.generative_models import GenerativeModel, Part

# TODO(developer): Update and un-comment below line
# project_id = "PROJECT_ID"

vertexai.init(project=project_id, location="us-central1")

vision_model = GenerativeModel("gemini-1.5-flash-001")

# Generate text
response = vision_model.generate_content(
    [
        Part.from_uri(
            "gs://cloud-samples-data/video/animals.mp4", mime_type="video/mp4"
        ),
        "What is in the video?",
    ]
)
print(response.text)

Java

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Java di Vertex AI panduan memulai. Untuk informasi lebih lanjut, lihat Vertex AI Dokumentasi referensi Java SDK untuk Gemini.

Untuk mengautentikasi ke Vertex AI, siapkan Application Default Kredensial. Untuk informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

Respons streaming dan non-streaming

Untuk respons streaming, gunakan metode generateContentStream.

  public ResponseStream<GenerateContentResponse> generateContentStream(Content content)

Untuk respons non-streaming, gunakan metode generateContent.

  public GenerateContentResponse generateContent(Content content)

Kode contoh

import com.google.cloud.vertexai.VertexAI;
import com.google.cloud.vertexai.api.GenerateContentResponse;
import com.google.cloud.vertexai.generativeai.ContentMaker;
import com.google.cloud.vertexai.generativeai.GenerativeModel;
import com.google.cloud.vertexai.generativeai.PartMaker;
import com.google.cloud.vertexai.generativeai.ResponseHandler;
import java.io.IOException;

public class MultimodalVideoInput {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "your-google-cloud-project-id";
    String location = "us-central1";
    String modelName = "gemini-1.5-flash-001";

    multimodalVideoInput(projectId, location, modelName);
  }

  // Analyzes the given video input.
  public static void multimodalVideoInput(String projectId, String location, String modelName)
      throws IOException {
    // Initialize client that will be used to send requests.
    // This client only needs to be created once, and can be reused for multiple requests.
    try (VertexAI vertexAI = new VertexAI(projectId, location)) {
      String videoUri = "gs://cloud-samples-data/video/animals.mp4";

      GenerativeModel model = new GenerativeModel(modelName, vertexAI);
      GenerateContentResponse response = model.generateContent(
          ContentMaker.fromMultiModalData(
              "What is in the video?",
              PartMaker.fromMimeTypeAndData("video/mp4", videoUri)
          ));

      String output = ResponseHandler.getText(response);
      System.out.println(output);
    }
  }
}

Node.js

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Node.js di halaman AI Generatif panduan memulai menggunakan Node.js SDK. Untuk informasi selengkapnya, lihat referensi Node.js SDK untuk Gemini dokumentasi tambahan.

Untuk mengautentikasi ke Vertex AI, siapkan Application Default Kredensial. Untuk informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

Respons streaming dan non-streaming

Untuk respons streaming, gunakan generateContentStream.

  const streamingResp = await generativeModel.generateContentStream(request);

Untuk respons non-streaming, gunakan metode generateContent.

  const streamingResp = await generativeModel.generateContent(request);

Kode contoh

const {VertexAI} = require('@google-cloud/vertexai');

/**
 * TODO(developer): Update these variables before running the sample.
 */
async function sendMultiModalPromptWithVideo(
  projectId = 'PROJECT_ID',
  location = 'us-central1',
  model = 'gemini-1.5-flash-001'
) {
  // Initialize Vertex with your Cloud project and location
  const vertexAI = new VertexAI({project: projectId, location: location});

  const generativeVisionModel = vertexAI.getGenerativeModel({
    model: model,
  });

  // Pass multimodal prompt
  const request = {
    contents: [
      {
        role: 'user',
        parts: [
          {
            fileData: {
              fileUri: 'gs://cloud-samples-data/video/animals.mp4',
              mimeType: 'video/mp4',
            },
          },
          {
            text: 'What is in the video?',
          },
        ],
      },
    ],
  };

  // Create the response
  const response = await generativeVisionModel.generateContent(request);
  // Wait for the response to complete
  const aggregatedResponse = await response.response;
  // Select the text from the response
  const fullTextResponse =
    aggregatedResponse.candidates[0].content.parts[0].text;

  console.log(fullTextResponse);
}

Go

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Go di Vertex AI panduan memulai. Untuk informasi lebih lanjut, lihat Vertex AI Go SDK untuk dokumentasi referensi Gemini.

Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

Respons streaming dan non-streaming

Untuk respons streaming, gunakan GenerateContentStream.

  iter := model.GenerateContentStream(ctx, genai.Text("Tell me a story about a lumberjack and his giant ox. Keep it very short."))

Untuk respons non-streaming, gunakan metode GenerateContent.

  resp, err := model.GenerateContent(ctx, genai.Text("What is the average size of a swallow?"))

Kode contoh

import (
	"context"
	"errors"
	"fmt"
	"io"
	"mime"
	"path/filepath"

	"cloud.google.com/go/vertexai/genai"
)

// generateMultimodalContent generates a response into w, based upon the prompt
// and video provided.
// video is a Google Cloud Storage path starting with "gs://"
func generateMultimodalContent(w io.Writer, prompt, video, projectID, location, modelName string) error {
	// prompt := "What is in this video?"
	// video := "gs://cloud-samples-data/video/animals.mp4"
	// location := "us-central1"
	// modelName := "gemini-1.5-flash-001"
	ctx := context.Background()

	client, err := genai.NewClient(ctx, projectID, location)
	if err != nil {
		return fmt.Errorf("unable to create client: %w", err)
	}
	defer client.Close()

	model := client.GenerativeModel(modelName)
	model.SetTemperature(0.4)

	// Given a video file URL, prepare video file as genai.Part
	part := genai.FileData{
		MIMEType: mime.TypeByExtension(filepath.Ext(video)),
		FileURI:  video,
	}

	res, err := model.GenerateContent(ctx, part, genai.Text(prompt))
	if err != nil {
		return fmt.Errorf("unable to generate contents: %w", err)
	}

	if len(res.Candidates) == 0 ||
		len(res.Candidates[0].Content.Parts) == 0 {
		return errors.New("empty response from model")
	}

	fmt.Fprintf(w, "generated response: %s\n", res.Candidates[0].Content.Parts[0])
	return nil
}

C#

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan C# di Vertex AI panduan memulai. Untuk informasi lebih lanjut, lihat Vertex AI Dokumentasi referensi C#.

Untuk mengautentikasi ke Vertex AI, siapkan Application Default Kredensial. Untuk informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

Respons streaming dan non-streaming

Untuk respons streaming, gunakan metode StreamGenerateContent.

  public virtual PredictionServiceClient.StreamGenerateContentStream StreamGenerateContent(GenerateContentRequest request)

Untuk respons non-streaming, gunakan metode GenerateContentAsync.

  public virtual Task<GenerateContentResponse> GenerateContentAsync(GenerateContentRequest request)

Untuk informasi selengkapnya tentang cara server dapat menstreaming respons, lihat RPC Streaming.

Kode contoh


using Google.Api.Gax.Grpc;
using Google.Cloud.AIPlatform.V1;
using System.Text;
using System.Threading.Tasks;

public class MultimodalVideoInput
{
    public async Task<string> GenerateContent(
        string projectId = "your-project-id",
        string location = "us-central1",
        string publisher = "google",
        string model = "gemini-1.5-flash-001"
    )
    {
        var predictionServiceClient = new PredictionServiceClientBuilder
        {
            Endpoint = $"{location}-aiplatform.googleapis.com"
        }.Build();

        var generateContentRequest = new GenerateContentRequest
        {
            Model = $"projects/{projectId}/locations/{location}/publishers/{publisher}/models/{model}",
            Contents =
            {
                new Content
                {
                    Role = "USER",
                    Parts =
                    {
                        new Part { Text = "What's in the video?" },
                        new Part { FileData = new() { MimeType = "video/mp4", FileUri = "gs://cloud-samples-data/video/animals.mp4" }}
                    }
                }
            }
        };

        using PredictionServiceClient.StreamGenerateContentStream response = predictionServiceClient.StreamGenerateContent(generateContentRequest);

        StringBuilder fullText = new();

        AsyncResponseStream<GenerateContentResponse> responseStream = response.GetResponseStream();
        await foreach (GenerateContentResponse responseItem in responseStream)
        {
            fullText.Append(responseItem.Candidates[0].Content.Parts[0].Text);
        }
        return fullText.ToString();
    }
}

REST

Setelah Anda menyiapkan lingkungan Anda, Anda dapat menggunakan REST untuk menguji prompt teks. Contoh berikut mengirim permintaan ke penayang endpoint model Google Cloud.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

LOCATION: Region untuk memproses permintaan. Masukkan wilayah yang didukung. Untuk mengetahui daftar lengkap wilayah yang didukung, lihat Lokasi yang tersedia.
Klik untuk meluaskan daftar sebagian wilayah yang tersedia
- us-central1
- us-west4
- northamerica-northeast1
- us-east4
- us-west1
- asia-northeast3
- asia-southeast1
- asia-northeast1
PROJECT_ID: Project ID Anda.
FILE_URI: URI Cloud Storage file yang akan disertakan dalam perintah. Objek bucket harus berupa dapat dibaca secara publik atau berada di project Google Cloud yang sama dengan yang mengirim permintaan. Anda juga harus tentukan jenis media (mimeType) file.
Jika tidak memiliki file video di Cloud Storage, Anda dapat menggunakan file yang tersedia untuk publik: gs://cloud-samples-data/video/animals.mp4 dengan jenis mime video/mp4. Untuk melihat video ini, buka sampel MP4 .
MIME_TYPE: Jenis media file yang ditentukan dalam data atau fileUri kolom. Nilai yang dapat diterima mencakup:
Klik untuk meluaskan jenis MIME
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
TEXT: Petunjuk teks yang harus disertakan dalam perintah. Misalnya, What is in the video?

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Catatan: Perintah berikut mengasumsikan bahwa Anda telah masuk ke CLI gcloud dengan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login , atau menggunakan Cloud Shell, yang otomatis memasukkan Anda ke CLI gcloud kami. Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

Kemudian, jalankan perintah berikut untuk mengirim permintaan REST Anda:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/gemini-1.5-flash:generateContent"

PowerShell

Catatan: Perintah berikut mengasumsikan bahwa Anda telah masuk ke CLI gcloud dengan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login kami. Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Kemudian, jalankan perintah berikut untuk mengirim permintaan REST Anda:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/gemini-1.5-flash:generateContent" | Select-Object -Expand Content

Anda akan menerima respons JSON yang mirip dengan berikut ini.

Respons

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "This video is a commercial for Google Photos, featuring animals taking selfies
              with the Google Photos app. The commercial plays on the popularity of media in which
              animals act like humans, especially their use of technology. The commercial also
              highlights the app's ability to automatically back up photos."
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.053601142,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.053799648
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.06278921,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07850098
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.090253234,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.058453236
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1647851,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09285216
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 28916,
    "candidatesTokenCount": 61,
    "totalTokenCount": 28977
  }
}

Perhatikan hal berikut dalam URL untuk contoh ini:

Gunakan generateContent untuk meminta agar respons ditampilkan setelah dibuat sepenuhnya. Untuk mengurangi persepsi latensi kepada audiens manusia, streaming respons secara langsung yang dibuat dengan menggunakan streamGenerateContent .
ID model multimodal terletak di akhir URL sebelum metode (misalnya, gemini-1.5-flash atau gemini-1.0-pro-vision). Contoh ini dapat mendukung model dasar juga.

Konsol

Untuk mengirim prompt multimodal menggunakan Konsol Google Cloud, lakukan berikut ini:

Di bagian Vertex AI pada Konsol Google Cloud, buka halaman Vertex AI Studio.
Buka Vertex AI Studio
Di bagian Prompt design (single turn), klik Open.
Opsional: Konfigurasi model dan parameter:
- Model: Pilih model.
- Region: Pilih wilayah yang ingin Anda gunakan.
- Suhu: Gunakan penggeser atau kotak teks untuk memasukkan nilai suhu.
  Suhu digunakan untuk pengambilan sampel selama pembuatan respons, yang terjadi saat topP dan topK diterapkan. Suhu mengontrol tingkat keacakan dalam pemilihan token. Suhu yang lebih rendah cocok untuk perintah yang memerlukan respons yang kurang terbuka atau kreatif, sedangkan suhu yang lebih tinggi dapat memberikan hasil yang lebih beragam atau kreatif. Suhu 0 berarti token probabilitas tertinggi selalu dipilih. Dalam hal ini, respons untuk permintaan tertentu sebagian besar deterministik, tetapi sedikit variasi masih dapat dilakukan.
  Jika model menampilkan respons yang terlalu umum, terlalu pendek, atau model memberikan fallback respons, coba tingkatkan suhunya.
- Batas token output: Gunakan penggeser atau kotak teks untuk memasukkan nilai untuk {i>max output limit<i}.
  Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.
  Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama yang dihasilkan.
- Tambahkan urutan perhentian: Opsional. Masukkan urutan perhentian, yang merupakan serangkaian karakter yang menyertakan spasi. Jika model menemukan urutan perhentian, pembuatan respons akan berhenti. Urutan perhentian tidak disertakan dalam respons, dan Anda dapat menambahkan hingga lima urutan perhentian.
Opsional: Untuk mengonfigurasi parameter lanjutan, klik Lanjutan dan konfigurasikan sebagai berikut:

Klik untuk meluaskan konfigurasi lanjutan

Top-K: Gunakan penggeser atau kotak teks untuk memasukkan nilai untuk top-K. (tidak didukung untuk Gemini 1.5).
Top-K mengubah cara model memilih token untuk output. Top-K 1 berarti token yang dipilih berikutnya adalah yang paling mungkin di antara semua token dalam kosakata model (juga disebut decoding greedy), sedangkan top-K 3 berarti token berikutnya dipilih di antara tiga token yang paling mungkin dengan menggunakan suhu.
Untuk setiap langkah pemilihan token, token top-K dengan probabilitas tertinggi akan diambil sampelnya. Kemudian token akan difilter lebih lanjut berdasarkan top-P dengan token akhir yang dipilih menggunakan pengambilan sampel suhu.

Tentukan nilai yang lebih rendah untuk respons acak yang lebih sedikit dan nilai yang lebih tinggi untuk respons acak yang lebih banyak.
Top-P: Gunakan penggeser atau kotak teks untuk memasukkan nilai untuk top-P. Token dipilih dari yang paling mungkin hingga yang paling kecil hingga jumlah probabilitasnya sama dengan nilai top-P. Untuk hasil yang paling sedikit variabel, setel top-P ke 0.
Aktifkan Grounding: Grounding tidak didukung untuk multimodal prompt.

Untuk mengupload media, seperti file MP4 dan video YouTube, lakukan berikut ini:

Klik Sisipkan Media, lalu pilih sumber.
Jika Anda memilih Google Drive sebagai sumber, Anda harus memilih akun dan memberikan izin untuk Vertex AI Studio akan mengakses akun Anda saat pertama kali pilih opsi ini. Anda dapat mengupload beberapa file media yang memiliki berukuran hingga 10 MB. Satu file tidak boleh melebihi 7 MB.

Klik file yang ingin ditambahkan.
Klik Pilih.
Thumbnail file akan muncul di panel Prompt. Tujuan jumlah total token juga akan muncul. Jika data perintah Anda melebihi token limit, kelebihan token akan terpotong.

Jika Anda memilih URL video YouTube sebagai sumber, berikan link ke video YouTube milik Anda. Sistem memvalidasi bahwa Video YouTube dimiliki oleh akun yang Anda gunakan untuk login ke Konsol Google Cloud Anda.

Klik Validasi.
Klik Sisipkan.

Model ini tidak mendukung penghitungan token untuk video YouTube.

Opsional: Untuk menampilkan jumlah token yang dihitung dalam video Anda dan jumlah semua token, klik View tokens.
Dapat memakan waktu hingga 15 detik untuk menghitung jumlah token untuk file media seperti video. Tujuan Tampilan ID Token ke teks dan ID Token tidak menampilkan nilai output Anda, karena token media tidak didukung.

Untuk menutup panel alat tokenizer, klik X, atau klik di luar panel.

Masukkan perintah teks Anda di panel Prompt. Model ini menggunakan pesan sebelumnya sebagai konteks untuk respons baru.
Opsional: Untuk menampilkan jumlah token yang dihitung di video Anda, jumlah token teks, dan jumlah semua token, klik Lihat token. Anda dapat melihat token atau ID token dari perintah teks Anda.
- Untuk melihat token dalam perintah teks yang ditandai dengan warna berbeda yang menandai batas setiap ID token, klik Token ID to text. Token media tidak didukung.
- Untuk melihat ID token, klik ID Token.
  Untuk menutup panel alat tokenizer, klik X, atau klik di luar panel.
Klik Kirim.
Opsional: Untuk menyimpan perintah Anda ke Perintah saya, klik Simpan.
Opsional: Untuk mendapatkan kode Python atau perintah curl untuk perintah Anda, klik Dapatkan kode.
Opsional: Untuk menghapus semua pesan sebelumnya, klik Hapus percakapan.

Video dengan audio

Berikut ini cara meringkas file video dengan audio dan menampilkannya segmen dengan stempel waktu. Contoh ini berfungsi dengan Khusus Gemini 1.5 Pro.

Python

Respons streaming dan non-streaming

Untuk respons streaming, gunakan parameter stream di generate_content.

  response = model.generate_content(contents=[...], stream = True)

Untuk respons non-streaming, hapus parameter, atau setel parameter ke False.

Kode contoh


import vertexai
from vertexai.generative_models import GenerativeModel, Part

# TODO(developer): Update and un-comment below lines
# project_id = "PROJECT_ID"

vertexai.init(project=project_id, location="us-central1")

model = GenerativeModel("gemini-1.5-flash-001")

prompt = """
Provide a description of the video.
The description should also contain anything important which people say in the video.
"""

video_file_uri = "gs://cloud-samples-data/generative-ai/video/pixel8.mp4"
video_file = Part.from_uri(video_file_uri, mime_type="video/mp4")

contents = [video_file, prompt]

response = model.generate_content(contents)
print(response.text)

Java

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Java di Vertex AI panduan memulai. Untuk informasi lebih lanjut, lihat Vertex AI Dokumentasi referensi Java SDK untuk Gemini.

Untuk mengautentikasi ke Vertex AI, siapkan Application Default Kredensial. Untuk informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

Respons streaming dan non-streaming

Untuk respons streaming, gunakan metode generateContentStream.

  public ResponseStream<GenerateContentResponse> generateContentStream(Content content)

Untuk respons non-streaming, gunakan metode generateContent.

  public GenerateContentResponse generateContent(Content content)

Kode contoh


import com.google.cloud.vertexai.VertexAI;
import com.google.cloud.vertexai.api.GenerateContentResponse;
import com.google.cloud.vertexai.generativeai.ContentMaker;
import com.google.cloud.vertexai.generativeai.GenerativeModel;
import com.google.cloud.vertexai.generativeai.PartMaker;
import com.google.cloud.vertexai.generativeai.ResponseHandler;
import java.io.IOException;

public class VideoInputWithAudio {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "your-google-cloud-project-id";
    String location = "us-central1";
    String modelName = "gemini-1.5-flash-001";

    videoAudioInput(projectId, location, modelName);
  }

  // Analyzes the given video input, including its audio track.
  public static String videoAudioInput(String projectId, String location, String modelName)
      throws IOException {
    // Initialize client that will be used to send requests. This client only needs
    // to be created once, and can be reused for multiple requests.
    try (VertexAI vertexAI = new VertexAI(projectId, location)) {
      String videoUri = "gs://cloud-samples-data/generative-ai/video/pixel8.mp4";

      GenerativeModel model = new GenerativeModel(modelName, vertexAI);
      GenerateContentResponse response = model.generateContent(
          ContentMaker.fromMultiModalData(
              "Provide a description of the video.\n The description should also "
                  + "contain anything important which people say in the video.",
              PartMaker.fromMimeTypeAndData("video/mp4", videoUri)
          ));

      String output = ResponseHandler.getText(response);
      System.out.println(output);

      return output;
    }
  }
}

Node.js

Untuk mengautentikasi ke Vertex AI, siapkan Application Default Kredensial. Untuk informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

Respons streaming dan non-streaming

Untuk respons streaming, gunakan generateContentStream.

  const streamingResp = await generativeModel.generateContentStream(request);

Untuk respons non-streaming, gunakan metode generateContent.

  const streamingResp = await generativeModel.generateContent(request);

Kode contoh

const {VertexAI} = require('@google-cloud/vertexai');

/**
 * TODO(developer): Update these variables before running the sample.
 */
async function analyze_video_with_audio(projectId = 'PROJECT_ID') {
  const vertexAI = new VertexAI({project: projectId, location: 'us-central1'});

  const generativeModel = vertexAI.getGenerativeModel({
    model: 'gemini-1.5-flash-001',
  });

  const filePart = {
    file_data: {
      file_uri: 'gs://cloud-samples-data/generative-ai/video/pixel8.mp4',
      mime_type: 'video/mp4',
    },
  };
  const textPart = {
    text: `
    Provide a description of the video.
    The description should also contain anything important which people say in the video.`,
  };

  const request = {
    contents: [{role: 'user', parts: [filePart, textPart]}],
  };

  const resp = await generativeModel.generateContent(request);
  const contentResponse = await resp.response;
  console.log(JSON.stringify(contentResponse));
}

Go

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Go di Vertex AI panduan memulai. Untuk informasi lebih lanjut, lihat Vertex AI Go SDK untuk dokumentasi referensi Gemini.

Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

Respons streaming dan non-streaming

Untuk respons streaming, gunakan GenerateContentStream.

  iter := model.GenerateContentStream(ctx, genai.Text("Tell me a story about a lumberjack and his giant ox. Keep it very short."))

Untuk respons non-streaming, gunakan metode GenerateContent.

  resp, err := model.GenerateContent(ctx, genai.Text("What is the average size of a swallow?"))

Kode contoh

import (
	"context"
	"errors"
	"fmt"
	"io"
	"mime"
	"path/filepath"

	"cloud.google.com/go/vertexai/genai"
)

// generateMultimodalContent shows how to send video and text prompts to a model, writing the response to
// the provided io.Writer.
// video is a Google Cloud Storage path starting with "gs://"
func generateMultimodalContent(w io.Writer, prompt, video, projectID, location, modelName string) error {
	// prompt := `
	// 		Provide a description of the video.
	// 		The description should also contain anything important which people say in the video.
	// `
	// video := "gs://cloud-samples-data/generative-ai/video/pixel8.mp4"
	// location := "us-central1"
	// modelName := "gemini-1.5-flash-001"
	ctx := context.Background()

	client, err := genai.NewClient(ctx, projectID, location)
	if err != nil {
		return fmt.Errorf("unable to create client: %w", err)
	}
	defer client.Close()

	model := client.GenerativeModel(modelName)

	// Given a video file URL, prepare video file as genai.Part
	part := genai.FileData{
		MIMEType: mime.TypeByExtension(filepath.Ext(video)),
		FileURI:  video,
	}

	res, err := model.GenerateContent(ctx, part, genai.Text(prompt))
	if err != nil {
		return fmt.Errorf("unable to generate contents: %w", err)
	}

	if len(res.Candidates) == 0 ||
		len(res.Candidates[0].Content.Parts) == 0 {
		return errors.New("empty response from model")
	}

	fmt.Fprintf(w, "generated response: %s\n", res.Candidates[0].Content.Parts[0])
	return nil
}

C#

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan C# di Vertex AI panduan memulai. Untuk informasi lebih lanjut, lihat Vertex AI Dokumentasi referensi C#.

Untuk mengautentikasi ke Vertex AI, siapkan Application Default Kredensial. Untuk informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

Respons streaming dan non-streaming

Untuk respons streaming, gunakan metode StreamGenerateContent.

  public virtual PredictionServiceClient.StreamGenerateContentStream StreamGenerateContent(GenerateContentRequest request)

Untuk respons non-streaming, gunakan metode GenerateContentAsync.

  public virtual Task<GenerateContentResponse> GenerateContentAsync(GenerateContentRequest request)

Untuk informasi selengkapnya tentang cara server dapat menstreaming respons, lihat RPC Streaming.

Kode contoh


using Google.Cloud.AIPlatform.V1;
using System;
using System.Threading.Tasks;

public class VideoInputWithAudio
{
    public async Task<string> DescribeVideo(
        string projectId = "your-project-id",
        string location = "us-central1",
        string publisher = "google",
        string model = "gemini-1.5-flash-001")
    {

        var predictionServiceClient = new PredictionServiceClientBuilder
        {
            Endpoint = $"{location}-aiplatform.googleapis.com"
        }.Build();

        string prompt = @"Provide a description of the video.
The description should also contain anything important which people say in the video.";

        var generateContentRequest = new GenerateContentRequest
        {
            Model = $"projects/{projectId}/locations/{location}/publishers/{publisher}/models/{model}",
            Contents =
            {
                new Content
                {
                    Role = "USER",
                    Parts =
                    {
                        new Part { Text = prompt },
                        new Part { FileData = new() { MimeType = "video/mp4", FileUri = "gs://cloud-samples-data/generative-ai/video/pixel8.mp4" }}
                    }
                }
            }
        };

        GenerateContentResponse response = await predictionServiceClient.GenerateContentAsync(generateContentRequest);

        string responseText = response.Candidates[0].Content.Parts[0].Text;
        Console.WriteLine(responseText);

        return responseText;
    }
}

REST

Setelah Anda menyiapkan lingkungan Anda, Anda dapat menggunakan REST untuk menguji prompt teks. Contoh berikut mengirim permintaan ke penayang endpoint model Google Cloud.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

LOCATION: Region untuk memproses permintaan. Masukkan wilayah yang didukung. Untuk mengetahui daftar lengkap wilayah yang didukung, lihat Lokasi yang tersedia.
Klik untuk meluaskan daftar sebagian wilayah yang tersedia
- us-central1
- us-west4
- northamerica-northeast1
- us-east4
- us-west1
- asia-northeast3
- asia-southeast1
- asia-northeast1
PROJECT_ID: Project ID Anda.
FILE_URI: URI Cloud Storage file yang akan disertakan dalam perintah. Objek bucket harus berupa dapat dibaca secara publik atau berada di project Google Cloud yang sama dengan yang mengirim permintaan. Anda juga harus tentukan jenis media (mimeType) file.
Jika tidak memiliki file video di Cloud Storage, Anda dapat menggunakan file yang tersedia untuk publik: gs://cloud-samples-data/generative-ai/video/pixel8.mp4 dengan jenis mime video/mp4. Untuk melihat video ini, buka sampel MP4 .
MIME_TYPE: Jenis media file yang ditentukan dalam data atau fileUri kolom. Nilai yang dapat diterima mencakup:
Klik untuk meluaskan jenis MIME
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
```
TEXT
```
Petunjuk teks yang harus disertakan dalam perintah. Misalnya, Provide a description of the video. The description should also contain anything important which people say in the video.

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

Kemudian, jalankan perintah berikut untuk mengirim permintaan REST Anda:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/gemini-1.5-flash:generateContent"

PowerShell

Simpan isi permintaan dalam file bernama request.json. Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Kemudian, jalankan perintah berikut untuk mengirim permintaan REST Anda:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/gemini-1.5-flash:generateContent" | Select-Object -Expand Content

Anda akan menerima respons JSON yang mirip dengan berikut ini.

Respons

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "The video opens with a shot of a train traveling over a bridge in the night. \n
              \nThe scene changes to a woman walking in the streets of Tokyo. She says "My name is
              Saeko. I am a photographer in Tokyo. Tokyo has many faces. The city at night
              is totally different from what you see during the day. The new Pixel has a feature
              called "Video Boost". In low light, it activates "Night Sight" to make the quality
              even better." \n\nShe then uses her phone to take several photos of different parts of
              the city including a street with a lot of shops, a small alleyway, and a small
              restaurant. She says "Sancha is where I used to live when I first moved to Tokyo. I
              have a lot of great memories here. Oh, I like this." \n\nShe smiles and says
              "Beautiful".\n\nThe video ends with the woman standing in a different part of the
              city. She says "Next, I came to Shibuya." The scene shows the famous Shibuya crossing
              in the night. \n\nThe video features a woman showcasing the camera features of the
              Google Pixel phone while walking around the streets of Tokyo. She mentions "Night
              Sight" and "Video Boost" features. \n"
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.053601142,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.053799648
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.06278921,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07850098
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.090253234,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.058453236
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1647851,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09285216
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 28916,
    "candidatesTokenCount": 61,
    "totalTokenCount": 28977
  }
}

Perhatikan hal berikut dalam URL untuk contoh ini:

Gunakan generateContent untuk meminta agar respons ditampilkan setelah dibuat sepenuhnya. Untuk mengurangi persepsi latensi kepada audiens manusia, streaming respons secara langsung yang dibuat dengan menggunakan streamGenerateContent .
ID model multimodal terletak di akhir URL sebelum metode (misalnya, gemini-1.5-flash atau gemini-1.0-pro-vision). Contoh ini dapat mendukung model dasar juga.

Konsol

Untuk mengirim prompt multimodal menggunakan Konsol Google Cloud, lakukan berikut ini:

Di bagian Vertex AI pada Konsol Google Cloud, buka halaman Vertex AI Studio.
Buka Vertex AI Studio
Di bagian Prompt design (single turn), klik Open.
Opsional: Konfigurasi model dan parameter:
- Model: Pilih model.
- Region: Pilih wilayah yang ingin Anda gunakan.
- Suhu: Gunakan penggeser atau kotak teks untuk memasukkan nilai suhu.
  Suhu digunakan untuk pengambilan sampel selama pembuatan respons, yang terjadi saat topP dan topK diterapkan. Suhu mengontrol tingkat keacakan dalam pemilihan token. Suhu yang lebih rendah cocok untuk perintah yang memerlukan respons yang kurang terbuka atau kreatif, sedangkan suhu yang lebih tinggi dapat memberikan hasil yang lebih beragam atau kreatif. Suhu 0 berarti token probabilitas tertinggi selalu dipilih. Dalam hal ini, respons untuk permintaan tertentu sebagian besar deterministik, tetapi sedikit variasi masih dapat dilakukan.
  Jika model menampilkan respons yang terlalu umum, terlalu pendek, atau model memberikan fallback respons, coba tingkatkan suhunya.
- Batas token output: Gunakan penggeser atau kotak teks untuk memasukkan nilai untuk {i>max output limit<i}.
  Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.
  Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama yang dihasilkan.
- Tambahkan urutan perhentian: Opsional. Masukkan urutan perhentian, yang merupakan serangkaian karakter yang menyertakan spasi. Jika model menemukan urutan perhentian, pembuatan respons akan berhenti. Urutan perhentian tidak disertakan dalam respons, dan Anda dapat menambahkan hingga lima urutan perhentian.
Opsional: Untuk mengonfigurasi parameter lanjutan, klik Lanjutan dan konfigurasikan sebagai berikut:

Klik untuk meluaskan konfigurasi lanjutan

Top-K: Gunakan penggeser atau kotak teks untuk memasukkan nilai untuk top-K. (tidak didukung untuk Gemini 1.5).
Top-K mengubah cara model memilih token untuk output. Top-K 1 berarti token yang dipilih berikutnya adalah yang paling mungkin di antara semua token dalam kosakata model (juga disebut decoding greedy), sedangkan top-K 3 berarti token berikutnya dipilih di antara tiga token yang paling mungkin dengan menggunakan suhu.
Untuk setiap langkah pemilihan token, token top-K dengan probabilitas tertinggi akan diambil sampelnya. Kemudian token akan difilter lebih lanjut berdasarkan top-P dengan token akhir yang dipilih menggunakan pengambilan sampel suhu.

Tentukan nilai yang lebih rendah untuk respons acak yang lebih sedikit dan nilai yang lebih tinggi untuk respons acak yang lebih banyak.
Top-P: Gunakan penggeser atau kotak teks untuk memasukkan nilai untuk top-P. Token dipilih dari yang paling mungkin hingga yang paling kecil hingga jumlah probabilitasnya sama dengan nilai top-P. Untuk hasil yang paling sedikit variabel, setel top-P ke 0.
Aktifkan Grounding: Grounding tidak didukung untuk multimodal prompt.

Untuk mengupload media, seperti file MP4 dan video YouTube, lakukan berikut ini:

Klik Sisipkan Media, lalu pilih sumber.
Jika Anda memilih Google Drive sebagai sumber, Anda harus memilih akun dan memberikan izin untuk Vertex AI Studio akan mengakses akun Anda saat pertama kali pilih opsi ini. Anda dapat mengupload beberapa file media yang memiliki berukuran hingga 10 MB. Satu file tidak boleh melebihi 7 MB.

Klik file yang ingin ditambahkan.
Klik Pilih.
Thumbnail file akan muncul di panel Prompt. Tujuan jumlah total token juga akan muncul. Jika data perintah Anda melebihi token limit, kelebihan token akan terpotong.

Klik Validasi.
Klik Sisipkan.

Model ini tidak mendukung penghitungan token untuk video YouTube.

Opsional: Untuk menampilkan jumlah token yang dihitung dalam video Anda dan jumlah semua token, klik View tokens.
Dapat memakan waktu hingga 15 detik untuk menghitung jumlah token untuk file media seperti video. Tujuan Tampilan ID Token ke teks dan ID Token tidak menampilkan nilai output Anda, karena token media tidak didukung.

Untuk menutup panel alat tokenizer, klik X, atau klik di luar panel.

Masukkan perintah teks Anda di panel Prompt. Model ini menggunakan pesan sebelumnya sebagai konteks untuk respons baru.
Opsional: Untuk menampilkan jumlah token yang dihitung di video Anda, jumlah token teks, dan jumlah semua token, klik Lihat token. Anda dapat melihat token atau ID token dari perintah teks Anda.
- Untuk melihat token dalam perintah teks yang ditandai dengan warna berbeda yang menandai batas setiap ID token, klik Token ID to text. Token media tidak didukung.
- Untuk melihat ID token, klik ID Token.
  Untuk menutup panel alat tokenizer, klik X, atau klik di luar panel.
Klik Kirim.
Opsional: Untuk menyimpan perintah Anda ke Perintah saya, klik Simpan.
Opsional: Untuk mendapatkan kode Python atau perintah curl untuk perintah Anda, klik Dapatkan kode.
Opsional: Untuk menghapus semua pesan sebelumnya, klik Hapus percakapan.

Menetapkan parameter model

Parameter model berikut dapat ditetapkan pada model multimodal:

Top-P

Top-P mengubah cara model memilih token untuk output. Token dipilih dari yang paling mungkin (lihat top-K) hingga yang paling tidak mungkin sampai jumlah probabilitasnya sama dengan nilai top-P. Misalnya, jika token A, B, dan C memiliki probabilitas 0,3, 0,2, dan 0,1 dengan nilai top-P 0.5, model akan memilih A atau B sebagai token berikutnya dengan menggunakan suhu dan mengecualikan C sebagai kandidat.

Tentukan nilai yang lebih rendah untuk respons acak yang lebih sedikit dan nilai yang lebih tinggi untuk respons acak yang lebih banyak.

Top-K

Top-K mengubah cara model memilih token untuk output. Top-K 1 berarti token yang dipilih berikutnya adalah yang paling mungkin di antara semua token dalam kosakata model (juga disebut decoding greedy), sedangkan top-K 3 berarti token berikutnya dipilih di antara tiga token yang paling mungkin dengan menggunakan suhu.

Untuk setiap langkah pemilihan token, token top-K dengan probabilitas tertinggi akan diambil sampelnya. Kemudian token akan difilter lebih lanjut berdasarkan top-P dengan token akhir yang dipilih menggunakan pengambilan sampel suhu.

Tentukan nilai yang lebih rendah untuk respons acak yang lebih sedikit dan nilai yang lebih tinggi untuk respons acak yang lebih banyak.

Temperature (suhu)

Suhu digunakan untuk pengambilan sampel selama pembuatan respons, yang terjadi saat topP dan topK diterapkan. Suhu mengontrol tingkat keacakan dalam pemilihan token. Suhu yang lebih rendah cocok untuk perintah yang memerlukan respons yang kurang terbuka atau kreatif, sedangkan suhu yang lebih tinggi dapat memberikan hasil yang lebih beragam atau kreatif. Suhu 0 berarti token probabilitas tertinggi selalu dipilih. Dalam hal ini, respons untuk permintaan tertentu sebagian besar deterministik, tetapi sedikit variasi masih dapat dilakukan.

Jika model menampilkan respons yang terlalu umum, terlalu pendek, atau model memberikan fallback respons, coba tingkatkan suhunya.

Parameter value yang valid

Parameter	Gemini 1.0 Pro Vision	Gemini 1.5 Pro	Flash Gemini 1.5
Top-K	1 - 40 (default 32)	Tidak didukung	Tidak didukung
Top-P	0 - 1.0 (default 1.0)	0 - 1.0 (default 0.95)	0 - 1.0 (default 0.95)
Temperature (suhu)	0 - 1.0 (default 0.4)	0 - 2.0 (default 1.0)	0 - 2.0 (default 1.0)

Persyaratan video

Video diambil sampelnya pada 1 fps. Setiap frame video menghasilkan 258 token.

Untuk Gemini 1.5 Flash dan Gemini 1.5 Pro, trek audio dienkode dengan frame video. Trek audio juga dibagi menjadi trunk berdurasi 1 detik yang masing-masing menyumbang 32 token. Token audio dan frame video disisipkan beserta tanda waktunya. Stempel waktu direpresentasikan sebagai 7 token.

Model multimodal Gemini mendukung jenis MIME video berikut:

Jenis MIME video	Flash Gemini 1.5	Gemini 1.5 Pro	Gemini 1.0 Pro Vision
FLV - `video/x-flv`
MOV - `video/mov`
MPEG - `video/mpeg`
MPEGPS - `video/mpegps`
MPG - `video/mpg`
MP4 - `video/mp4`
WEBM - `video/webm`
WMV - `video/wmv`
3GPP - `video/3gpp`

Praktik terbaik

Saat menggunakan video, gunakan praktik terbaik dan informasi berikut untuk memperoleh hasil:

Jangan gunakan lebih dari satu video per perintah.
Jika perintah Anda berisi satu video, tempatkan video sebelum teks .
Jika Anda menggunakan Gemini 1.0 Pro Vision, model akan memproses video sebagai bingkai gambar yang tidak berdekatan dari video. Audio tidak disertakan. Jika Anda melihat model kehilangan beberapa konten dari video, coba buat lebih pendek sehingga model menangkap bagian video yang lebih besar saat ini.
Jika Anda menggunakan Gemini 1.0 Pro Vision, hanya informasi di dua menit pertama diproses.
Jika Anda menggunakan Gemini 1.0 Pro Vision, tanpa informasi audio atau metadata stempel waktu. Oleh karena itu, model mungkin tidak berfungsi cocok digunakan untuk kasus yang memerlukan input audio, seperti audio teks, atau informasi terkait waktu, seperti kecepatan atau ritme.
Jika pelokalan stempel waktu dalam video dengan audio diperlukan, minta model untuk buat stempel waktu dalam format MM:SS dengan dua digit pertama mewakili menit dan dua digit terakhir mewakili detik. Gunakan format yang sama untuk yang menanyakan tentang stempel waktu.

Batasan

Meskipun model multimodal Gemini sangat ampuh dalam banyak kasus pengguna multimodal, penting untuk memahami keterbatasan model:

Moderasi konten: Model menolak memberikan jawaban pada video yang melanggar kebijakan keamanan kami.
Pengenalan suara non-ucapan: Model yang mendukung audio mungkin membuat kesalahan dalam mengenali suara, yang bukan merupakan ucapan.
Gerakan kecepatan tinggi: Karena pengambilan sampel 1 frame per detik (fps) tetap model mungkin membuat kesalahan dalam memahami model {i>motion <i}dalam video.
Tanda baca transkripsi: Transkripsi yang ditampilkan oleh Gemini 1.5 Flash mungkin tidak menyertakan tanda baca.

Langkah selanjutnya

Mulailah membangun solusi dengan model multimodal Gemini. Pelanggan baru mendapatkan kredit Google Cloud gratis senilai $300 untuk mempelajari berbagai hal yang dapat mereka lakukan dengan Gemini.
Pelajari cara mengirim permintaan perintah chat.
Pelajari praktik terbaik responsible AI dan filter keamanan Vertex AI.