Membuat teks dari prompt multimodal

Contoh ini menunjukkan cara membuat teks dari prompt multimodal menggunakan model Gemini. Dialog terdiri dari tiga gambar dan dua perintah teks. Model ini menghasilkan respons teks yang menjelaskan gambar dan perintah teks.

Contoh kode


Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Python di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Python Vertex AI.

Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

import http.client
import typing
import urllib.request
from vertexai.generative_models import GenerativeModel, Image

# create helper function
def load_image_from_url(image_url: str) -> Image:
    with urllib.request.urlopen(image_url) as response:
        response = typing.cast(http.client.HTTPResponse, response)
        image_bytes =
    return Image.from_bytes(image_bytes)

# Load images from Cloud Storage URI
landmark1 = load_image_from_url(
landmark2 = load_image_from_url(
landmark3 = load_image_from_url(

# Pass multimodal prompt
model = GenerativeModel("gemini-1.0-pro-vision")
response = model.generate_content(
        "city: Rome, Landmark: the Colosseum",
        "city: Beijing, Landmark: Forbidden City",

