Mulai 29 April 2025, model Gemini 1.5 Pro dan Gemini 1.5 Flash tidak tersedia di project yang belum pernah menggunakan model ini, termasuk project baru. Untuk mengetahui detailnya, lihat Versi dan siklus proses model.

Halaman ini diterjemahkan oleh Cloud Translation API.

Pertanyaan dan jawaban visual (VQA)

Imagen for Captioning & VQA (imagetext) adalah nama model yang mendukung pertanyaan dan jawaban gambar. Imagen for Captioning & VQA menjawab pertanyaan yang diberikan untuk gambar tertentu, meskipun gambar tersebut belum pernah dilihat oleh model ini.

Untuk menjelajahi model ini di konsol, lihat kartu model Imagen for Captioning & VQA di Model Garden.

Melihat kartu model Imagen for Captioning & VQA

Kasus penggunaan

Beberapa kasus penggunaan umum untuk pertanyaan dan jawaban gambar mencakup:

Memberdayakan pengguna untuk berinteraksi dengan konten visual melalui Tanya Jawab.
Membantu pelanggan berinteraksi dengan gambar produk yang ditampilkan di aplikasi dan situs retail.
Menyediakan opsi aksesibilitas untuk pengguna penyandang gangguan penglihatan.

Permintaan HTTP

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Isi permintaan

{
  "instances": [
    {
      "prompt": string,
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "seed": integer
  }
}

Gunakan parameter berikut untuk model pembuatan Tanya Jawab visual imagetext. Untuk informasi selengkapnya, lihat Menggunakan Visual Question Answering (VQA).

Parameter	Deskripsi	Nilai yang dapat diterima
`instances`	Array yang berisi objek dengan detail perintah dan gambar untuk mendapatkan informasi tentangnya.	array (1 objek gambar diizinkan)
`prompt`	Pertanyaan tentang gambar yang jawabannya ingin Anda peroleh.	string (maks. 80 token)
`bytesBase64Encoded`	Gambar yang akan diambil informasinya.	String gambar berenkode Base64 (PNG atau JPEG, maks. 20 MB)
`gcsUri`	URI Cloud Storage gambar untuk mendapatkan informasi tentangnya.	URI string file gambar di Cloud Storage (PNG atau JPEG, maksimal 20 MB)
`mimeType`	Opsional. Jenis MIME gambar yang Anda tentukan.	string (`image/jpeg` atau `image/png`)
`sampleCount`	Jumlah string teks yang dihasilkan.	Nilai bilangan bulat: 1-3
`seed`	Opsional. Seed untuk generator angka acak (RNG). Jika seed RNG sama untuk permintaan dengan input, hasil prediksi juga akan sama.	bilangan bulat

Contoh permintaan

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

PROJECT_ID: Google Cloud Project ID Anda.
LOCATION: Region project Anda. Misalnya, us-central1, europe-west2, atau asia-northeast3. Untuk mengetahui daftar region yang tersedia, lihat Lokasi AI Generatif di Vertex AI.
VQA_PROMPT: Pertanyaan tentang gambar yang jawabannya ingin Anda peroleh.
- Apa warna sepatu ini?
- Lengan jenis apa yang digunakan di kemeja ini?
B64_IMAGE: Gambar yang akan diberi teks. Gambar harus ditentukan sebagai string byte berenkode Base64. Batas ukuran: 10 MB.
RESPONSE_COUNT: Jumlah jawaban yang ingin Anda hasilkan. Nilai bilangan bulat yang diterima: 1-3.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

Isi JSON permintaan:

{
  "instances": [
    {
      "prompt": "VQA_PROMPT",
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login , atau dengan menggunakan Cloud Shell, yang secara otomatis membuat Anda login ke gcloud CLI . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content

Contoh respons berikut adalah untuk permintaan dengan "sampleCount": 2 dan "prompt": "What is this?". Respons akan menampilkan dua jawaban string prediksi.

{
  "predictions": [
    "cappuccino",
    "coffee"
  ]
}

Isi respons


{
  "predictions": [
    string
  ]
}

Elemen respons	Deskripsi
`predictions`	Daftar string teks yang merepresentasikan jawaban VQA, diurutkan berdasarkan keyakinan.

Contoh respons

Contoh respons berikut adalah untuk permintaan dengan "sampleCount": 2 dan "prompt": "What is this?". Respons menampilkan dua jawaban string prediksi.

{
  "predictions": [
    "cappuccino",
    "coffee"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/us-central1/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}

Pertanyaan dan jawaban visual (VQA) Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Kasus penggunaan

Permintaan HTTP

Isi permintaan

Contoh permintaan

curl

PowerShell

Isi respons

Contoh respons

Pertanyaan dan jawaban visual (VQA)