Pertanyaan dan jawaban visual (VQA)

Imagen for Captioning & VQA (imagetext) adalah nama model yang mendukung pertanyaan dan jawaban gambar. Imagen for Captioning & VQA menjawab pertanyaan yang diberikan untuk gambar tertentu, meskipun gambar tersebut belum pernah dilihat oleh model ini.

Untuk menjelajahi model ini di konsol, lihat kartu model Imagen for Captioning & VQA di Model Garden.

Buka Model Garden

Kasus penggunaan

Beberapa kasus penggunaan umum untuk pertanyaan dan jawaban gambar mencakup:

  • Memberdayakan pengguna untuk berinteraksi dengan konten visual melalui Tanya Jawab.
  • Membantu pelanggan berinteraksi dengan gambar produk yang ditampilkan di aplikasi dan situs retail.
  • Menyediakan opsi aksesibilitas untuk pengguna penyandang gangguan penglihatan.

Permintaan HTTP

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Isi permintaan

{
  "instances": [
    {
      "prompt": string,
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "seed": integer
  }
}

Gunakan parameter berikut untuk model pembuatan Tanya Jawab visual imagetext. Untuk informasi selengkapnya, lihat Menggunakan Visual Question Answering (VQA).

Parameter Deskripsi Nilai yang dapat diterima
instances Array yang berisi objek dengan detail perintah dan gambar untuk mendapatkan informasi. array (1 objek gambar diizinkan)
prompt Pertanyaan tentang gambar yang jawabannya ingin Anda peroleh. string (maks. 80 token)
bytesBase64Encoded Gambar yang informasinya ingin Anda dapatkan. String gambar berenkode Base64 (PNG atau JPEG, maks. 20 MB)
gcsUri URI Cloud Storage gambar yang informasinya ingin Anda dapatkan. URI string file gambar di Cloud Storage (PNG atau JPEG, maksimal 20 MB)
mimeType Opsional. Jenis MIME gambar yang Anda tentukan. string (image/jpeg atau image/png)
sampleCount Jumlah string teks yang dihasilkan. Nilai bilangan bulat: 1-3
seed Opsional. Seed untuk generator angka acak (RNG). Jika seed RNG sama untuk permintaan dengan input, hasil prediksi juga akan sama. bilangan bulat

Contoh permintaan

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • PROJECT_ID: project ID Google Cloud Anda.
  • LOCATION: Region project Anda. Misalnya, us-central1, europe-west2, atau asia-northeast3. Untuk mengetahui daftar region yang tersedia, lihat Lokasi AI Generatif di Vertex AI.
  • VQA_PROMPT: Pertanyaan tentang gambar yang jawabannya ingin Anda peroleh.
    • Apa warna sepatu ini?
    • Lengan jenis apa yang digunakan di kemeja ini?
  • B64_IMAGE: Gambar yang akan diberi teks. Gambar harus ditentukan sebagai string byte berenkode Base64. Batas ukuran: 10 MB.
  • RESPONSE_COUNT: Jumlah jawaban yang ingin Anda hasilkan. Nilai bilangan bulat yang diterima: 1-3.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

Isi JSON permintaan:

{
  "instances": [
    {
      "prompt": "VQA_PROMPT",
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
Contoh respons berikut adalah untuk permintaan dengan "sampleCount": 2 dan "prompt": "What is this?". Respons akan menampilkan dua jawaban string prediksi.
{
  "predictions": [
    "cappuccino",
    "coffee"
  ]
}

Isi respons


{
  "predictions": [
    string
  ]
}
Elemen respons Deskripsi
predictions Daftar string teks yang merepresentasikan jawaban VQA, diurutkan berdasarkan keyakinan.

Contoh respons

Contoh respons berikut adalah untuk permintaan dengan "sampleCount": 2 dan "prompt": "What is this?". Respons menampilkan dua jawaban string prediksi.

{
  "predictions": [
    "cappuccino",
    "coffee"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/us-central1/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}