Pertanyaan dan jawaban visual (VQA)

Gambar untuk Teks & VQA (imagetext) adalah nama model yang mendukung pertanyaan dan jawaban gambar. Gambar untuk Pemberian Teks & VQA menjawab pertanyaan yang diberikan untuk gambar tertentu, meskipun belum pernah dilihat oleh model.

Untuk mempelajari model ini di konsol, lihat kartu model Imagen for Captioning & VQA di Model Garden.

Buka Model Garden

Kasus penggunaan

Beberapa kasus penggunaan umum untuk pertanyaan dan jawaban gambar mencakup:

  • Memberdayakan pengguna untuk berinteraksi dengan konten visual melalui Tanya Jawab.
  • Permudah pelanggan berinteraksi dengan gambar produk yang ditampilkan di aplikasi dan situs retail.
  • Menyediakan opsi aksesibilitas untuk pengguna penyandang gangguan penglihatan.

Permintaan HTTP

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Isi permintaan

{
  "instances": [
    {
      "prompt": string,
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "seed": integer
  }
}

Gunakan parameter berikut untuk model pembuatan Tanya Jawab visual imagetext. Untuk informasi selengkapnya, lihat Menggunakan Visual Question Answering (VQA).

Parameter Deskripsi Nilai yang dapat diterima
instances Array yang berisi objek dengan detail perintah dan gambar untuk mendapatkan informasi tentangnya. array (1 objek gambar diizinkan)
prompt Pertanyaan tentang gambar yang jawabannya ingin Anda peroleh. string (maks. 80 token)
bytesBase64Encoded Gambar untuk mendapatkan informasinya. String gambar yang dienkode base64 (PNG atau JPEG, maksimal 20 MB)
gcsUri URI Cloud Storage gambar untuk mendapatkan informasi tentangnya. URI string file gambar di Cloud Storage (PNG atau JPEG, maks 20 MB)
mimeType Opsional. Jenis MIME gambar yang Anda tetapkan. string (image/jpeg atau image/png)
sampleCount Jumlah string teks yang dihasilkan. Nilai bilangan bulat: 1-3
seed Opsional. Seed untuk generator angka acak (RNG). Jika seed RNG sama untuk permintaan dengan input, hasil prediksi juga akan sama. bilangan bulat

Contoh permintaan

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • PROJECT_ID: Project ID Google Cloud Anda.
  • LOCATION: Region project Anda. Misalnya, us-central1, europe-west2, atau asia-northeast3. Untuk daftar wilayah yang tersedia, lihat AI Generatif di lokasi Vertex AI.
  • VQA_PROMPT: Pertanyaan tentang gambar yang jawabannya ingin Anda peroleh.
    • Apa warna sepatu ini?
    • Lengan jenis apa yang digunakan di kemeja ini?
  • B64_IMAGE: Gambar yang akan diberi teks. Gambar harus ditentukan sebagai string byte berenkode Base64. Batas ukuran: 10 MB.
  • RESPONSE_COUNT: Jumlah jawaban yang ingin Anda hasilkan. Nilai bilangan bulat yang diterima: 1-3.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

Isi JSON permintaan:

{
  "instances": [
    {
      "prompt": "VQA_PROMPT",
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
Contoh respons berikut adalah untuk permintaan dengan "sampleCount": 2 dan "prompt": "What is this?". Respons akan menampilkan dua jawaban string prediksi.
{
  "predictions": [
    "cappuccino",
    "coffee"
  ]
}

Isi respons


{
  "predictions": [
    string
  ]
}
Elemen respons Deskripsi
predictions Daftar string teks yang merepresentasikan jawaban VQA, diurutkan berdasarkan keyakinan.

Contoh respons

Contoh respons berikut ditujukan untuk permintaan dengan "sampleCount": 2 dan "prompt": "What is this?". Respons menampilkan dua jawaban string prediksi.

{
  "predictions": [
    "cappuccino",
    "coffee"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/us-central1/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}