Imagen for Captioning & VQA (imagetext
) adalah nama model yang mendukung pertanyaan dan jawaban gambar. Imagen for Captioning & VQA menjawab pertanyaan yang diberikan untuk gambar tertentu, meskipun gambar tersebut belum pernah dilihat oleh model ini.
Untuk menjelajahi model ini di konsol, lihat kartu model Imagen for Captioning & VQA di Model Garden.
Kasus penggunaan
Beberapa kasus penggunaan umum untuk pertanyaan dan jawaban gambar mencakup:
- Memberdayakan pengguna untuk berinteraksi dengan konten visual melalui Tanya Jawab.
- Membantu pelanggan berinteraksi dengan gambar produk yang ditampilkan di aplikasi dan situs retail.
- Menyediakan opsi aksesibilitas untuk pengguna penyandang gangguan penglihatan.
Permintaan HTTP
POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict
Isi permintaan
{
"instances": [
{
"prompt": string,
"image": {
// Union field can be only one of the following:
"bytesBase64Encoded": string,
"gcsUri": string,
// End of list of possible types for union field.
"mimeType": string
}
}
],
"parameters": {
"sampleCount": integer,
"seed": integer
}
}
Gunakan parameter berikut untuk model pembuatan Tanya Jawab visual imagetext
.
Untuk informasi selengkapnya, lihat Menggunakan Visual Question Answering (VQA).
Parameter | Deskripsi | Nilai yang dapat diterima |
---|---|---|
instances |
Array yang berisi objek dengan detail perintah dan gambar untuk mendapatkan informasi. | array (1 objek gambar diizinkan) |
prompt |
Pertanyaan tentang gambar yang jawabannya ingin Anda peroleh. | string (maks. 80 token) |
bytesBase64Encoded |
Gambar yang informasinya ingin Anda dapatkan. | String gambar berenkode Base64 (PNG atau JPEG, maks. 20 MB) |
gcsUri |
URI Cloud Storage gambar yang informasinya ingin Anda dapatkan. | URI string file gambar di Cloud Storage (PNG atau JPEG, maksimal 20 MB) |
mimeType |
Opsional. Jenis MIME gambar yang Anda tentukan. | string (image/jpeg atau image/png ) |
sampleCount |
Jumlah string teks yang dihasilkan. | Nilai bilangan bulat: 1-3 |
seed |
Opsional. Seed untuk generator angka acak (RNG). Jika seed RNG sama untuk permintaan dengan input, hasil prediksi juga akan sama. | bilangan bulat |
Contoh permintaan
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- PROJECT_ID: project ID Google Cloud Anda.
- LOCATION: Region project Anda. Misalnya,
us-central1
,europe-west2
, atauasia-northeast3
. Untuk mengetahui daftar region yang tersedia, lihat Lokasi AI Generatif di Vertex AI. - VQA_PROMPT: Pertanyaan tentang gambar yang jawabannya ingin Anda peroleh.
- Apa warna sepatu ini?
- Lengan jenis apa yang digunakan di kemeja ini?
- B64_IMAGE: Gambar yang akan diberi teks. Gambar harus ditentukan sebagai string byte berenkode Base64. Batas ukuran: 10 MB.
- RESPONSE_COUNT: Jumlah jawaban yang ingin Anda hasilkan. Nilai bilangan bulat yang diterima: 1-3.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict
Isi JSON permintaan:
{ "instances": [ { "prompt": "VQA_PROMPT", "image": { "bytesBase64Encoded": "B64_IMAGE" } } ], "parameters": { "sampleCount": RESPONSE_COUNT } }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
"sampleCount": 2
dan "prompt": "What is this?"
. Respons akan menampilkan dua jawaban string prediksi.
{ "predictions": [ "cappuccino", "coffee" ] }
Isi respons
{
"predictions": [
string
]
}
Elemen respons | Deskripsi |
---|---|
predictions |
Daftar string teks yang merepresentasikan jawaban VQA, diurutkan berdasarkan keyakinan. |
Contoh respons
Contoh respons berikut adalah untuk permintaan dengan "sampleCount": 2
dan
"prompt": "What is this?"
. Respons menampilkan dua jawaban string prediksi.
{
"predictions": [
"cappuccino",
"coffee"
],
"deployedModelId": "DEPLOYED_MODEL_ID",
"model": "projects/PROJECT_ID/locations/us-central1/models/MODEL_ID",
"modelDisplayName": "MODEL_DISPLAYNAME",
"modelVersionId": "1"
}