imagetext
adalah nama model yang mendukung pemberian teks pada gambar. imagetext
menghasilkan teks dari gambar yang Anda berikan berdasarkan bahasa yang
ditentukan. Model ini mendukung bahasa berikut: Inggris (en
), Jerman
(de
), Prancis (fr
), Spanyol (es
), dan Italia (it
).
Untuk menjelajahi model ini di konsol, lihat kartu model Image Captioning
di
Model Garden.
Kasus penggunaan
Beberapa kasus penggunaan umum untuk pemberian teks pada gambar antara lain:
- Kreator dapat membuat teks untuk gambar dan video yang diupload (misalnya, deskripsi singkat urutan video)
- Membuat teks untuk mendeskripsikan produk
- Mengintegrasikan pemberian teks dengan aplikasi menggunakan API guna menciptakan pengalaman baru
Permintaan HTTP
POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict
Isi permintaan
{
"instances": [
{
"image": {
// Union field can be only one of the following:
"bytesBase64Encoded": string,
"gcsUri": string,
// End of list of possible types for union field.
"mimeType": string
}
}
],
"parameters": {
"sampleCount": integer,
"storageUri": string,
"language": string,
"seed": integer
}
}
Gunakan parameter berikut untuk model Imagen imagetext
.
Untuk mengetahui informasi selengkapnya, lihat
Mendapatkan deskripsi gambar menggunakan teks visual.
Parameter | Deskripsi | Nilai yang dapat diterima |
---|---|---|
instances |
Array yang berisi objek dengan detail gambar untuk mendapatkan informasi. | array (1 objek gambar diizinkan) |
bytesBase64Encoded |
Gambar yang akan diberi teks. | String gambar berenkode Base64 (PNG atau JPEG, maks. 20 MB) |
gcsUri |
URI Cloud Storage gambar yang akan diberi teks. | URI string file gambar di Cloud Storage (PNG atau JPEG, maksimal 20 MB) |
mimeType |
Opsional. Jenis MIME gambar yang Anda tentukan. | string (image/jpeg atau image/png ) |
sampleCount |
Jumlah string teks yang dihasilkan. | Nilai bilangan bulat: 1-3 |
seed |
Opsional. Seed untuk generator angka acak (RNG). Jika seed RNG sama untuk permintaan dengan input, hasil prediksi juga akan sama. | bilangan bulat |
storageUri |
Opsional. Lokasi Cloud Storage untuk menyimpan respons teks yang dihasilkan. | string |
language |
Opsional. Prompt (perintah) teks untuk memandu respons. | string: en (default), de , fr , it , es |
Permintaan sampel
REST
Untuk menguji prompt teks menggunakan Vertex AI API, kirim permintaan POST ke endpoint model penayang.
Sebelum menggunakan data permintaan mana pun, lakukan penggantian berikut:
- PROJECT_ID: project ID Google Cloud Anda.
- LOCATION: Region project Anda. Misalnya,
us-central1
,europe-west2
, atauasia-northeast3
. Untuk mengetahui daftar region yang tersedia, lihat Lokasi AI Generatif di Vertex AI. - B64_IMAGE: Gambar yang akan diberi teks. Gambar harus ditentukan sebagai string byte berenkode base64. Batas ukuran: 10 MB.
- RESPONSE_COUNT: Jumlah teks gambar yang ingin Anda buat. Nilai bilangan bulat yang diterima: 1-3.
- LANGUAGE_CODE: Salah satu kode bahasa yang didukung. Bahasa yang didukung:
- Inggris (
en
) - Prancis (
fr
) - Jerman (
de
) - Italia (
it
) - Spanyol (
es
)
- Inggris (
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict
Isi JSON permintaan:
{ "instances": [ { "image": { "bytesBase64Encoded": "B64_IMAGE" } } ], "parameters": { "sampleCount": RESPONSE_COUNT, "language": "LANGUAGE_CODE" } }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
"sampleCount": 2
. Respons akan menampilkan dua string prediksi.
Inggris (en
):
{ "predictions": [ "a yellow mug with a sheep on it sits next to a slice of cake", "a cup of coffee with a heart shaped latte art next to a slice of cake" ], "deployedModelId": "DEPLOYED_MODEL_ID", "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID", "modelDisplayName": "MODEL_DISPLAYNAME", "modelVersionId": "1" }
Spanyol (es
):
{ "predictions": [ "una taza de café junto a un plato de pastel de chocolate", "una taza de café con una forma de corazón en la espuma" ] }
Isi respons
{
"predictions": [ string ]
}
Elemen respons | Deskripsi |
---|---|
predictions |
Daftar string teks yang merepresentasikan teks, yang diurutkan berdasarkan keyakinan. |
Contoh respons
{
"predictions": [
"text1",
"text2"
]
}