Teks gambar

imagetext adalah nama model yang mendukung pemberian teks pada gambar. imagetext menghasilkan teks dari gambar yang Anda berikan berdasarkan bahasa yang Anda tentukan. Model ini mendukung bahasa berikut: Inggris (en), Jerman (de), Prancis (fr), Spanyol (es), dan Italia (it).

Untuk menjelajahi model ini di konsol, lihat kartu model Image Captioning di Model Garden.

Pergi ke Model Garden

Kasus penggunaan

Beberapa kasus penggunaan umum untuk pemberian teks pada gambar antara lain:

  • Kreator dapat membuat teks untuk gambar dan video yang diupload (misalnya, deskripsi singkat urutan video)
  • Membuat teks untuk mendeskripsikan produk
  • Mengintegrasikan pemberian teks dengan aplikasi menggunakan API guna menciptakan pengalaman baru

Permintaan HTTP

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Isi permintaan

{
  "instances": [
    {
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "storageUri": string,
    "language": string,
    "seed": integer
  }
}

Gunakan parameter berikut untuk model Imagen imagetext. Untuk mengetahui informasi selengkapnya, lihat Mendapatkan deskripsi gambar menggunakan teks visual.

Parameter Deskripsi Nilai yang dapat diterima
instances Array yang berisi objek dengan detail gambar yang akan mendapatkan informasinya. array (1 objek gambar diizinkan)
bytesBase64Encoded Gambar yang akan diberi teks. String gambar berenkode base64 (PNG atau JPEG, maks. 20 MB)
gcsUri URI Cloud Storage gambar ke teks. URI string file gambar di Cloud Storage (PNG atau JPEG, maksimal 20 MB)
mimeType Opsional. Jenis MIME gambar yang Anda tentukan. string (image/jpeg atau image/png)
sampleCount Jumlah string teks yang dihasilkan. Nilai bilangan bulat: 1-3
seed Opsional. Seed untuk generator angka acak (RNG). Jika seed RNG sama untuk permintaan dengan input, hasil prediksi juga akan sama. bilangan bulat
storageUri Opsional. Lokasi Cloud Storage untuk menyimpan respons teks yang dihasilkan. string
language Opsional. Prompt (perintah) teks untuk memandu respons. string: en (default), de, fr, it, es

Permintaan sampel

REST

Untuk menguji prompt teks menggunakan Vertex AI API, kirim permintaan POST ke endpoint model penayang.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • PROJECT_ID: ID project Google Cloud Anda.
  • LOCATION: Region project Anda. Misalnya, us-central1, europe-west2, atau asia-northeast3. Untuk mengetahui daftar region yang tersedia, lihat Generative AI di lokasi Vertex AI.
  • B64_IMAGE: Gambar yang akan diberi teks. Gambar harus ditentukan sebagai string byte berenkode base64. Batas ukuran: 10 MB.
  • RESPONSE_COUNT: Jumlah teks gambar yang ingin Anda buat. Nilai bilangan bulat yang diterima: 1-3.
  • LANGUAGE_CODE: Salah satu kode bahasa yang didukung. Bahasa yang didukung:
    • Inggris (en)
    • Prancis (fr)
    • Jerman (de)
    • Italia (it)
    • Spanyol (es)

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

Isi JSON permintaan:

{
  "instances": [
    {
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT,
    "language": "LANGUAGE_CODE"
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
Contoh respons berikut adalah untuk permintaan dengan "sampleCount": 2. Respons akan menampilkan dua string prediksi.

Inggris (en):

{
  "predictions": [
    "a yellow mug with a sheep on it sits next to a slice of cake",
    "a cup of coffee with a heart shaped latte art next to a slice of cake"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}

Spanyol (es):

{
  "predictions": [
    "una taza de café junto a un plato de pastel de chocolate",
    "una taza de café con una forma de corazón en la espuma"
  ]
}

Isi respons

{
  "predictions": [ string ]
}
Elemen respons Deskripsi
predictions Daftar string teks yang merepresentasikan teks, yang diurutkan berdasarkan keyakinan.

Contoh respons

{
  "predictions": [
    "text1",
    "text2"
  ]
}