Mulai 29 April 2025, model Gemini 1.5 Pro dan Gemini 1.5 Flash tidak tersedia di project yang belum pernah menggunakan model ini, termasuk project baru. Untuk mengetahui detailnya, lihat Versi dan siklus proses model.

Halaman ini diterjemahkan oleh Cloud Translation API.

Teks gambar

Perhatian: Mulai 24 Juni 2025, Imagen versi 1 dan 2 tidak digunakan lagi. Model Imagen imagegeneration@002, imagegeneration@005, dan imagegeneration@006 akan dihapus pada 24 September 2025 . Untuk mengetahui informasi selengkapnya tentang cara bermigrasi ke Imagen 3, lihat artikel Bermigrasi ke Imagen 3.

imagetext adalah nama model yang mendukung pemberian teks pada gambar. imagetext menghasilkan teks dari gambar yang Anda berikan berdasarkan bahasa yang Anda tentukan. Model ini mendukung bahasa berikut: Inggris (en), Jerman (de), Prancis (fr), Spanyol (es), dan Italia (it).

Untuk menjelajahi model ini di konsol, lihat kartu model Image Captioning di Model Garden.

Melihat kartu model Imagen for Captioning & VQA

Kasus penggunaan

Beberapa kasus penggunaan umum untuk pemberian teks pada gambar antara lain:

Kreator dapat membuat teks untuk gambar dan video yang diupload (misalnya, deskripsi singkat urutan video)
Membuat teks untuk mendeskripsikan produk
Mengintegrasikan pemberian teks dengan aplikasi menggunakan API guna menciptakan pengalaman baru

Permintaan HTTP

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Isi permintaan

{
  "instances": [
    {
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "storageUri": string,
    "language": string,
    "seed": integer
  }
}

Gunakan parameter berikut untuk model Imagen imagetext. Untuk mengetahui informasi selengkapnya, lihat Mendapatkan deskripsi gambar menggunakan teks visual.

Parameter	Deskripsi	Nilai yang dapat diterima
`instances`	Array yang berisi objek dengan detail gambar untuk mendapatkan informasi tentangnya.	array (1 objek gambar diizinkan)
`bytesBase64Encoded`	Gambar yang akan diberi teks.	String gambar berenkode Base64 (PNG atau JPEG, maks. 20 MB)
`gcsUri`	Cloud Storage URI gambar yang akan diberi teks.	URI string file gambar di Cloud Storage (PNG atau JPEG, maksimal 20 MB)
`mimeType`	Opsional. Jenis MIME gambar yang Anda tentukan.	string (`image/jpeg` atau `image/png`)
`sampleCount`	Jumlah string teks yang dihasilkan.	Nilai bilangan bulat: 1-3
`seed`	Opsional. Seed untuk generator angka acak (RNG). Jika seed RNG sama untuk permintaan dengan input, hasil prediksi juga akan sama.	bilangan bulat
`storageUri`	Opsional. Lokasi Cloud Storage untuk menyimpan respons teks yang dihasilkan.	string
`language`	Opsional. Prompt (perintah) teks untuk memandu respons.	string: `en` (default), `de`, `fr`, `it`, `es`

Permintaan sampel

REST

Untuk menguji prompt teks menggunakan Vertex AI API, kirim permintaan POST ke endpoint model penayang.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

PROJECT_ID: Google Cloud Project ID Anda.
LOCATION: Region project Anda. Misalnya, us-central1, europe-west2, atau asia-northeast3. Untuk mengetahui daftar region yang tersedia, lihat Lokasi AI Generatif di Vertex AI.
B64_IMAGE: Gambar yang akan diberi teks. Gambar harus ditentukan sebagai string byte berenkode base64. Batas ukuran: 10 MB.
RESPONSE_COUNT: Jumlah teks gambar yang ingin Anda buat. Nilai bilangan bulat yang diterima: 1-3.
LANGUAGE_CODE: Salah satu kode bahasa yang didukung. Bahasa yang didukung:
- Inggris (en)
- Prancis (fr)
- Jerman (de)
- Italia (it)
- Spanyol (es)

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

Isi JSON permintaan:

{
  "instances": [
    {
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT,
    "language": "LANGUAGE_CODE"
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login , atau dengan menggunakan Cloud Shell, yang secara otomatis membuat Anda login ke gcloud CLI . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content

Contoh respons berikut adalah untuk permintaan dengan "sampleCount": 2. Respons akan menampilkan dua string prediksi.

Inggris (en):

{
  "predictions": [
    "a yellow mug with a sheep on it sits next to a slice of cake",
    "a cup of coffee with a heart shaped latte art next to a slice of cake"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}

Spanyol (es):

{
  "predictions": [
    "una taza de café junto a un plato de pastel de chocolate",
    "una taza de café con una forma de corazón en la espuma"
  ]
}

Isi respons

{
  "predictions": [ string ]
}

Elemen respons	Deskripsi
`predictions`	Daftar string teks yang merepresentasikan teks, yang diurutkan berdasarkan keyakinan.

Contoh respons

{
  "predictions": [
    "text1",
    "text2"
  ]
}

Teks gambar Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Kasus penggunaan

Permintaan HTTP

Isi permintaan

Permintaan sampel

REST

curl

PowerShell

Isi respons

Contoh respons

Teks gambar