Didascalie delle immagini

imagetext è il nome del modello che supporta le didascalie delle immagini. imagetext genera una didascalia da un'immagine che fornisci in base alla lingua che specifichi. Il modello supporta le seguenti lingue: inglese (en), tedesco (de), francese (fr), spagnolo (es) e italiano (it).

Per esplorare questo modello nella console, consulta la scheda del modello Image Captioning in Model Garden.

Visualizza la scheda del modello Imagen per la generazione di didascalie e VQA

Casi d'uso

Alcuni casi d'uso comuni per le didascalie delle immagini includono:

  • I creator possono generare didascalie per le immagini e i video caricati (ad esempio, una breve descrizione di una sequenza video).
  • Generare didascalie per descrivere i prodotti
  • Integrare i sottotitoli codificati con un'app utilizzando l'API per creare nuove esperienze

Richiesta HTTP

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Corpo della richiesta

{
  "instances": [
    {
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "storageUri": string,
    "language": string,
    "seed": integer
  }
}

Utilizza i seguenti parametri per il modello Imagen imagetext. Per saperne di più, consulta Ottenere le descrizioni delle immagini usando le didascalie visive.

Parametro Descrizione Valori accettabili
instances Un array che contiene l'oggetto con i dettagli dell'immagine su cui ottenere informazioni. array (è consentito un solo oggetto immagine)
bytesBase64Encoded L'immagine a cui aggiungere una didascalia. Stringa dell'immagine con codifica base64 (PNG o JPEG, massimo 20 MB)
gcsUri L'URI Cloud Storage dell'immagine a cui aggiungere i sottotitoli codificati. URI stringa del file immagine in Cloud Storage (PNG o JPEG, massimo 20 MB)
mimeType Facoltativo. Il tipo MIME dell'immagine che specifichi. stringa (image/jpeg o image/png)
sampleCount Numero di stringhe di testo generate. Valore int: 1-3
seed Facoltativo. Il seed per il generatore di numeri casuali (RNG). Se il seed RNG è lo stesso per le richieste con gli input, i risultati della previsione saranno gli stessi. integer
storageUri Facoltativo. La posizione Cloud Storage in cui salvare le risposte di testo generate. string
language Facoltativo. Il prompt di testo per guidare la risposta. stringa: en (impostazione predefinita), de, fr, it, es

Richiesta di esempio

REST

Per testare un prompt di testo utilizzando l'API Vertex AI, invia una richiesta POST all'endpoint del modello del publisher.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

  • PROJECT_ID: il tuo Google Cloud ID progetto.
  • LOCATION: la regione del progetto. Ad esempio, us-central1, europe-west2 o asia-northeast3. Per un elenco delle regioni disponibili, consulta Località dell'AI generativa su Vertex AI.
  • B64_IMAGE: L'immagine per cui ottenere i sottotitoli codificati. L'immagine deve essere specificata come stringa di byte con codifica base64. Dimensioni massime: 10 MB.
  • RESPONSE_COUNT: Il numero di didascalie delle immagini che vuoi generare. Valori interi accettati: 1-3.
  • LANGUAGE_CODE: uno dei codici lingua supportati. Lingue supportate:
    • Inglese (en)
    • Francese (fr)
    • Tedesco (de)
    • Italiano (it)
    • Spagnolo (es)

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

Corpo JSON della richiesta:

{
  "instances": [
    {
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT,
    "language": "LANGUAGE_CODE"
  }
}

Per inviare la richiesta, scegli una di queste opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
Le seguenti risposte di esempio si riferiscono a una richiesta con "sampleCount": 2. La risposta restituisce due stringhe di previsione.

Inglese (en):

{
  "predictions": [
    "a yellow mug with a sheep on it sits next to a slice of cake",
    "a cup of coffee with a heart shaped latte art next to a slice of cake"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}

Spagnolo (es):

{
  "predictions": [
    "una taza de café junto a un plato de pastel de chocolate",
    "una taza de café con una forma de corazón en la espuma"
  ]
}

Corpo della risposta

{
  "predictions": [ string ]
}
Elemento di risposta Descrizione
predictions Elenco di stringhe di testo che rappresentano i sottotitoli codificati, ordinate in base alla confidenza.

Esempio di risposta

{
  "predictions": [
    "text1",
    "text2"
  ]
}