Domanda e risposta visiva (VQA)

Imagen per le didascalie e le domande con risposta sulle immagini (imagetext) è il nome del modello che supporta le domande e le risposte sulle immagini. Imagen per la trascrizione codificata e la VQA risponde a una domanda fornita per una determinata immagine, anche se non è stata mai vista dal modello.

Per esplorare questo modello nella console, consulta la scheda del modello Imagen per sottotitoli codificati e VQA in Model Garden.

Vai a Model Garden

Casi d'uso

Ecco alcuni casi d'uso comuni per le domande e le risposte con immagini:

  • Consenti agli utenti di interagire con i contenuti visivi tramite le domande e risposte.
  • Consenti ai clienti di interagire con le immagini prodotto mostrate su app e siti web di vendita al dettaglio.
  • Fornisci opzioni di accessibilità per gli utenti con disabilità visiva.

Richiesta HTTP

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Corpo della richiesta

{
  "instances": [
    {
      "prompt": string,
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "seed": integer
  }
}

Utilizza i seguenti parametri per il modello di generazione di domande e risposte visive imagetext. Per ulteriori informazioni, consulta Utilizzare la funzionalità Visual Question Answering (VQA).

Parametro Descrizione Valori accettabili
instances Un array contenente l'oggetto con i dettagli del prompt e dell'immagine su cui ottenere informazioni. array (è consentito un oggetto immagine)
prompt La domanda a cui vuoi ricevere una risposta sulla tua immagine. stringa (massimo 80 token)
bytesBase64Encoded L'immagine di cui vuoi ricevere informazioni. Stringa di immagine con codifica Base64 (PNG o JPEG, massimo 20 MB)
gcsUri L'URI Cloud Storage dell'immagine di cui vuoi ottenere informazioni. URI stringa del file immagine in Cloud Storage (PNG o JPEG, massimo 20 MB)
mimeType Facoltativo. Il tipo MIME dell'immagine specificata. stringa (image/jpeg o image/png)
sampleCount Numero di stringhe di testo generate. Valore intero: 1-3
seed Facoltativo. Il seed per il generatore di numeri casuali (RNG). Se il seed RNG è lo stesso per le richieste con gli input, i risultati di previsione saranno gli stessi. integer

Richiesta di esempio

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

  • PROJECT_ID: il tuo ID progetto Google Cloud.
  • LOCATION: la regione del progetto. Ad esempio, us-central1, europe-west2 o asia-northeast3. Per un elenco delle regioni disponibili, consulta Località dell'IA generativa su Vertex AI.
  • VQA_PROMPT: la domanda a cui vuoi ricevere una risposta in merito alla tua immagine.
    • Di che colore è questa scarpa?
    • Che tipo di maniche ha la camicia?
  • B64_IMAGE: l'immagine per cui ottenere i sottotitoli codificati. L'immagine deve essere specificata come stringa di byte codificata in base64. Dimensioni massime: 10 MB.
  • RESPONSE_COUNT: il numero di risposte che vuoi generare. Valori interi accettati: 1-3.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

Corpo JSON della richiesta:

{
  "instances": [
    {
      "prompt": "VQA_PROMPT",
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT
  }
}

Per inviare la richiesta, scegli una delle seguenti opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
Le seguenti risposte di esempio sono per una richiesta con "sampleCount": 2 e "prompt": "What is this?". La risposta restituisce due risposte di stringa di previsione.
{
  "predictions": [
    "cappuccino",
    "coffee"
  ]
}

Corpo della risposta


{
  "predictions": [
    string
  ]
}
Elemento Response Descrizione
predictions Elenco di stringhe di testo che rappresentano la risposta VQA, ordinate in base alla confidenza.

Risposta di esempio

Le seguenti risposte di esempio sono per una richiesta con "sampleCount": 2 e "prompt": "What is this?". La risposta restituisce due risposte di stringa di previsione.

{
  "predictions": [
    "cappuccino",
    "coffee"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/us-central1/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}