Utilizzare la risposta alle domande visive (VQA) per ottenere informazioni sulle immagini

la Visual Question Answering (VQA) consente di fornire un'immagine al modello e chiedere una domanda sui contenuti dell'immagine. In risposta alla tua domanda riceverai uno o più risposte in linguaggio naturale.

Immagine, domanda e risposte di esempio per la funzionalità VQA nella console
Sorgente immagine (mostrata nella console Google Cloud): Sharon Pittaway su Unsplash
Domanda prompt: Quali oggetti sono presenti nell'immagine?
Risposta 1: biglie
Risposta 2: biglia di vetro

Lingue supportate

VQA è disponibile nelle seguenti lingue:

  • Inglese (en)

Prestazioni e limitazioni

Quando utilizzi questo modello, si applicano i seguenti limiti:

Limiti Valore
Numero massimo di richieste API (formato breve) al minuto per progetto 500
Numero massimo di token restituiti nella risposta (formato breve) 64 token
Numero massimo di token accettati nella richiesta (solo formato breve VQA) 80 token

Quando utilizzi questo modello, si applicano le seguenti stime della latenza del servizio. Questi valori hanno scopo puramente illustrativo e non costituiscono una promessa di servizio:

Latenza Valore
Richieste API (formato breve) 1,5 secondi

Località

Una località è una regione che puoi specificare in una richiesta controllare dove vengono archiviati i dati at-rest. Per un elenco delle aree geografiche disponibili, vedi l'IA generativa nelle località di Vertex AI.

Filtro sicurezza IA responsabile

Il modello di funzionalità per le didascalie delle immagini e la risposta alle domande visive (VQA) Supporta filtri di sicurezza configurabili dall'utente. Tuttavia, il filtro di sicurezza di Imagen viene applicato ai seguenti dati:

  • Input utente
  • Output del modello

Di conseguenza, l'output potrebbe essere diverso dall'output di esempio se Imagen applica questi filtri di sicurezza. Considera i seguenti esempi.

Input filtrato

Se l'input viene filtrato, la risposta è simile alla seguente:

{
  "error": {
    "code": 400,
    "message": "Media reasoning failed with the following error: The response is blocked, as it may violate our policies. If you believe this is an error, please send feedback to your account team. Error Code: 63429089, 72817394",
    "status": "INVALID_ARGUMENT",
    "details": [
      {
        "@type": "type.googleapis.com/google.rpc.DebugInfo",
        "detail": "[ORIGINAL ERROR] generic::invalid_argument: Media reasoning failed with the following error: The response is blocked, as it may violate our policies. If you believe this is an error, please send feedback to your account team. Error Code: 63429089, 72817394 [google.rpc.error_details_ext] { message: \"Media reasoning failed with the following error: The response is blocked, as it may violate our policies. If you believe this is an error, please send feedback to your account team. Error Code: 63429089, 72817394\" }"
      }
    ]
  }
}

Output filtrato

Se il numero di risposte restituite è inferiore al numero di campioni specificato, Ciò significa che le risposte mancanti vengono filtrate dall'AI responsabile. Ad esempio: La seguente è una risposta a una richiesta con "sampleCount": 2, ma uno dei risposte vengono escluse:

{
  "predictions": [
    "cappuccino"
  ]
}

Se tutto l'output viene filtrato, la risposta è un oggetto vuoto simile al seguenti:

{}

Utilizzare VQA su un'immagine (risposte brevi)

Utilizza i seguenti esempi per porre una domanda e ricevere una risposta su un'immagine.

REST

Per ulteriori informazioni sulle richieste del modello imagetext, consulta il riferimento all'API del modello imagetext.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

  • PROJECT_ID: il tuo ID progetto Google Cloud.
  • LOCATION: la regione del tuo progetto. Ad esempio: us-central1, europe-west2 o asia-northeast3. Per una lista delle regioni disponibili, vedi L'IA generativa nelle località di Vertex AI.
  • VQA_PROMPT: la domanda a cui vuoi ricevere una risposta sulla tua immagine.
    • Di che colore è questa scarpa?
    • Che tipo di maniche ha la camicia?
  • B64_IMAGE: l'immagine per la quale visualizzare i sottotitoli codificati. L'immagine deve essere specificato come stringa di byte con codifica base64. Dimensioni massime: 10 MB.
  • RESPONSE_COUNT: il numero di risposte che vuoi generare. Numero intero accettato valori: 1-3.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

Corpo JSON della richiesta:

{
  "instances": [
    {
      "prompt": "VQA_PROMPT",
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT
  }
}

Per inviare la richiesta, scegli una delle seguenti opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
Le seguenti risposte di esempio sono per una richiesta con "sampleCount": 2 e "prompt": "What is this?". La risposta restituisce due risposte della stringa di previsione.
{
  "predictions": [
    "cappuccino",
    "coffee"
  ]
}

Python

Prima di provare questo esempio, segui le istruzioni per la configurazione di Python nel Guida rapida di Vertex AI con librerie client. Per ulteriori informazioni, consulta API Python Vertex AI documentazione di riferimento.

Per autenticarti in Vertex AI, configura le credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.

In questo esempio utilizzi il metodo load_from_file per fare riferimento a un file locale come base Image per ottenere informazioni. Dopo aver specificato utilizza il metodo ask_question nella ImageTextModel e stampa le risposte.


import vertexai
from vertexai.preview.vision_models import Image, ImageTextModel

# TODO(developer): Update and un-comment below lines
# PROJECT_ID = "your-project-id"
# input_file = "input-image.png"
# question = "" # The question about the contents of the image.

vertexai.init(project=PROJECT_ID, location="us-central1")

model = ImageTextModel.from_pretrained("imagetext@001")
source_img = Image.load_from_file(location=input_file)

answers = model.ask_question(
    image=source_img,
    question=question,
    # Optional parameters
    number_of_results=1,
)

print(answers)
# Example response:
# ['tabby']

Node.js

Prima di provare questo esempio, segui le istruzioni per la configurazione di Node.js nel Guida rapida di Vertex AI con librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Node.js di Vertex AI.

Per autenticarti in Vertex AI, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.

In questo esempio, chiami il metodo predict su un PredictionServiceClient. Il servizio restituisce le risposte alla domanda fornita.

/**
 * TODO(developer): Update these variables before running the sample.
 */
const projectId = process.env.CAIP_PROJECT_ID;
const location = 'us-central1';
const inputFile = 'resources/cat.png';
// The question about the contents of the image.
const prompt = 'What breed of cat is this a picture of?';

const aiplatform = require('@google-cloud/aiplatform');

// Imports the Google Cloud Prediction Service Client library
const {PredictionServiceClient} = aiplatform.v1;

// Import the helper module for converting arbitrary protobuf.Value objects
const {helpers} = aiplatform;

// Specifies the location of the api endpoint
const clientOptions = {
  apiEndpoint: `${location}-aiplatform.googleapis.com`,
};

// Instantiates a client
const predictionServiceClient = new PredictionServiceClient(clientOptions);

async function getShortFormImageResponses() {
  const fs = require('fs');
  // Configure the parent resource
  const endpoint = `projects/${projectId}/locations/${location}/publishers/google/models/imagetext@001`;

  const imageFile = fs.readFileSync(inputFile);
  // Convert the image data to a Buffer and base64 encode it.
  const encodedImage = Buffer.from(imageFile).toString('base64');

  const instance = {
    prompt: prompt,
    image: {
      bytesBase64Encoded: encodedImage,
    },
  };
  const instanceValue = helpers.toValue(instance);
  const instances = [instanceValue];

  const parameter = {
    // Optional parameters
    sampleCount: 2,
  };
  const parameters = helpers.toValue(parameter);

  const request = {
    endpoint,
    instances,
    parameters,
  };

  // Predict request
  const [response] = await predictionServiceClient.predict(request);
  const predictions = response.predictions;
  if (predictions.length === 0) {
    console.log(
      'No responses were generated. Check the request parameters and image.'
    );
  } else {
    predictions.forEach(prediction => {
      console.log(prediction.stringValue);
    });
  }
}
await getShortFormImageResponses();

Utilizzare i parametri per la VQA

Quando ricevi risposte VQA, esistono diversi parametri che puoi impostare a seconda del caso d'uso.

Numero risultati

Utilizza il parametro del numero di risultati per limitare il numero di risposte restituite per ogni richiesta che invii. Per ulteriori informazioni, consulta la imagetext (VQA) di riferimento dell'API del modello.

Numero seed

Un numero che aggiungi a una richiesta per rendere deterministiche le risposte generate. Aggiunta in corso... un numero seed con la tua richiesta è un modo per assicurarti di ottenere la stessa previsione (risposte) ogni volta. Tuttavia, le risposte non vengono necessariamente restituite nello stesso ordine. Per ulteriori informazioni, consulta Riferimento API del modello imagetext (VQA).

Passaggi successivi

Leggi gli articoli su Imagen e su altri prodotti di IA generativa su Vertex AI: