Diese Seite wurde von der Cloud Translation API übersetzt.

Bildbeschreibungen mit der visuellen Untertitelung abrufen

Achtung:Ab dem 24. Juni 2025 werden Imagen-Version 1 und 2 eingestellt. Die Imagen-Modelle imagegeneration@002, imagegeneration@005 und imagegeneration@006 werden am 24. September 2025 entfernt. Weitere Informationen zur Migration zu Imagen 3 finden Sie unter Zu Imagen 3 migrieren.

Mit der Untertiteloption können Sie relevante Beschreibungen für Bilder erstellen. Sie können diese Informationen für verschiedene Zwecke verwenden:

Rufen Sie detailreichere Metadaten zu Bildern zum Speichern und Suchen ab.
Automatisch Untertitel für Anwendungsfälle im Bereich der Barrierefreiheit zu generieren.
Kurze Beschreibungen zu Produkten und visuellen Assets erhalten.

Bildquelle: Santhosh Kumar auf Unsplash (abgeschnitten)

Untertitel (Kurzform): Ein blaues, weiß gepunktetes Hemd hängt an einem Haken

Unterstützte Sprachen

Die visuelle Untertitelung ist in folgenden Sprachen verfügbar:

Englisch (en)
Französisch (fr)
Deutsch (de)
Italienisch (it)
Spanisch (es)

Leistung und Einschränkungen

Die folgenden Limits gelten, wenn Sie das -Modell verwenden:

Limits	Wert
Maximale Anzahl an API-Anfragen (Kurzform) pro Minute und Projekt	500
Maximale Anzahl von Tokens, die in der Antwort zurückgegeben werden (Kurzform)	64 Tokens
Maximale Anzahl von Tokens, die in der Anfrage akzeptiert werden (nur VQA-Kurzform)	80 Tokens

Die folgenden geschätzten Dienstlatenzen gelten, wenn Sie dieses Modell verwenden. Diese Werte dienen nur zur Veranschaulichung und sind kein Versprechen für die Dienstleistung:

Latenz	Wert
API-Anfragen (Kurzform)	1,5 Sekunden

Standorte

Ein Standort ist eine Region, die Sie in einer Anfrage angeben können, um zu steuern, wo Daten im Ruhezustand gespeichert werden. Eine Liste der verfügbaren Regionen finden Sie unter Generative AI an Vertex AI-Standorten.

Sicherheitsfilter für verantwortungsbewusste Anwendung von KI

Das Modell für die Funktionen „Bilduntertitelung“ und „Visual Question Answering (VQA)“ unterstützt keine vom Nutzer konfigurierbaren Sicherheitsfilter. Die allgemeine Sicherheitsfilterung von Imagen erfolgt jedoch für die folgenden Daten:

Nutzereingabe
Modellausgabe

Daher kann sich Ihre Ausgabe von der Beispielausgabe unterscheiden, wenn Imagen diese Sicherheitsfilter anwendet. Betrachten Sie hierzu folgende Beispiele.

Gefilterte Eingabe

Wenn die Eingabe gefiltert wird, sieht die Antwort in etwa so aus:

{
  "error": {
    "code": 400,
    "message": "Media reasoning failed with the following error: The response is blocked, as it may violate our policies. If you believe this is an error, please send feedback to your account team. Error Code: 63429089, 72817394",
    "status": "INVALID_ARGUMENT",
    "details": [
      {
        "@type": "type.googleapis.com/google.rpc.DebugInfo",
        "detail": "[ORIGINAL ERROR] generic::invalid_argument: Media reasoning failed with the following error: The response is blocked, as it may violate our policies. If you believe this is an error, please send feedback to your account team. Error Code: 63429089, 72817394 [google.rpc.error_details_ext] { message: \"Media reasoning failed with the following error: The response is blocked, as it may violate our policies. If you believe this is an error, please send feedback to your account team. Error Code: 63429089, 72817394\" }"
      }
    ]
  }
}

Gefilterte Ausgabe

Wenn die Anzahl der zurückgegebenen Antworten kleiner als die von Ihnen angegebene Anzahl ist, bedeutet dies, dass die fehlenden Antworten von der Responsible AI gefiltert werden. Das folgende Beispiel zeigt eine Antwort auf eine Anfrage mit "sampleCount": 2, die beiden Bilder werden jedoch gefiltert:

{
  "predictions": [
    "cappuccino"
  ]
}

Wenn die gesamte Ausgabe gefiltert wird, ist die Antwort ein leeres Objekt ähnlich dem folgenden:

{}

Kurze Bilduntertitel erhalten

Verwenden Sie folgende Beispiele, um kurze Untertitel für ein Bild zu generieren.

REST

Weitere Informationen zu imagetext-Modellanfragen finden Sie in der imagetextAPI-Referenz des Modells.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

PROJECT_ID: Ihre Google Cloud Projekt-ID.
LOCATION: Die Region Ihres Projekts. Beispiel: us-central1, europe-west2 oder asia-northeast3. Eine Liste der verfügbaren Regionen finden Sie unter Generative AI an Vertex AI-Standorten.
B64_IMAGE: Das Bild, dem Text hinzugefügt werden soll. Das Bild muss als base64-codierter Bytestring angegeben werden. Größenbeschränkung: 10 MB.
RESPONSE_COUNT: Die Anzahl der Bilduntitel, die Sie generieren möchten. Zulässige Ganzzahlwerte: 1–3.
LANGUAGE_CODE: Einer der unterstützten Sprachcodes. Unterstützte Sprachen:
- Englisch (en)
- Französisch (fr)
- Deutsch (de)
- Italienisch (it)
- Spanisch (es)

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

JSON-Text der Anfrage:

{
  "instances": [
    {
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT,
    "language": "LANGUAGE_CODE"
  }
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben. Dazu haben Sie gcloud init oder gcloud auth login ausgeführt oder die Cloud Shell genutzt, die Sie automatisch bei der gcloud CLI anmeldet. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben. Dazu führen Sie gcloud init oder gcloud auth login aus. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content

Die folgenden Beispielantworten beziehen sich auf eine Anfrage mit "sampleCount": 2. Die Antwort gibt zwei Vorhersagestrings zurück.

Englisch (en):

{
  "predictions": [
    "a yellow mug with a sheep on it sits next to a slice of cake",
    "a cup of coffee with a heart shaped latte art next to a slice of cake"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}

Spanisch (es):

{
  "predictions": [
    "una taza de café junto a un plato de pastel de chocolate",
    "una taza de café con una forma de corazón en la espuma"
  ]
}

Python

Bevor Sie dieses Beispiel anwenden, folgen Sie den Python-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Python API.

Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.

In diesem Beispiel verwenden Sie die Methode load_from_file, um auf eine lokale Datei als Basis-Image zu verweisen, für die ein Untertitel abgerufen werden soll. Nachdem Sie das Basis-Image angegeben haben, verwenden Sie die Methode get_captions in der ImageTextModel und drucken die Ausgabe.


import vertexai
from vertexai.preview.vision_models import Image, ImageTextModel

# TODO(developer): Update and un-comment below lines
# PROJECT_ID = "your-project-id"
# input_file = "input-image.png"

vertexai.init(project=PROJECT_ID, location="us-central1")

model = ImageTextModel.from_pretrained("imagetext@001")
source_img = Image.load_from_file(location=input_file)

captions = model.get_captions(
    image=source_img,
    # Optional parameters
    language="en",
    number_of_results=2,
)

print(captions)
# Example response:
# ['a cat with green eyes looks up at the sky']

Node.js

Bevor Sie dieses Beispiel anwenden, folgen Sie den Node.js-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Node.js API.

Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.

In diesem Beispiel rufen Sie die Methode in einem predict PredictionServiceClient auf. Der Dienst gibt Untertitel für das bereitgestellte Bild zurück.

/**
 * TODO(developer): Update these variables before running the sample.
 */
const projectId = process.env.CAIP_PROJECT_ID;
const location = 'us-central1';
const inputFile = 'resources/cat.png';

const aiplatform = require('@google-cloud/aiplatform');

// Imports the Google Cloud Prediction Service Client library
const {PredictionServiceClient} = aiplatform.v1;

// Import the helper module for converting arbitrary protobuf.Value objects
const {helpers} = aiplatform;

// Specifies the location of the api endpoint
const clientOptions = {
  apiEndpoint: `${location}-aiplatform.googleapis.com`,
};

// Instantiates a client
const predictionServiceClient = new PredictionServiceClient(clientOptions);

async function getShortFormImageCaptions() {
  const fs = require('fs');
  // Configure the parent resource
  const endpoint = `projects/${projectId}/locations/${location}/publishers/google/models/imagetext@001`;

  const imageFile = fs.readFileSync(inputFile);
  // Convert the image data to a Buffer and base64 encode it.
  const encodedImage = Buffer.from(imageFile).toString('base64');

  const instance = {
    image: {
      bytesBase64Encoded: encodedImage,
    },
  };
  const instanceValue = helpers.toValue(instance);
  const instances = [instanceValue];

  const parameter = {
    // Optional parameters
    language: 'en',
    sampleCount: 2,
  };
  const parameters = helpers.toValue(parameter);

  const request = {
    endpoint,
    instances,
    parameters,
  };

  // Predict request
  const [response] = await predictionServiceClient.predict(request);
  const predictions = response.predictions;
  if (predictions.length === 0) {
    console.log(
      'No captions were generated. Check the request parameters and image.'
    );
  } else {
    predictions.forEach(prediction => {
      console.log(prediction.stringValue);
    });
  }
}
await getShortFormImageCaptions();

Parameter für Bilduntertitel verwenden

In Sachen Bilduntertitel gibt es je nach Anwendungsfall mehrere einstellbare Parameter.

Anzahl der Ergebnisse

Verwenden Sie die Anzahl der Ergebnisparameter, um die Anzahl der Untertitel zu begrenzen, die pro gesendeter Anfrage zurückgegeben werden. Weitere Informationen finden Sie in der API-Referenz für das Modell imagetext (Bildunterschrift).

Quell-Nummer

Eine Zahl, die Sie einer Anfrage hinzufügen, um generierte Beschreibungen deterministisch zu machen. Durch Hinzufügen einer Quell-Nummer zu Ihrer Anfrage können Sie sicher sein, dass Sie jedes Mal dieselben Vorhersagen (Antworten) erhalten. Die Bilduntertitel werden jedoch nicht unbedingt in derselben Reihenfolge zurückgegeben. Weitere Informationen finden Sie in der API-Referenz für das Modell imagetext (Bildunterschrift).

Nächste Schritte

Artikel zu Imagen und anderen Produkten für generative KI in Vertex AI:

Bildbeschreibungen mit der visuellen Untertitelung abrufen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Unterstützte Sprachen

Leistung und Einschränkungen

Standorte

Sicherheitsfilter für verantwortungsbewusste Anwendung von KI

Gefilterte Eingabe

Gefilterte Ausgabe

Kurze Bilduntertitel erhalten

REST

curl

PowerShell

Python

Node.js

Parameter für Bilduntertitel verwenden

Anzahl der Ergebnisse

Quell-Nummer

Nächste Schritte

Bildbeschreibungen mit der visuellen Untertitelung abrufen