imagetext
ist der Name des Modells, das die Bilderstellung unterstützt. imagetext
generiert auf Basis eines von Ihnen bereitgestellten Bilds einen Untertitel in der von Ihnen angegebenen Sprache. Das Modell unterstützt die folgenden Sprachen: Englisch en
, Deutsch (de
), Französisch (fr
), Spanisch (es
) und Italienisch (it
).
Weitere Informationen zu diesem Modell finden Sie in der Console auf der Image Captioning
-Modellkarte in Model Garden.
Anwendungsfälle
Gängige Anwendungsfälle für Bilduntertitel:
- Ersteller können Untertitel für hochgeladene Bilder und Videos generieren (z. B. eine kurze Beschreibung einer Videosequenz).
- Untertitel erstellen, um Produkte zu beschreiben
- Mithilfe der API Untertitel in eine App einbinden, um neue Inhalte zu erstellen
HTTP-Anfrage
POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict
Anfragetext
{
"instances": [
{
"image": {
// Union field can be only one of the following:
"bytesBase64Encoded": string,
"gcsUri": string,
// End of list of possible types for union field.
"mimeType": string
}
}
],
"parameters": {
"sampleCount": integer,
"storageUri": string,
"language": string,
"seed": integer
}
}
Verwenden Sie folgende Parameter für das Imagen-Modell imagetext
.
Weitere Informationen finden Sie unter Bildbeschreibungen mit der visuellen Untertitelung abrufen.
Parameter | Beschreibung | Zulässige Werte |
---|---|---|
instances |
Ein Array, das das Objekt mit Bilddetails enthält, zu dem Informationen abgerufen werden sollen. | Array (1 Bildobjekt zulässig) |
bytesBase64Encoded |
Das Bild, dem Text hinzugefügt werden soll | Base64-codierter Bildstring (PNG oder JPEG, max. 20 MB) |
gcsUri |
Der Cloud Storage-URI des Bildes, dem Text hinzugefügt werden soll. | String-URI der Bilddatei in Cloud Storage (PNG oder JPEG, max. 20 MB) |
mimeType |
Optional. Der MIME-Typ des angegebenen Bilds. | String (image/jpeg oder image/png ) |
sampleCount |
Anzahl der generierten Textstrings | Ganzzahl-Wert: 1–3 |
seed |
Optional. Quelle für Zufallszahlengenerator (Random Number Generator, RNG). Wenn die RNG-Quelle für Anfragen mit den Eingaben identisch ist, sind die Vorhersageergebnisse identisch. | Integer |
storageUri |
Optional. Der Cloud Storage-Speicherort zum Speichern der generierten Textantworten. | String |
language |
Optional. Die Eingabeaufforderung für die Anleitung zur Antwort. | string: en (standard), de , fr , it , es |
Beispielanfrage
REST
Senden Sie zum Testen eines Text-Prompts mit der Vertex AI API eine POST-Anfrage an den Endpunkt des Publisher-Modells.
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- LOCATION: Die Region Ihres Projekts. Beispiel:
us-central1
,europe-west2
oderasia-northeast3
. Eine Liste der verfügbaren Regionen finden Sie unter Generative AI an Vertex AI-Standorten. - B64_IMAGE: Das Bild, dem Text hinzugefügt werden soll. Das Bild muss als base64-codierter Bytestring angegeben werden. Größenbeschränkung: 10 MB.
- RESPONSE_COUNT: Die Anzahl der Bilduntitel, die Sie generieren möchten. Zulässige Ganzzahlwerte: 1–3.
- LANGUAGE_CODE: Einer der unterstützten Sprachcodes. Unterstützte Sprachen:
- Englisch (
en
) - Französisch (
fr
) - Deutsch (
de
) - Italienisch (
it
) - Spanisch (
es
)
- Englisch (
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict
JSON-Text der Anfrage:
{ "instances": [ { "image": { "bytesBase64Encoded": "B64_IMAGE" } } ], "parameters": { "sampleCount": RESPONSE_COUNT, "language": "LANGUAGE_CODE" } }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
"sampleCount": 2
. Die Antwort gibt zwei Vorhersagestrings zurück.
Englisch (en
):
{ "predictions": [ "a yellow mug with a sheep on it sits next to a slice of cake", "a cup of coffee with a heart shaped latte art next to a slice of cake" ], "deployedModelId": "DEPLOYED_MODEL_ID", "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID", "modelDisplayName": "MODEL_DISPLAYNAME", "modelVersionId": "1" }
Spanish (es
):
{ "predictions": [ "una taza de café junto a un plato de pastel de chocolate", "una taza de café con una forma de corazón en la espuma" ] }
Antworttext
{
"predictions": [ string ]
}
Antwortelement | Beschreibung |
---|---|
predictions |
Liste der Textstrings, die Untertitel darstellen, nach Konfidenz sortiert. |
Beispielantwort
{
"predictions": [
"text1",
"text2"
]
}