imagetext
è il nome del modello che supporta le didascalie delle immagini. imagetext
genera una didascalia da un'immagine che fornisci in base alla lingua che
specifichi. Il modello supporta le seguenti lingue: inglese (en
), tedesco
(de
), francese (fr
), spagnolo (es
) e italiano (it
).
Per esplorare questo modello nella console, consulta la scheda del modello Image Captioning
in
Model Garden.
Visualizza la scheda del modello Imagen per la generazione di didascalie e VQA
Casi d'uso
Alcuni casi d'uso comuni per le didascalie delle immagini includono:
- I creator possono generare didascalie per le immagini e i video caricati (ad esempio, una breve descrizione di una sequenza video).
- Generare didascalie per descrivere i prodotti
- Integrare i sottotitoli codificati con un'app utilizzando l'API per creare nuove esperienze
Richiesta HTTP
POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict
Corpo della richiesta
{
"instances": [
{
"image": {
// Union field can be only one of the following:
"bytesBase64Encoded": string,
"gcsUri": string,
// End of list of possible types for union field.
"mimeType": string
}
}
],
"parameters": {
"sampleCount": integer,
"storageUri": string,
"language": string,
"seed": integer
}
}
Utilizza i seguenti parametri per il modello Imagen imagetext
.
Per saperne di più, consulta
Ottenere le descrizioni delle immagini usando le didascalie visive.
Parametro | Descrizione | Valori accettabili |
---|---|---|
instances |
Un array che contiene l'oggetto con i dettagli dell'immagine su cui ottenere informazioni. | array (è consentito un solo oggetto immagine) |
bytesBase64Encoded |
L'immagine a cui aggiungere una didascalia. | Stringa dell'immagine con codifica base64 (PNG o JPEG, massimo 20 MB) |
gcsUri |
L'URI Cloud Storage dell'immagine a cui aggiungere i sottotitoli codificati. | URI stringa del file immagine in Cloud Storage (PNG o JPEG, massimo 20 MB) |
mimeType |
Facoltativo. Il tipo MIME dell'immagine che specifichi. | stringa (image/jpeg o image/png ) |
sampleCount |
Numero di stringhe di testo generate. | Valore int: 1-3 |
seed |
Facoltativo. Il seed per il generatore di numeri casuali (RNG). Se il seed RNG è lo stesso per le richieste con gli input, i risultati della previsione saranno gli stessi. | integer |
storageUri |
Facoltativo. La posizione Cloud Storage in cui salvare le risposte di testo generate. | string |
language |
Facoltativo. Il prompt di testo per guidare la risposta. | stringa: en (impostazione predefinita), de , fr , it , es |
Richiesta di esempio
REST
Per testare un prompt di testo utilizzando l'API Vertex AI, invia una richiesta POST all'endpoint del modello del publisher.
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
- PROJECT_ID: il tuo Google Cloud ID progetto.
- LOCATION: la regione del progetto. Ad esempio,
us-central1
,europe-west2
oasia-northeast3
. Per un elenco delle regioni disponibili, consulta Località dell'AI generativa su Vertex AI. - B64_IMAGE: L'immagine per cui ottenere i sottotitoli codificati. L'immagine deve essere specificata come stringa di byte con codifica base64. Dimensioni massime: 10 MB.
- RESPONSE_COUNT: Il numero di didascalie delle immagini che vuoi generare. Valori interi accettati: 1-3.
- LANGUAGE_CODE: uno dei codici lingua supportati. Lingue supportate:
- Inglese (
en
) - Francese (
fr
) - Tedesco (
de
) - Italiano (
it
) - Spagnolo (
es
)
- Inglese (
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict
Corpo JSON della richiesta:
{ "instances": [ { "image": { "bytesBase64Encoded": "B64_IMAGE" } } ], "parameters": { "sampleCount": RESPONSE_COUNT, "language": "LANGUAGE_CODE" } }
Per inviare la richiesta, scegli una di queste opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
,
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
,
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
"sampleCount": 2
. La risposta restituisce due stringhe di previsione.
Inglese (en
):
{ "predictions": [ "a yellow mug with a sheep on it sits next to a slice of cake", "a cup of coffee with a heart shaped latte art next to a slice of cake" ], "deployedModelId": "DEPLOYED_MODEL_ID", "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID", "modelDisplayName": "MODEL_DISPLAYNAME", "modelVersionId": "1" }
Spagnolo (es
):
{ "predictions": [ "una taza de café junto a un plato de pastel de chocolate", "una taza de café con una forma de corazón en la espuma" ] }
Corpo della risposta
{
"predictions": [ string ]
}
Elemento di risposta | Descrizione |
---|---|
predictions |
Elenco di stringhe di testo che rappresentano i sottotitoli codificati, ordinate in base alla confidenza. |
Esempio di risposta
{
"predictions": [
"text1",
"text2"
]
}