imagetext
è il nome del modello che supporta la funzionalità di generazione di sottotitoli codificati per le immagini. imagetext
genera un sottotitolo codificato da un'immagine che fornisci in base alla lingua che
specifichi. Il modello supporta le seguenti lingue: inglese (en
), tedesco
(de
), francese (fr
), spagnolo (es
) e italiano (it
).
Per esplorare questo modello nella console, consulta la scheda del modello Image Captioning
in
Model Garden.
Casi d'uso
Ecco alcuni casi d'uso comuni per le didascalie delle immagini:
- I creator possono generare sottotitoli codificati per le immagini e i video caricati (ad esempio, una breve descrizione di una sequenza video).
- Generare sottotitoli codificati per descrivere i prodotti
- Integrare i sottotitoli codificati con un'app utilizzando l'API per creare nuove esperienze
Richiesta HTTP
POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict
Corpo della richiesta
{
"instances": [
{
"image": {
// Union field can be only one of the following:
"bytesBase64Encoded": string,
"gcsUri": string,
// End of list of possible types for union field.
"mimeType": string
}
}
],
"parameters": {
"sampleCount": integer,
"storageUri": string,
"language": string,
"seed": integer
}
}
Utilizza i seguenti parametri per il modello Imagen imagetext
.
Per ulteriori informazioni, consulta
Ottenere le descrizioni delle immagini usando le didascalie visive.
Parametro | Descrizione | Valori accettabili |
---|---|---|
instances |
Un array contenente l'oggetto con i dettagli dell'immagine di cui vuoi ottenere informazioni. | array (è consentito un oggetto immagine) |
bytesBase64Encoded |
L'immagine a cui aggiungere la didascalia. | Stringa di immagine con codifica Base64 (PNG o JPEG, massimo 20 MB) |
gcsUri |
L'URI Cloud Storage dell'immagine a cui aggiungere la didascalia. | URI stringa del file immagine in Cloud Storage (PNG o JPEG, massimo 20 MB) |
mimeType |
Facoltativo. Il tipo MIME dell'immagine specificata. | stringa (image/jpeg o image/png ) |
sampleCount |
Numero di stringhe di testo generate. | Valore intero: 1-3 |
seed |
Facoltativo. Il seed per il generatore di numeri casuali (RNG). Se il seed RNG è lo stesso per le richieste con gli input, i risultati di previsione saranno gli stessi. | integer |
storageUri |
Facoltativo. La posizione in Cloud Storage in cui salvare le risposte di testo generate. | string |
language |
Facoltativo. Il prompt di testo per guidare la risposta. | stringa: en (valore predefinito), de , fr , it , es |
Richiesta di esempio
REST
Per testare un prompt di testo utilizzando l'API Vertex AI, invia una richiesta POST all'endpoint del modello del publisher.
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
- PROJECT_ID: il tuo ID progetto Google Cloud.
- LOCATION: la regione del progetto. Ad esempio,
us-central1
,europe-west2
oasia-northeast3
. Per un elenco delle regioni disponibili, consulta Località dell'IA generativa su Vertex AI. - B64_IMAGE: l'immagine per cui ottenere i sottotitoli codificati. L'immagine deve essere specificata come stringa di byte codificata in base64. Dimensioni massime: 10 MB.
- RESPONSE_COUNT: il numero di didascalie delle immagini da generare. Valori interi accettati: 1-3.
- LANGUAGE_CODE: uno dei codici lingua supportati. Lingue supportate:
- Inglese (
en
) - Francese (
fr
) - Tedesco (
de
) - Italiano (
it
) - Spagnolo (
es
)
- Inglese (
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict
Corpo JSON della richiesta:
{ "instances": [ { "image": { "bytesBase64Encoded": "B64_IMAGE" } } ], "parameters": { "sampleCount": RESPONSE_COUNT, "language": "LANGUAGE_CODE" } }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
"sampleCount": 2
. La risposta restituisce due stringhe di previsione.
Inglese (en
):
{ "predictions": [ "a yellow mug with a sheep on it sits next to a slice of cake", "a cup of coffee with a heart shaped latte art next to a slice of cake" ], "deployedModelId": "DEPLOYED_MODEL_ID", "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID", "modelDisplayName": "MODEL_DISPLAYNAME", "modelVersionId": "1" }
Spagnolo (es
):
{ "predictions": [ "una taza de café junto a un plato de pastel de chocolate", "una taza de café con una forma de corazón en la espuma" ] }
Corpo della risposta
{
"predictions": [ string ]
}
Elemento Response | Descrizione |
---|---|
predictions |
Elenco di stringhe di testo che rappresentano i sottotitoli codificati, ordinati in base al livello di confidenza. |
Risposta di esempio
{
"predictions": [
"text1",
"text2"
]
}