imagetext
est le nom du modèle compatible avec la génération d'images. imagetext
génère un sous-titre à partir d'une image que vous fournissez en fonction de la langue que vous spécifiez. Le modèle est compatible avec les langues suivantes : anglais (en
), allemand (de
), français (fr
), espagnol (es
) et italien (it
).
Pour explorer ce modèle dans la console, consultez la fiche de modèle Image Captioning
dans le jardin de modèles.
Cas d'utilisation
Voici quelques cas d'utilisation courants du sous-titrage d'images :
- Les créateurs peuvent générer des sous-titres pour les images et les vidéos importées (par exemple, une brève description d'une séquence vidéo).
- Générer des sous-titres pour décrire les produits
- Intégrer le sous-titrage à une application à l'aide de l'API pour créer de nouvelles expériences
Requête HTTP
POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict
Corps de la requête
{
"instances": [
{
"image": {
// Union field can be only one of the following:
"bytesBase64Encoded": string,
"gcsUri": string,
// End of list of possible types for union field.
"mimeType": string
}
}
],
"parameters": {
"sampleCount": integer,
"storageUri": string,
"language": string,
"seed": integer
}
}
Utilisez les paramètres suivants pour le modèle Imagen imagetext
.
Pour en savoir plus, consultez la page Obtenir des descriptions d'images à l'aide de la description d'image.
Paramètres | Description | Valeurs acceptables |
---|---|---|
instances |
Tableau contenant l'objet avec les détails de l'image pour obtenir des informations. | Tableau (1 objet autorisé par image) |
bytesBase64Encoded |
L'image pour laquelle vous souhaitez obtenir une légende. | Chaîne d'image encodée en base64 (PNG ou JPEG, 20 Mo au maximum) |
gcsUri |
URI Cloud Storage de l'image à sous-titrer. | URI de chaîne du fichier image dans Cloud Storage (PNG ou JPEG, 20 Mo au maximum) |
mimeType |
Facultatif. Type MIME de l'image que vous spécifiez. | Chaîne (image/jpeg ou image/png ) |
sampleCount |
Nombre de chaînes de texte générées. | Valeur Int : 1-3 |
seed |
Facultatif. Valeur source du générateur de nombres aléatoires (GNA). Si la valeur source du GNA est identique pour les requêtes contenant les entrées, les résultats de prédiction seront identiques. | integer |
storageUri |
Facultatif. Emplacement Cloud Storage pour enregistrer les réponses textuelles générées. | string |
language |
Facultatif. Invite textuelle pour guider la réponse. | string: en (valeur par défaut), de , fr , it , es |
Exemple de requête
REST
Pour tester une invite de texte à l'aide de l'API Vertex AI, envoyez une requête POST au point de terminaison du modèle de l'éditeur.
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- PROJECT_ID : L'ID de votre projet Google Cloud.
- LOCATION : région de votre projet. Par exemple,
us-central1
,europe-west2
ouasia-northeast3
. Pour obtenir la liste des régions disponibles, consultez la section Emplacements IA générative sur Vertex AI. - B64_IMAGE : image pour laquelle vous souhaitez obtenir une légende. L'image doit être spécifiée en tant que chaîne d'octets encodée en base64. Limite de taille : 10 Mo
- RESPONSE_COUNT : nombre de sous-titres d'images que vous souhaitez générer. Valeurs entières acceptées : 1-3.
- LANGUAGE_CODE : l'un des codes de langue acceptés. Langages acceptés :
- Anglais (
en
) - Français (
fr
) - Allemand (
de
) - Italien (
it
) - Espagnol (
es
)
- Anglais (
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict
Corps JSON de la requête :
{ "instances": [ { "image": { "bytesBase64Encoded": "B64_IMAGE" } } ], "parameters": { "sampleCount": RESPONSE_COUNT, "language": "LANGUAGE_CODE" } }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
"sampleCount": 2
. La réponse renvoie deux chaînes de prédiction.
Anglais (en
) :
{ "predictions": [ "a yellow mug with a sheep on it sits next to a slice of cake", "a cup of coffee with a heart shaped latte art next to a slice of cake" ], "deployedModelId": "DEPLOYED_MODEL_ID", "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID", "modelDisplayName": "MODEL_DISPLAYNAME", "modelVersionId": "1" }
Espagnol (es
) :
{ "predictions": [ "una taza de café junto a un plato de pastel de chocolate", "una taza de café con una forma de corazón en la espuma" ] }
Corps de la réponse
{
"predictions": [ string ]
}
Élément de réponse | Description |
---|---|
predictions |
Liste de chaînes de texte représentant les sous-titres, triées par confiance. |
Exemple de réponse
{
"predictions": [
"text1",
"text2"
]
}