imagetext
est le nom du modèle compatible avec la génération d'images. imagetext
génère un sous-titre à partir d'une image que vous fournissez en fonction de la langue que vous spécifiez. Le modèle est compatible avec les langues suivantes : anglais (en
), allemand (de
), français (fr
), espagnol (es
) et italien (it
).
Pour explorer ce modèle dans la console, consultez la fiche de modèle Image Captioning
dans Model Garden.
Cas d'utilisation
Voici quelques cas d'utilisation courants du sous-titrage d'images :
- Les créateurs peuvent générer des sous-titres pour les images et les vidéos importées (par exemple, une brève description d'une séquence vidéo).
- Générer des sous-titres pour décrire les produits
- Intégrer le sous-titrage à une application à l'aide de l'API pour créer de nouvelles expériences
Requête HTTP
POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict
Corps de la requête
{
"instances": [
{
"image": {
// Union field can be only one of the following:
"bytesBase64Encoded": string,
"gcsUri": string,
// End of list of possible types for union field.
"mimeType": string
}
}
],
"parameters": {
"sampleCount": integer,
"storageUri": string,
"language": string,
"seed": integer
}
}
Utilisez les paramètres suivants pour le modèle Imagen imagetext
.
Pour en savoir plus, consultez la page Obtenir des descriptions d'images à l'aide de la description d'image.
Paramètre | Description | Valeurs acceptables |
---|---|---|
instances |
Tableau contenant l'objet avec les détails de l'image pour obtenir des informations. | Tableau (1 objet autorisé par image) |
bytesBase64Encoded |
L'image pour laquelle vous souhaitez obtenir une légende. | Chaîne d'image encodée en base64 (PNG ou JPEG, 20 Mo au maximum) |
gcsUri |
URI Cloud Storage de l'image à sous-titrer. | URI de chaîne du fichier image dans Cloud Storage (PNG ou JPEG, 20 Mo au maximum) |
mimeType |
Facultatif. Type MIME de l'image que vous spécifiez. | Chaîne (image/jpeg ou image/png ) |
sampleCount |
Nombre de chaînes de texte générées. | Valeur Int : 1-3 |
seed |
Facultatif. Valeur source du générateur de nombres aléatoires (GNA). Si la valeur source du GNA est identique pour les requêtes contenant les entrées, les résultats de prédiction seront identiques. | entier |
storageUri |
Facultatif. Emplacement Cloud Storage pour enregistrer les réponses textuelles générées. | chaîne |
language |
Facultatif. Requête textuelle pour guider la réponse. | string: en (valeur par défaut), de , fr , it , es |
Exemple de requête
REST
Pour tester une requête de texte à l'aide de l'API Vertex AI, envoyez une requête POST au point de terminaison du modèle de l'éditeur.
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- PROJECT_ID : L'ID de votre projet Google Cloud.
- LOCATION : région de votre projet. Par exemple,
us-central1
,europe-west2
ouasia-northeast3
. Pour obtenir la liste des régions disponibles, consultez la section Emplacements IA générative sur Vertex AI. - B64_IMAGE : image pour laquelle vous souhaitez obtenir une légende. L'image doit être spécifiée en tant que chaîne d'octets encodée en base64. Limite de taille : 10 Mo
- RESPONSE_COUNT : nombre de sous-titres d'images que vous souhaitez générer. Valeurs entières acceptées : 1-3.
- LANGUAGE_CODE : l'un des codes de langue acceptés. Langages acceptés :
- Anglais (
en
) - Français (
fr
) - Allemand (
de
) - Italien (
it
) - Espagnol (
es
)
- Anglais (
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict
Corps JSON de la requête :
{ "instances": [ { "image": { "bytesBase64Encoded": "B64_IMAGE" } } ], "parameters": { "sampleCount": RESPONSE_COUNT, "language": "LANGUAGE_CODE" } }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
"sampleCount": 2
. La réponse renvoie deux chaînes de prédiction.
Anglais (en
) :
{ "predictions": [ "a yellow mug with a sheep on it sits next to a slice of cake", "a cup of coffee with a heart shaped latte art next to a slice of cake" ], "deployedModelId": "DEPLOYED_MODEL_ID", "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID", "modelDisplayName": "MODEL_DISPLAYNAME", "modelVersionId": "1" }
Espagnol (es
) :
{ "predictions": [ "una taza de café junto a un plato de pastel de chocolate", "una taza de café con una forma de corazón en la espuma" ] }
Corps de la réponse
{
"predictions": [ string ]
}
Élément de réponse | Description |
---|---|
predictions |
Liste de chaînes de texte représentant les sous-titres, triées par confiance. |
Exemple de réponse
{
"predictions": [
"text1",
"text2"
]
}