Légendes d'images

imagetext est le nom du modèle compatible avec la génération d'images. imagetext génère un sous-titre à partir d'une image que vous fournissez en fonction de la langue que vous spécifiez. Le modèle est compatible avec les langues suivantes : anglais (en), allemand (de), français (fr), espagnol (es) et italien (it).

Pour explorer ce modèle dans la console, consultez la fiche de modèle Image Captioning dans le jardin de modèles.

Accéder à Model Garden

Cas d'utilisation

Voici quelques cas d'utilisation courants du sous-titrage d'images :

  • Les créateurs peuvent générer des sous-titres pour les images et les vidéos importées (par exemple, une brève description d'une séquence vidéo).
  • Générer des sous-titres pour décrire les produits
  • Intégrer le sous-titrage à une application à l'aide de l'API pour créer de nouvelles expériences

Requête HTTP

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Corps de la requête

{
  "instances": [
    {
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "storageUri": string,
    "language": string,
    "seed": integer
  }
}

Utilisez les paramètres suivants pour le modèle Imagen imagetext. Pour en savoir plus, consultez la page Obtenir des descriptions d'images à l'aide de la description d'image.

Paramètres Description Valeurs acceptables
instances Tableau contenant l'objet avec les détails de l'image pour obtenir des informations. Tableau (1 objet autorisé par image)
bytesBase64Encoded L'image pour laquelle vous souhaitez obtenir une légende. Chaîne d'image encodée en base64 (PNG ou JPEG, 20 Mo au maximum)
gcsUri URI Cloud Storage de l'image à sous-titrer. URI de chaîne du fichier image dans Cloud Storage (PNG ou JPEG, 20 Mo au maximum)
mimeType Facultatif. Type MIME de l'image que vous spécifiez. Chaîne (image/jpeg ou image/png)
sampleCount Nombre de chaînes de texte générées. Valeur Int : 1-3
seed Facultatif. Valeur source du générateur de nombres aléatoires (GNA). Si la valeur source du GNA est identique pour les requêtes contenant les entrées, les résultats de prédiction seront identiques. integer
storageUri Facultatif. Emplacement Cloud Storage pour enregistrer les réponses textuelles générées. string
language Facultatif. Invite textuelle pour guider la réponse. string: en (valeur par défaut), de, fr, it, es

Exemple de requête

REST

Pour tester une invite de texte à l'aide de l'API Vertex AI, envoyez une requête POST au point de terminaison du modèle de l'éditeur.

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

  • PROJECT_ID : L'ID de votre projet Google Cloud.
  • LOCATION : région de votre projet. Par exemple, us-central1, europe-west2 ou asia-northeast3. Pour obtenir la liste des régions disponibles, consultez la section Emplacements IA générative sur Vertex AI.
  • B64_IMAGE : image pour laquelle vous souhaitez obtenir une légende. L'image doit être spécifiée en tant que chaîne d'octets encodée en base64. Limite de taille : 10 Mo
  • RESPONSE_COUNT : nombre de sous-titres d'images que vous souhaitez générer. Valeurs entières acceptées : 1-3.
  • LANGUAGE_CODE : l'un des codes de langue acceptés. Langages acceptés :
    • Anglais (en)
    • Français (fr)
    • Allemand (de)
    • Italien (it)
    • Espagnol (es)

Méthode HTTP et URL :

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

Corps JSON de la requête :

{
  "instances": [
    {
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT,
    "language": "LANGUAGE_CODE"
  }
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
Les exemples de réponses suivants concernent une requête avec "sampleCount": 2. La réponse renvoie deux chaînes de prédiction.

Anglais (en) :

{
  "predictions": [
    "a yellow mug with a sheep on it sits next to a slice of cake",
    "a cup of coffee with a heart shaped latte art next to a slice of cake"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}

Espagnol (es) :

{
  "predictions": [
    "una taza de café junto a un plato de pastel de chocolate",
    "una taza de café con una forma de corazón en la espuma"
  ]
}

Corps de la réponse

{
  "predictions": [ string ]
}
Élément de réponse Description
predictions Liste de chaînes de texte représentant les sous-titres, triées par confiance.

Exemple de réponse

{
  "predictions": [
    "text1",
    "text2"
  ]
}