Légendes d'images

imagetext est le nom du modèle compatible avec le sous-titrage d'images. imagetext génère une légende à partir d'une image que vous fournissez en fonction de la langue que vous spécifiez. Le modèle est compatible avec les langues suivantes : allemand (de), anglais (en), espagnol (es), français (fr) et italien (it).

Pour explorer ce modèle dans la console, consultez la fiche de modèle Image Captioning dans Model Garden.

Afficher la fiche de modèle Imagen pour la création de légendes et VQA

Cas d'utilisation

Voici quelques cas d'utilisation courants de la création de légendes pour des images :

Les créateurs peuvent générer des légendes pour les images et les vidéos importées (par exemple, une brève description d'une séquence vidéo).
Générer des légendes pour décrire des produits
Intégrer les légendes à une application à l'aide de l'API pour créer de nouvelles expériences

Requête HTTP

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Corps de la requête

{
  "instances": [
    {
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "storageUri": string,
    "language": string,
    "seed": integer
  }
}

Utilisez les paramètres suivants pour le modèle Imagen imagetext. Pour en savoir plus, consultez la page Obtenir des descriptions d'images grâce à Visual Captioning.

Paramètre	Description	Valeurs acceptables
`instances`	Tableau contenant l'objet avec les détails de l'image pour obtenir des informations.	Tableau (1 objet autorisé par image)
`bytesBase64Encoded`	L'image pour laquelle vous souhaitez obtenir une légende.	Chaîne d'image encodée en base64 (PNG ou JPEG, 20 Mo au maximum)
`gcsUri`	URI Cloud Storage de l'image à décrire.	URI de chaîne du fichier image dans Cloud Storage (PNG ou JPEG, 20 Mo au maximum)
`mimeType`	Facultatif. Type MIME de l'image que vous spécifiez.	Chaîne (`image/jpeg` ou `image/png`)
`sampleCount`	Nombre de chaînes de texte générées.	Valeur entière : 1 à 3
`seed`	Facultatif. Valeur source du générateur de nombres aléatoires (GNA). Si la valeur source du GNA est identique pour les requêtes contenant les entrées, les résultats de prédiction seront identiques.	entier
`storageUri`	Facultatif. Emplacement Cloud Storage pour enregistrer les réponses textuelles générées.	chaîne
`language`	Facultatif. Requête textuelle pour guider la réponse.	Chaîne : `en` (par défaut), `de`, `fr`, `it`, `es`

Exemple de requête

REST

Pour tester une requête textuelle à l'aide de l'API Vertex AI, envoyez une requête POST au point de terminaison du modèle de l'éditeur.

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

PROJECT_ID : ID de votre projet Google Cloud .
LOCATION : région de votre projet. Par exemple, us-central1, europe-west2 ou asia-northeast3. Pour obtenir la liste des régions disponibles, consultez la section IA générative sur les emplacements Vertex AI.
B64_IMAGE : image pour laquelle vous souhaitez obtenir une légende. L'image doit être spécifiée en tant que chaîne d'octets encodée en base64. Limite de taille : 10 Mo.
RESPONSE_COUNT : nombre de légendes d'images que vous souhaitez générer. Valeurs entières acceptées : 1 à 3.
LANGUAGE_CODE : l'un des codes de langue acceptés. Langues prises en charge :
- Anglais (en)
- Français (fr)
- Allemand (de)
- Italien (it)
- Espagnol (es)

Méthode HTTP et URL :

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

Corps JSON de la requête :

{
  "instances": [
    {
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT,
    "language": "LANGUAGE_CODE"
  }
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Remarque : La commande suivante suppose que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login, ou en utilisant Cloud Shell, qui vous connecte automatiquement à la CLI gcloud. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Remarque : La commande suivante suppose que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content

Les exemples de réponses suivants concernent une requête avec "sampleCount": 2. La réponse renvoie deux chaînes de prédiction.

Anglais (en) :

{
  "predictions": [
    "a yellow mug with a sheep on it sits next to a slice of cake",
    "a cup of coffee with a heart shaped latte art next to a slice of cake"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}

Espagnol (es) :

{
  "predictions": [
    "una taza de café junto a un plato de pastel de chocolate",
    "una taza de café con una forma de corazón en la espuma"
  ]
}

Corps de la réponse

{
  "predictions": [ string ]
}

Élément de réponse	Description
`predictions`	Liste de chaînes de texte représentant les légendes, triées par confiance.

Exemple de réponse

{
  "predictions": [
    "text1",
    "text2"
  ]
}

Légendes d'images Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Cas d'utilisation

Requête HTTP

Corps de la requête

Exemple de requête

REST

curl

PowerShell

Corps de la réponse

Exemple de réponse

Légendes d'images