Présentation des API Embeddings

Les représentations vectorielles continues sont des représentations numériques de texte, d'images ou de vidéos qui capturent les relations entre les entrées. Les modèles de machine learning, en particulier les modèles d'IA générative, permettent de créer ces embeddings en identifiant des modèles dans des ensembles de données textuels volumineux. Les applications peuvent utiliser des embeddings pour traiter et produire du langage, en reconnaissant des significations complexes et des relations sémantiques spécifiques à votre contenu. Vous interagissez avec les embeddings chaque fois que vous effectuez une recherche Google ou consultez des recommandations de streaming de musique.

Les embeddings fonctionnent en convertissant le texte, les images et les vidéos en tableaux de nombres à virgule flottante, appelés vecteurs. Ces vecteurs sont conçus pour capturer la signification du texte, des images et des vidéos. La longueur du tableau d'embedding est appelée dimensionnalité du vecteur. Par exemple, un passage de texte peut être représenté par un vecteur contenant des centaines de dimensions. Ensuite, en calculant la distance numérique entre les représentations vectorielles de deux éléments de texte, une application peut déterminer la similarité entre les objets.

Vertex AI accepte deux types de modèles d'embeddings : textuels et multimodaux.

Cas d'utilisation des représentations vectorielles continues de texte

Voici quelques cas d'utilisation courants d'embeddings de texte :

  • Recherche sémantique : recherche du texte classé par similarité sémantique.
  • Classification : renvoie la classe des éléments dont les attributs de texte sont semblables au texte donné.
  • Clustering : met en cluster des éléments dont les attributs textuels sont semblables au texte donné.
  • Détection des anomalies : renvoie les éléments dont les attributs de texte sont moins liés au texte donné.
  • Interface de conversation : regroupe des groupes de phrases pouvant entraîner des réponses similaires, comme dans un espace d'embedding au niveau de la conversation.

Exemple de cas d'utilisation : développer un chatbot de recommandation de livres

Si vous souhaitez développer un chatbot de recommandation de livres, la première étape consiste à utiliser un réseau de neurones profond (DNN, Deep Neural Network) afin de convertir chaque livre en vecteur d'embedding, chaque vecteur d'embedding représentant un livre. Vous pouvez uniquement utiliser, comme entrée pour le DNN, le titre du livre ou le contenu textuel. Vous pouvez également utiliser les deux, ainsi que d'autres métadonnées décrivant le livre, telles que son genre.

Les représentations vectorielles continues de cet exemple peuvent être composées de milliers de titres de livre avec leur résumé et leur genre, et elles peuvent avoir des représentations de livres tels que Les hauts de Hurlevent d'Emily Brontë et Persuasion de Jane Austen qui s'avèrent très similaires (petite distance entre les représentations numériques). Alors que la représentation numérique du livre Gatsby le magnifique, de F. Scott Fitzgerald, serait plus éloignée, car la période, le genre et le résumé sont moins similaires.

Les entrées constituent la principale influence sur l'orientation de l'espace de représentation vectorielle. Par exemple, si nous n'avons que des entrées de titre de livre, deux livres ayant des titres similaires mais des résumés très différents peuvent être proches l'un de l'autre. Toutefois, si nous incluons le titre et le résumé, ces mêmes livres sont moins similaires (plus éloignés) dans l'espace d'embedding.

Grâce à l'IA générative, ce chatbot de suggestions de livres peut résumer, suggérer et afficher des livres susceptibles de vous intéresser (ou non) en fonction de votre requête.

Cas d'utilisation de représentations vectorielles continues multimodales

Voici quelques cas d'utilisation courants d'embeddings multimodaux :

  • Cas d'utilisation d'images et de texte :

    • Classification d'images : prend une image en entrée et prédit une ou plusieurs classes (étiquettes).
    • Recherche d'images : recherche des images pertinentes ou similaires.
    • Recommandations : génère des recommandations de produits ou d'annonces en fonction d'images.
  • Cas d'utilisation d'images, de texte et de vidéos :

    • Recommandations : générez des recommandations de produits ou de publicités à partir de vidéos (recherche de similarités).
    • Recherche de contenu vidéo
    • Utilisation de la recherche sémantique : part d'un texte en entrée et renvoie un ensemble d'images classées correspondant à la requête.
    • Utilisation de la recherche de similarités :
      • part d'une vidéo en entrée et renvoie un ensemble de vidéos correspondant à la requête.
      • Part d'une image en entrée et renvoie un ensemble de vidéos correspondant à la requête.
    • Classification de vidéos : part d'une vidéo en entrée et prédit une ou plusieurs classes.

Exemple de cas d'utilisation : expérience de vente en ligne

Les marchands en ligne exploitent de plus en plus les représentations vectorielles continues multimodales pour améliorer l'expérience client. Chaque fois que vous voyez des recommandations de produits personnalisées lors de vos achats et que vous obtenez des résultats visuels à partir d'une recherche textuelle, vous interagissez avec un embedding.

Si vous souhaitez créer une intégration multimodale pour un cas d'utilisation de vente en ligne, commencez par traiter chaque image de produit pour générer une intégration d'image unique, qui est une représentation mathématique de son style visuel, de sa palette de couleurs, de ses principaux détails, etc. Simultanément, convertissez des descriptions de produits, des avis de clients et d'autres données textuelles pertinentes en représentations vectorielles continues de texte qui capturent leur signification sémantique et leur contexte. En fusionnant ces représentations vectorielles continues d'images et de texte dans un moteur de recherche et de recommandations unifié, le magasin peut proposer des recommandations personnalisées d'éléments visuellement similaires en fonction de l'historique de navigation et des préférences du client. En outre, il permet aux clients de rechercher des produits à l'aide de descriptions en langage naturel, le moteur récupère et affiche les articles visuellement les plus similaires qui correspondent à leur requête de recherche. Par exemple, si un client recherche "Robe d'été noire", le moteur de recherche peut afficher des robes noires, des robes d'été, des robes en tissu léger et des robes sans manches. Cette combinaison puissante de compréhension visuelle et textuelle crée une expérience d'achat simplifiée qui améliore l'engagement et la satisfaction des clients, et peut finalement générer des ventes.

Étapes suivantes