Accéder au contenu
Analyse de données

La nouvelle tour de Babel ? Exemple d’utilisation des embeddings multilingues et de la recherche vectorielle dans BigQuery

10 février 2025
Ginny Gao

Customer Engineer - Data & Analytics, Google

Layolin Jesudhass

Customer Engineer - Data & Analytics, Google

Dans un marché aujourd’hui mondialisé, trouver et comprendre des avis exprimés dans la multitude des langues humaines constitue un véritable défi pour n’importe quelle entreprise. BigQuery est conçu pour gérer et analyser de grands ensembles de données, y compris bien sûr des avis d’internautes dans toutes les langues.

Dans cet article, nous présentons une solution qui utilise les « embeddings multilingues », l'indexation vectorielle et la recherche vectorielle de BigQuery, pour permettre aux clients de rechercher des avis sur des produits ou des entreprises dans leur langue préférée et de recevoir des résultats dans cette même langue. Combinées, ces technologies convertissent les données textuelles en vecteurs numériques, débloquant ainsi des capacités de recherche avancées qui s’affranchissent des barrières linguistiques et dépassent la traditionnelle correspondance par mots-clés, tout en améliorant la précision et la pertinence des résultats de recherche.

Pour améliorer l’accessibilité des résultats de recherche et introduire un niveau supplémentaire de raffinement, notre solution va également s’appuyer sur l'API de Traduction de Google. Intégrée de manière transparente dans BigQuery, elle va nous permettre de traduire les avis exprimés dans diverses langues vers la langue de l'utilisateur.

Comme le démontre l’exemple ci-dessous, en combinant les capacités vectorielles et l’API de traduction au cœur de BigQuery, les entreprises peuvent non seulement facilement analyser des avis rédigés dans différentes langues mais également permettre à leurs clients d’accéder et comprendre les avis exprimés en les affichant automatiquement dans leur langue de prédilection.

Le diagramme d'architecture ci-dessous donne la représentation visuelle d’une telle solution.

https://storage.googleapis.com/gweb-cloudblog-publish/images/Image1_rkwgkbY.max-900x900.png

Pour illustrer notre propos par la pratique, nous avons extrait des données d'avis Google Local (incluant les notes, le texte, etc.) et des métadonnées d'entreprises (comme l'adresse, la catégorie, etc.) pour les entreprises du Texas jusqu'en septembre 2021. Cet ensemble de données comprend des avis rédigés dans diverses langues. Pour les clients qui préfèrent lire les avis dans leur propre langue, notre solution leur permet de poser des questions dans leur langue maternelle et de recevoir les avis les plus pertinents dans leur langue préférée, même si ces avis ont été initialement rédigés dans une langue différente.

Par exemple, pour explorer les boulangeries du Texas, nous avons posé la question "Où puis-je trouver d'authentiques tartelettes aux œufs et des brioches de style cantonais à Houston ?"
Ces deux produits de boulangerie sont très populaires en Asie, mais moins courants à Houston, ce qui rend difficile la localisation d'avis pertinents parmi des milliers de profils d'entreprises.
Notre solution permet ainsi aux touristes de poser leurs questions en chinois et d'obtenir les réponses les plus pertinentes dans cette langue, même si les avis ont été initialement écrits en anglais, japonais ou dans d'autres langues.
Quelle que soit la langue d'origine des commentaires, notre système rassemble les informations les plus utiles et les traduit dans celle de l'utilisateur. Cela améliore considérablement la capacité des internautes à tirer parti des avis rédigés par des personnes parlant différentes langues.

https://storage.googleapis.com/gweb-cloudblog-publish/images/Image2_u7wUJTy.max-1300x1300.png

Après traduction dans BigQuery :

Dans la démo présentée sous forme de GIF un peu plus bas, nous montrons notre fonctionnalité de recherche en trois langues : chinois, anglais, espagnol.

Les principales fonctions intégrées de BigQuery utilisées par notre solution sont listées ci-après sous forme de requêtes SQL :

lang-sql
Chargement en cours...

Démonstration de la solution

Chose promise, chose due… Voici ci-dessous un GIF présentant notre solution en fonctionnement :

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/Image3.gif

Dans cette application exemple, les clients peuvent rechercher et lire des avis dans leur langue de prédilection sans barrières linguistiques. Vous pourriez ensuite enrichir cette solution avec Gemini pour résumer ou classer les avis recherchés par exemple.

Vous pouvez également adapter cette solution pour implémenter dans vos propres applications une fonction de recherche multilingue sur des produits, commentaires et autres ensembles de données multilingues, afin de permettre à vos utilisateurs d'obtenir des réponses à leurs questions dans la langue de leur choix.

À votre tour d’imaginer comment aller plus loin et développer d'autres outils précieux de données et d'IA en explorant le potentiel de BigQuery et ses fonctionnalités avancées ! N’hésitez pas à nous en parler !

Références :

Publié dans