コンテンツに移動
データ分析

新たなバベルの塔?BigQuery での多言語エンベディングとベクトル検索の活用

2024年7月5日
Layolin Jesudhass

Generative AI Solutions Architect, Google

Ginny Gao

Customer Engineer - Data & Analytics, Google

Gemini 1.5 モデル をお試しください。

Vertex AI からアクセスできる、Google のもっとも先進的なマルチモーダル モデルです。

試す

※この投稿は米国時間 2024 年 6 月 27 日に、Google Cloud blog に投稿されたものの抄訳です。

グローバル化が進んだ現代の市場では、さまざまな言語で書かれた商品レビューの中から任意の言語のレビューを見つけ、その内容を把握することが消費者にとって困難になっています。BigQuery は、クチコミなどの大規模なデータセットの管理や分析に利用することを目的に設計されています。このブログ投稿では、消費者が希望する言語を使って商品やビジネスに関するレビューを検索し、検索結果を取得するために、BigQuery 多言語エンベディングベクトル インデックスベクトル検索を利用したソリューションを紹介します。これらの技術は、テキストデータを数値ベクトルに変換することで、既存のキーワード検索を越える高度な検索機能を構築し、検索結果の精度と関連性の向上を実現させています。

このソリューションでは、取得した結果をユーザーにとってわかりやすい形にまとめ、さらなる絞り込みを実現するため、Translation API が利用されています。この API BigQuery 内にシームレスに統合され、さまざまな言語で書かれたクチコミをユーザーが選択した言語に翻訳します。企業は多様な言語で書かれたクチコミを簡単に分析し、そこからインサイトを取得できるようになります。また、ユーザーは、任意の言語を使ってクチコミにアクセスし、その内容を把握することが可能になります。

このソリューションを視覚的に表現したものが、以下のアーキテクチャ図になります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Image1_rkwgkbY.max-900x900.png

BigQuery、多言語エンベディング、ベクトル検索、Translation API を利用して多言語レビューからインサイトを取得するソリューション

このソリューションの活用例を紹介するため、2021 9 月までに Google に投稿されたテキサス州のお店やサービスに関するクチコミのデータ(評価や投稿文など)と店舗のメタデータ(住所や業種など)を抽出しました。このデータセットには、さまざまな言語で書かれたクチコミが含まれています。このソリューションは、自分の母語でクチコミを読みたい消費者が母語で質問を入力し、関連性の高いクチコミをその言語で取得することを可能にします。もともとは別の言語で書かれたクチコミであっても取得が可能です。

たとえば、テキサス州にあるパン屋を検索するために、「ヒューストン市で本格的なエッグタルトと広東風のパンが買える店はどこ?」という質問を投稿します。どちらもアジアの代表的なお菓子であり、アジアではさまざまな場所で購入できる一方、ヒューストンでは扱っている店が多くないため、大量のビジネス プロフィールの中から関連するクチコミを特定することは困難です。Google のソリューションを使えば、クチコミがもともと英語や日本語などの言語で書かれていた場合でも、ユーザーは中国語で質問を入力し、中国語で最も関連性の高い検索結果を取得できます。このソリューションは、クチコミがどの言語で書かれたかにかかわらず、最も関連性の高いデータを集約し、クチコミをユーザーが指定した言語に翻訳します。これにより、異なる言語を話すユーザーが投稿したクチコミから貴重なインサイトを抽出できる可能性が大幅に向上します。

翻訳前:

https://storage.googleapis.com/gweb-cloudblog-publish/images/Image2_u7wUJTy.max-1300x1300.png

BigQuery での翻訳後: 以下のデモ(GIF ファイルで表示)は、次の 3 つの言語で検索機能を利用した例を示しています。

  • 中国語

  • 英語

  • スペイン語

このソリューションで使用されている BigQuery の組み込み関数は以下のとおりです。

読み込んでいます...

ソリューションのデモ:

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/Image3.gif

クチコミのデータセット内での多言語検索: BigQuery を利用して任意の言語で質問と結果の取得を行った例

消費者は、言語の壁に遮られることなく任意の言語でクチコミを検索し、読むことができます。また、このソリューションを Gemini と組み合わせて利用することで、検索されたクチコミの要約や分類を行うことも可能になります。検索機能を追加するだけで、このソリューションを任意の商品、店舗のクチコミ、多言語データセットに適用し、ユーザーが質問に対する回答を任意の言語で取得できるようにすることが可能です。ぜひ BigQuery を他の価値の高いデータおよび AI ツールの開発にもお役立てください。

参照:

-Google、生成 AI ソリューション アーキテクト、Layolin Jesudhass

-Google、データ分析担当カスタマー エンジニア、Ginny Gao

投稿先