AI & 機械学習

Vertex AI のベクトル検索によって高パフォーマンスの生成 AI アプリを実現

2024年12月19日

Eran Lewis

Senior Product Manager

Join us at Google Cloud Next

April 9-11 in Las Vegas

※この投稿は米国時間 2024 年 12 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

皆様が日々使用しているアプリの中には、膨大な量のデータから瞬時に結果を返すものがあります。そうしたアプリは多くの場合、生成 AI にも使用されているベクトル検索のテクノロジーを活用しています。

非常に高速で、大規模なデータセットを処理し、トラフィックが急増したときにも費用対効果を維持できるアプリケーションを構築する必要があるデベロッパーにとって、ベクトル検索は極めて重要です。しかし、非常に高い柔軟性、スケーラビリティ、速度が要求される生成 AI アプリケーションの場合には特に、このテクノロジーの構築とデプロイは非常に困難な場合があります。以前のブログ投稿では、簡単なフィルタリング、自動スケーリング、シームレスな更新などの機能を使用して、プロダクションレディな AI アプリケーションを作成する方法をご紹介しました。

今回は、Vertex AI のベクトル検索によってこれらの課題を直接解決する方法をご説明します。ここで取り上げる実際のパフォーマンスベンチマークでは、非常に高いスケーラビリティと速度が実証されています。これらをすべて、費用対効果を維持しながら実現できます。

Vertex AI ベクトル検索の仕組み

たとえば、あなたが人気のオンラインショップの経営者だとしましょう。買い物客を満足させるには、たとえショッピングの繁忙期でも、検索エンジンが数百万もの商品の中から即座に関連性の高い結果を返す必要があります。ベクトル検索は、大規模なデータセットの中から類似のアイテムを見つけるための手法であり、テキストや画像などのデータを、エンベディングと呼ばれる数値表現に変換します。これらのエンベディングは、データのセマンティックな意味を捉えるため、検索結果の精度と関連性が高くなります。

たとえば、顧客が「ネイビーブルーのワイシャツ」を検索したとします。キーワード検索では、「ミッドナイトブルーのボタンダウンシャツ」とラベル付けされた商品が結果に表示されない可能性がありますが、この 2 つは本質的には同じものです。ベクトル検索では、エンベディングを使用して単語やコンセプトの関係を把握することで、キーワード検索よりも適切な商品を表示できます。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/1._infinite_nature_demo.gif

e コマース、メディア、その他の消費者向けウェブサービスには、円滑かつ明快で、応答性の高いセマンティック検索機能が欠かせません。それを実現できる唯一の方法が、高パフォーマンスのベクトル検索です。Infinite Nature のデモでは、私たちが将来どのように情報を操作するかを垣間見ることができます。詳細については、こちらのブログ投稿をご覧ください。

ベクトル検索は、前述の e コマースの例や、生成 AI エージェント向けの検索拡張生成（RAG）システムなど、幅広い用途で使用できます。生成 AI エージェントは、データやレコメンデーションシステムを回答の根拠とし、ユーザーの好みに基づいてパーソナライズされた提案を返します。

Bloomreach の最高技術責任者を務める As Xun Wang 氏は先日、次のように述べました。「Bloomreach は OpenAI を Google Vertex AI Embeddings および Vertex AI ベクトル検索に置き換えるという戦略的な意思決定を行いました。Google のプラットフォームは、パフォーマンス、スケーラビリティ、信頼性、コストの最適化において明らかに優れています。この転換により、多大なメリットが得られると確信しており、この新しいパートナーシップに踏み出すことを大変嬉しく思います。」

Vertex AI のベクトル検索がもたらす実際のメリット

Google のお客様は、ベクトル検索を活用して素晴らしい成果を挙げています。このテクノロジーを使用して高パフォーマンスの生成 AI アプリを構築するうえで、特に注目すべき 4 つの利点を以下にご紹介します。

#1: 応答性の高いアプリケーションを実現する最も高速なベクトル検索

顧客の期待に応えるには、検索、レコメンデーションシステム、生成 AI アプリケーションのすべてで応答時間の短さが求められます。これまでの調査では一貫して、応答時間の短さが収益、コンバージョン率、顧客維持率に直結することが明らかになっています。

ベクトル検索は、高品質で超低レイテンシを実現しながら、費用対効果を維持するよう開発されています。Google が実施したテストでは、ベクトル検索はベクトル数 10 億のデータセットに対して、超低レイテンシ（P95 で 9.6 ミリ秒）と高再現率（0.99）を維持しながら、秒間クエリ数（QPS）を最大 5,000 までスケールアップできました。Vertex AI ベクトル検索では、このレベルの低レイテンシを実現することで、データセットの大きさやシステムに到達する並列リクエストの数を問わず、ユーザーが関連性の高い回答を迅速に受け取ることができるようにします。

eBay の Yuri M. Brovman 氏が最近のブログ投稿に記しているように、「（eBay のベクトル検索では、）Google Cloud ダッシュボードでベクトル検索をサーバーサイドで測定したところ、95% で 4 ミリ秒未満のリアルタイム読み取りレイテンシを達成できました」。

#2: あらゆるアプリケーション サイズに対応する高度なスケーラビリティ

プロダクションレディなアプリケーションに関するもう一つの重要な考慮事項は、アプリケーションがデータサイズとユーザーベースの拡大に対応できるかどうかです。

つまり、需要の急増にも容易に対応可能で、あらゆるサイズのアプリケーションに対応する高度なスケーラビリティを備えていることが求められます。Vertex AI ベクトル検索は、数十億のエンベディングと数十万の秒間クエリ数をサポートするようにスケールアップしながら、超低レイテンシを維持できます。

#3: 最大 4 倍の費用対効果

Vertex AI ベクトル検索は、大規模でもパフォーマンスを維持できるだけでなく、特に高パフォーマンスのアプリケーションの場合、競合ソリューションと比べて 4 倍も費用対効果が高くなります。Vertex AI ベクトル検索の ANN インデックスにより、必要とされる計算量が大幅に減少するため、大規模でも関連性の高い結果が迅速に返されます。

データセット	QPS	再現率	レイテンシ（P95）
Glove 1M / 100 dim	44,876	0.96	3 ミリ秒
OpenAI 5M / 1,536 dim	2,981	0.96	9 ミリ秒
Cohere 10M / 768 dim	3,144	0.96	7 ミリ秒
LAION 100M / 768 dim	2,997	0.96	9 ミリ秒
BigANN 10M / 128 dim	33,921	0.97	3.5 ミリ秒
BigANN 100M / 128 dim	9,871	0.97	7.2 ミリ秒
BigANN 1B / 128 dim	4,967	0.99	9.6 ミリ秒

Vertex AI ベクトル検索の一般公開データセットの実際のベンチマークです。N2D マシンのレプリカ 2 つを使用しました。レイテンシの測定は提供された QPS で行いました。レプリカの数を増やすことで、このスループット以上にベクトル検索をスケールアップできます。

#4: あらゆるタイプのアプリケーションで高度に構成可能

一部のシナリオでは、デベロッパーがレイテンシと高再現率（またはその反対）のトレードオフを希望する可能性もあります。たとえば、e コマースウェブサイトではおすすめ商品を素早く提案するために速度を優先する一方で、研究用データベースでは多少時間がかかっても結果の完全性を優先することが考えられます。ベクトル検索では、これらのパラメータをチューニングすることで、ビジネスニーズに応じて、再現率の向上またはレイテンシの短縮を実現できます。

さらに、ベクトル検索では自動スケーリングをサポートしており、デプロイの負荷が増加した場合は、スケーリングによってパフォーマンスを維持します。自動スケーリングを測定したところ、QPS が 1,000 から 5,000 に増加する際に、ベクトル検索は高再現率と一定のレイテンシを維持できることが確認されました。

デベロッパーはまた、レプリカの数を増やしてスループットを向上させることも、別のマシンタイプを選択して費用とパフォーマンスのバランスを取ることもできます。こうした柔軟性から、ベクトル検索はセマンティック検索だけでなく、レコメンデーション システム、chatbot、マルチモーダル検索、異常検出、画像の類似性マッチングなど、幅広い用途に適しています。

ハイブリッド検索による、さらなるパフォーマンス向上

密エンベディングベースのセマンティック検索は、意味やコンテキストを把握することは非常に得意ですが、エンベディングモデルが理解できないアイテムは見つけられないという弱点があります。商品番号、企業の内部コードネーム、新たに作り出された用語などのアイテムは、エンベディングモデルがそれらの意味を理解できないため、セマンティック検索では見つけられません。

Vertex AI ベクトル検索のハイブリッド検索を活用すれば、このようなタイプの高度な検索エンジンの構築も難しくありません。デベロッパーは、密エンベディングと疎エンベディングの両方を組み込んだ単一のインデックスを簡単に作成し、前者でセマンティックな意味、後者でキーワードの関連性を表現できます。この合理化された手法により、特定のビジネスニーズに合わせて完全にカスタマイズされた、高パフォーマンスの検索アプリケーションを迅速に開発してデプロイできます。

Mercado Libre のシニアエンジニアリングマネージャーを務める Nicolas Presta 氏は、次のように述べています。「当社の売り上げのほとんどは検索がきっかけです。このため、ユーザーのクエリに最も適合する結果を返すことが重要です。ベクトル検索から取得されたアイテムを追加することで、複雑な検索は改善されており、最終的にはこれがコンバージョン率の向上につながります。ハイブリッド検索によって検索エンジンをさらにレベルアップできれば、最適なカスタマーエクスペリエンスを提供しながら、収益を拡大できるでしょう。」– Mercado Libre、シニアエンジニアリングマネージャー、Nicolas Presta 氏

-シニア製品マネージャー Eran Lewis

投稿先

Containers & Kubernetes

MultiKueue の活用により GKE クラスタであらゆるロケーションの GPU が利用可能

執筆者: Jean-Baptiste Leroy • 所要時間: 9 分

https://storage.googleapis.com/gweb-cloudblog-publish/images/echo.max-700x700.jpg

AI & Machine Learning

Google Cloud での画像生成パイプライン最適化: 実践ガイド

執筆者: Gopala Dhar • 所要時間: 4 分

https://storage.googleapis.com/gweb-cloudblog-publish/images/claude_3_7_sonnet.max-700x700.jpg

AI & Machine Learning

Anthropic の市場初のハイブリッド推論モデルである Claude 3.7 Sonnet が Vertex AI で利用可能に

執筆者: Nenshad Bardoliwalla • 所要時間: 6 分

Compute

NVIDIA GB200 搭載 A4X VM のご紹介 — プレビュー版公開

執筆者: George Elissaios • 所要時間: 5 分