Embeddings API の概要

エンベディングは、テキスト、画像、動画の数値表現であり、入力間の関係をとらえます。ML モデル(特に生成 AI モデル)は、大規模なデータセット内のパターンを識別してエンベディングを作成することに適しています。アプリケーションでは、言語を処理および生成するためにエンベディングを使用して、コンテンツに固有の複雑な意味とセマンティックな関係を認識できます。エンベディングは、Google 検索が終わるたび、あるいは音楽ストリーミングのおすすめが表示されるたびに利用されます。

エンベディングは、テキスト、画像、動画をベクトルと呼ばれる浮動小数点数の配列に変換することで機能します。こうしたベクトルは、テキスト、画像、動画の意味を捉えるように設計されています。エンベディング配列の長さは、ベクトルの次元数と呼ばれます。たとえば、テキストの一節は、数百の次元を含むベクトルで表せます。次に、2 つのテキストのベクトル表現間の数値的な距離を計算することで、アプリケーションでオブジェクト間の類似性を判断できます。

Vertex AI は、テキストとマルチモーダルの 2 種類のエンベディング モデルをサポートしています。

テキスト エンベディングのユースケース

テキスト エンベディングの一般的なユースケースは次のとおりです。

  • セマンティック検索: 意味的類似性によってランク付けされたテキストを検索します。
  • 分類: 指定されたテキストと類似するテキスト属性を持つアイテムのクラスを返します。
  • クラスタリング: 指定したテキストと類似したテキスト属性を持つアイテムをクラスタ化します。
  • 外れ値検出: テキスト属性が指定されたテキストとの関連性が最も低いアイテムを返します。
  • 会話インターフェース: 会話レベルのエンベディング空間など、類似のレスポンスにつながる可能性のある文グループをクラスタ化します。

ユースケースの例: 本をおすすめする chatbot を開発する

本をおすすめする chatbot を開発する場合は、まず、ディープ ニューラル ネットワーク(DNN)を使用して、それぞれの本をエンベディング ベクトルに変換します。1 つのエンベディング ベクトルが 1 冊の本を表します。DNN への入力として本のタイトルだけか、テキストの内容だけを与えることができます。また、この両方とジャンルなど書籍を説明する他のメタデータを併用することもできます。

この例のエンベディングは、何千もの書籍タイトル、その要約とジャンルから構成されています。たとえば、「Wuthering Heights by Emily Brontë」と「Persuasion by Jane Austen」のような書籍の表現は類似した(数値的な表現の距離が近い)表現になりますが、「The Great Gatsby by F. Scott Fitzgerald」という書籍の数値的な表現は、時代やジャンル、要約が似ていないため、距離が遠くなります。

入力は、エンベディング空間の向きに影響を与えます。たとえば、入力が書籍のタイトルのみの場合、タイトルは似ていても要約が大きく異なる 2 つの書籍が近い状態になる可能性があります。ただし、入力にタイトルと要約を含めると、これらの書籍はエンベディング空間では類似性が低くなります。

この chatbot は生成 AI と連携して、クエリに基づいて書籍の要約を生成し、ユーザーが関心を持ちそうな(または好みでないような)書籍を提案します。

マルチモーダル エンベディングのユースケース

マルチモーダル エンベディングの一般的なユースケースは次のとおりです。

  • 画像とテキストのユースケース:

    • 画像分類: 画像を入力として受け取り、1 つ以上のクラス(ラベル)を予測します。
    • 画像検索: 関連する画像や類似の画像を検索できます。
    • レコメンデーション: 画像に基づいておすすめの製品や広告を生成します。
  • 画像、テキスト、動画のユースケース:

    • レコメンデーション: 動画に基づいて商品または広告のレコメンデーションを生成します(類似性検索)。
    • 動画コンテンツ検索
    • セマンティック検索の使用: テキストを入力として受け取り、クエリに一致するランク付けされたフレームのセットを返します。
    • 類似性検索の使用:
      • 動画を入力として受け取り、クエリに一致する動画のセットを返します。
      • 画像を入力として受け取り、クエリに一致する動画のセットを返します。
    • 動画分類: 動画を入力として受け取り、1 つ以上のクラスを予測します。

ユースケースの例: オンライン小売店のエクスペリエンス

オンライン小売業者は、マルチモーダル エンベディングを活用してカスタマー エクスペリエンスを向上させています。ショッピング中にパーソナライズされたおすすめ商品が表示されたり、テキスト検索から視覚的な結果を取得したりするたびに、エンベディングを操作しています。

オンライン小売業者のユースケースでマルチモーダル エンベディングを作成する場合は、まず各商品画像を処理して、一意の画像エンベディングを生成します。これは、視覚スタイル、カラーパレット、重要な詳細情報などの数学的表現です。同時に、商品説明、購入者レビュー、その他の関連するテキストデータを、意味とコンテキストを捉えるテキスト エンベディングに変換します。これらの画像とテキストのエンベディングを統合検索とレコメンデーション エンジンに統合することで、店舗は、ユーザーの閲覧履歴と設定に基づいて、視覚的に類似した品目をパーソナライズしたおすすめ商品として提示できます。またユーザーは、自然言語による説明を使用して商品を検索することもできます。検索クエリに一致する視覚的に最も類似した品目をエンジンが検索して表示します。たとえば、ユーザーが「黒の夏用ワンピース」と検索した場合、検索エンジンは黒いワンピース、夏用のワンピース、軽い素材で作られたワンピース、ノースリーブのワンピースなどを表示できます。このように、視覚的な理解とテキストへの理解をわかりやすく組み合わせることで、ショッピング エクスペリエンスが合理化され、顧客エンゲージメントと満足度が向上し、最終的には売上を促進できます。

次のステップ