新しい Vertex AI テキスト エンベディング モデルのご紹介
Google Cloud Japan Team
※この投稿は米国時間 2024 年 4 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。
エンベディング(テキスト、音声、画像、動画などの実世界のデータの数値表現)は、生成 AI を強化する基盤モデルがデータ内の関係を理解する方法です。これらは固定次元のベクトルとして表現され、ベクトル空間内の 2 つのベクトルの幾何学的な距離は、ベクトルが表す 2 つの現実世界のオブジェクト間の関係を投影したものです。
テキスト エンベディング モデルは、ドキュメント検索や類似性測定から分類とクラスタリングまで、多くの多様な自然言語処理(NLP)アプリケーションに不可欠です。Google のテキスト エンベディング モデルは、BigQuery、Cloud Database、Vertex AI Search、Workspace など、Google Cloud 全体にわたるアプリケーションを強化します。
本日開催される Google Cloud Next '24 では、さまざまなタスクでパフォーマンスが向上した 2 つの新しい Vertex AI テキスト エンベディング モデルを公開プレビュー版として紹介します。
-
英語のみ: text-embedding-preview-0409
-
多言語対応: text-multilingual-embedding-preview-0409
パフォーマンスが強化された新しいテキスト エンベディング モデル
Google は新しいモデルを評価し、Google 調査「Gecko: 大規模言語モデルから抽出した汎用テキスト エンベディング」で指標とより技術的な詳細を公開しました。
以前のバージョンと比較して、新しい英語版のエンベディング モデルでは、MTEB ベンチマーク(8 つのタスクカテゴリをカバーする、英語タスクに一般的に使用されるベンチマーク)で平均スコアが 66.31% に向上しました。Google の調査では、これは、エンベディングのサイズ 768 の既存の MTEB エントリすべてを上回り、多くの場合、最大 7 倍のサイズまたは 5 倍高い次元のモデルを上回りました。これらすべてが、検索、再ランキング、クラスタリング、分類、意味的類似性などのダウンストリーム タスクにおける新しいモデルのテキストのパフォーマンスを証明しています。
Google の新しい i18n(多言語のエンベディング モデル)では、MIRACL ベンチマーク(18 の異なる言語をカバーする、一般的に使用される多言語取得ベンチマーク)の平均スコアが 56.2% に向上しました。
テキスト エンベディング モデルの料金は、オンライン リクエストの場合は 1,000 文字あたり $0.000025、バッチ リクエストの場合は 1,000 文字あたり $0.00002 です。詳細については、https://cloud.google.com/vertex-ai/generative-ai/pricing をご覧ください。新しいモデルのオンライン予測のサポートはすでに提供されており、これらのモデルのバッチ予測のサポートは近日提供予定です。
動的なエンベディング次元
新しいテキスト エンベディング モデルでは、動的なエンベディング サイズも用意されています1。ユーザーはより小さいエンベディング次元を出力する方法を選択して、パフォーマンスの損失を最小限に抑えながらコンピューティングとストレージの費用を削減することもできます。パフォーマンスのトレードオフについては、以下の表をご覧ください。
他のサービス
また、安定バージョンのモデル向けにテキスト エンベディングのカスタマイズも提供しています。上記 2 つの新しいモデル向けのカスタマイズのサポートは近日提供予定です。
Google ではパラメータ効率の高いチューニング方法を使用してカスタマイズを行っています。この方法では、一般公開されている検索ベンチマーク データセットで実施したテストで、品質が最大 41%(平均 12%)向上しています。
次のステップ
Google の公開ドキュメントと colab に沿って最新モデルを試し、フィードバックをお寄せください。
-Cloud AI および業種別ソリューション担当ソフトウェア エンジニア Xiaoqi Ren
-Google DeepMind、リサーチ サイエンティスト Jinhyuk Lee
1. 動的エンベディング サイズのトレーニングには、マトリョーシカ表現学習を使用します。