ベクトル検索

MySQL | PostgreSQL | SQL Server

ベクトル検索の一般提供版を使用するには、インスタンスのメンテナンスバージョンがバージョン MYSQL_8_0_version.R20241208.01_00 以降である必要があります。ここで、バージョンはマイナーバージョン番号です。一般提供のベクトルエンベディングをサポートする新しいバージョンにインスタンスをアップグレードする方法については、セルフサービスメンテナンスをご覧ください。

この機能のパブリックプレビュー版のベクトルエンベディングの構文と動作については、ベクトルエンベディングを使用する（プレビュー）をご覧ください。

このページでは、Cloud SQL for MySQL インスタンスでベクトル検索を実装する方法について説明します。Cloud SQL では、保存されている他のデータと組み合わせて、ベクトルエンベディングの保存、ベクトルインデックスの作成、ベクトル検索を行えます。

ベクトルエンベディングの保存

ベクトルエンベディングは、アトミック性、整合性、独立性、永続性（ACID）の特性に準拠したテーブルに保存します。テーブル内の他のリレーショナルデータと同様に、既存のトランザクション保証に基づいてテーブル内のベクトルエンベディングにアクセスできます。

テーブルの行とベクトル表現とのマッピングを確立するには、ベクトルエンベディングを保存する列をテーブルに作成する必要があります。列には Cloud SQL VECTOR データ型を使用し、エンベディングに必要なディメンションの数を指定する必要があります。ベクトルエンベディング列には、列を定義するときに指定したディメンションとまったく同じディメンションを使用するベクトルエンベディングのみを保存できます。

テーブルに設定できるベクトルエンベディング列は 1 つのみです。テーブル内の行数に制限はありません。

ベクトルエンベディング列を他の列と区別するために、Cloud SQL は特別な COMMENT と CONSTRAINT を列に追加します。入力検証には制約が必要であり、ベクトルエンベディング列のアノテーションは COMMENT として表示されます。コメントや制約を変更または削除することはできません。

Cloud SQL インスタンスで十分なストレージとメモリを使用できる場合は、独自のベクトルエンベディング列を持つ複数のテーブルを作成できます。

データレプリケーションは、他の MySQL InnoDB 列の場合と同じように、ベクトルエンベディング列でも機能します。

ベクトルエンベディングテーブル、列、DML ステートメントの制限事項については、制限事項をご覧ください。

ベクトルインデックス

ベクトルエンベディングに対して ANN 類似性検索を実行するには、ベクトルインデックスを使用する必要があります。Cloud SQL では、スケーラブルな最近傍探索（ScANN）アルゴリズムを使用してベクトルインデックスが作成されます。

ベクトルインデックスには次の要件があります。

1 つのテーブルに作成できるベクトルインデックスは 1 つのみです。
インスタンスにベクトルエンベディングを含むテーブルが複数ある場合は、各テーブルにベクトルインデックスを作成できます。
ベクトルインデックスを作成する場合は、インデックス付きテーブルの主キーに制約を追加できません。

検索品質を高めるには、ベーステーブルにデータの大部分を読み込んだ後にベクトルインデックスを作成します。ベーステーブルに存在するエンベディングが 1,000 個未満の場合、インデックスの作成は失敗します。

ベクトルインデックスを作成するかどうかを判断する際、行数が少ない場合は、代わりに KNN 検索を実行できるかどうかを検討してください。KNN と ANN の検索のどちらを使用するかは、ベクトルエンベディングの次元数によっても異なります。エンベディングの数が多い場合は、ベクトルインデックスが必要になることがあります。

ベクトルインデックスの制限事項については、制限事項をご覧ください。ベクトルインデックスの作成については、ベクトルインデックスの作成と管理をご覧ください。

ベクトルインデックスの更新

Cloud SQL により、ベクトルインデックスはリアルタイムで更新されます。ベーステーブルに対してデータ操作言語（DML）オペレーションを実行するトランザクションは、関連するベクトル検索インデックスにも変更を反映します。ベクトルインデックスは、テーブルの他のセカンダリインデックスと同じように動作します。ベクトルインデックスはトランザクションの整合性が完全に保たれており、ACID に準拠しています。トランザクションをロールバックすると、ベクトル検索インデックスでも対応するロールバック変更が行われます。

ベクトルインデックスのレプリケーション

Cloud SQL では、カスケードレプリケーション用など、すべてのリードレプリカにベクトルインデックスを複製できます。ベクトルエンベディングがあるプライマリインスタンスから新しいリードレプリカを作成すると、リードレプリカはプライマリインスタンスからベクトルエンベディングの設定を継承します。既存のリードレプリカの場合は、各リードレプリカでベクトルエンベディングのサポートを有効にする必要があります。

ベクトルインデックスを作成、維持する場合、レプリケーションラグへの影響は通常の MySQL インデックスと同様です。

永続性、シャットダウン、メンテナンスへの影響

ベクトルインデックスは、ベーステーブルと同じ方法で永続化され、完全な ACID がサポートされています。ベクトルインデックスはベーステーブルのデータと常に同期されており、ベーステーブルと同じ可視性、独立性、クラッシュに対する安全性を備えています。インスタンスがシャットダウンされた、またはメンテナンスを実施された場合に、ベクトルインデックスに影響しません。

インデックスのメンテナンス

ベーステーブルに対して大規模な DML オペレーションが実行された後であっても、（インデックスの作成時に）初期データでトレーニングしたベクトルインデックスに新しい状態が反映されていない可能性があります。これにより、検索品質が影響を受ける可能性があります。

2 段階の構成が必要です。

インデックスツリー。これは、既存のデータでトレーニングすることで構築されます。インデックスの存続期間中は変更されません。
インデックスリーフ。ここにデータのすべての行が含まれます。インデックスリーフは同期が解除されることはありません。

行がリーフから別のリーフに移動するため、大量の DML ステートメントを実行すると、インデックスツリーの効率が低下する可能性があります。インデックスツリーを更新するには、インデックスを再構築する必要があります。

ベクトルインデックスを含むテーブルでサポートされていない DDL オペレーション

コピーアルゴリズムを必要とするテーブルオペレーションの変更。
テーブルの再作成が必要なテーブルオペレーションの変更。
主キーに削除または変更。
一般的なテーブルスペースへのテーブルの移動。

ベクトル検索

Cloud SQL には、インスタンスで近似最近傍探索（ANN）と K 最近傍探索（KNN）のベクトル類似性検索を行うために使用するベクトル距離関数があります。クエリを実行すると、クエリベクトルがデータセット内のベクトルと比較されます。距離関数は、コサインなどの類似度指標を使用してベクトル間の距離を計算します。距離が最も近いベクトルが最も類似しており、検索結果に返されます。

Cloud SQL では、ANN ベクトル検索と KNN ベクトル検索を実行するときに、ベクトル検索でベクトル間の距離を測定するために次の関数が使用されます。

コサイン: 2 つのベクトル間の角度のコサインを測定します。値が小さいほど、ベクトル間の類似度が高くなります。
ドット積: 角度のコサインに、対応するベクトルの大きさを掛けます。
L2 二乗距離: 各ディメンションの二乗距離を加算して、2 つのベクトル間のユークリッド距離を測定します。

KNN 検索

正確な結果が必要な場合や、選択的なフィルタを追加する場合は、KNN ベクトル検索が推奨されます。KNN 検索では、データセット内のすべてのエンベディングとクエリベクトルの距離計算を実行して、最近傍を検索します。Cloud SQL の KNN 検索では、高い再現率が得られます。KNN 検索ではベクトルインデックスを使用しないため、小規模なデータセットを扱う場合に適しています。

KNN 検索を実行するには、vector_distance 関数を使用します。この関数は、クエリベクトル（検索対象）とデータセットの候補ベクトルの 2 つのベクトルを入力として受け取ります。この 2 つのベクトルの距離を計算します。vector_distance は SELECT ステートメントで使用します。詳細については、K 最近傍（KNN）を検索するをご覧ください。

KNN のパフォーマンスが低い場合は、後でベクトルインデックスを構築し、アプリケーションで ANN 検索に approx_distance を引き続き使用できます。

ANN 検索

クエリの効率性に懸念がある場合は、ANN ベクトル検索が推奨されます。クエリベクトルとデータセット内のベクトルの一部の距離のみを計算することで、類似性検索を高速化します。これを行うためには、Cloud SQL にてデータをクラスタまたはパーティションに編成し、クエリに最も近いクラスタに検索を絞り込みます。ANN 検索にはベクトルインデックスが必要です。これらのインデックスでは、完全な再現率よりも検索速度が優先されます。Cloud SQL では、ANN 検索に TREE_SQ インデックスタイプが使用されます。

ANN 検索を実行するには、距離測定オプションを指定して approx_distance 関数を使用します。approx_distance は ORDER BY リストまたは SELECT リストで使用し、LIMIT 句を使用して検索結果を制限できます。WHERE 句を追加して、検索結果のフィルタリングを後処理することもできます。詳細については、近似最近傍（ANN）を検索するをご覧ください。

ANN 検索が KNN 検索にフォールバックする場合があります。詳細については、ANN 検索のフォールバックステータスを確認するをご覧ください。

要件

Cloud SQL では、ベクトルエンベディングを追加する前に、cloudsql_vector フラグを使用してインスタンスでベクトルエンベディングを有効にする必要があります。詳細については、インスタンスでベクトルエンベディングを有効または無効にするをご覧ください。

制限事項

ベクトルエンベディング列を含むテーブルには次の制限があります。

1 つのテーブルには、ベクトルエンベディング列を 1 つのみ指定できます。
1 つのテーブルには、ベクトル検索インデックスを 1 つのみ作成できます。
ベクトルエンベディングは 16,000 個のディメンションに制限されています。
ベクトルエンベディング列は、生成列にすることはできません。
ベクトルエンベディング列を含むテーブルのテーブルレベルのパーティショニングはサポートされていません。
BIT、BINARY、VARBINARY、JSON、BLOB、TEXT のデータ型または空間データを使用する主キーは、ベクトルインデックスではサポートされていません。複合主キーには、これらの型を含めることはできません。
ベクトルインデックスがある場合、ベーステーブルの主キーに制約を追加することはできません。
テーブルにベクトルインデックスが存在する場合、実行できない DDL オペレーションがいくつかあります。詳細については、ベクトルインデックスを含むテーブルに対するサポートされていない DDL オペレーションをご覧ください。

ベクトル検索クエリには次の制限があります。

approx_distance 関数は、ORDER BY リストまたは SELECT リストでのみ使用できます。
ベーステーブルを含む述語は、ORDER BY リストまたは SELECT リストの approx_distance 式と組み合わせて WHERE 条件で使用できます。WHERE 条件述語は、approx_distance ベクトル関数が評価された後に評価されます。

ベクトルインデックスの使用に関するベストプラクティス

このセクションでは、ベクトル検索インデックスの操作に関するベストプラクティスについて説明します。ワークロードはそれぞれ異なるため、必要に応じて調整する必要があります。

大規模な DML オペレーションの後には、インデックスを再構築することをおすすめします。
一般に、使用するリーフの数を Cloud SQL で計算しても問題ありません。リーフ数を指定するユースケースがある場合は、高い再現率を得るために、リーフごとに少なくとも 100 個のベクトルを用意することをおすすめします。

ベクトル検索 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ベクトル エンベディングの保存

ベクトル インデックス

ベクトル インデックスの更新

ベクトル インデックスのレプリケーション

永続性、シャットダウン、メンテナンスへの影響

インデックスのメンテナンス

ベクトル インデックスを含むテーブルでサポートされていない DDL オペレーション

ベクトル検索

KNN 検索

ANN 検索

要件

制限事項

ベクトル インデックスの使用に関するベスト プラクティス

次のステップ

ベクトル検索

ベクトルエンベディングの保存

ベクトルインデックス

ベクトルインデックスの更新

ベクトルインデックスのレプリケーション

ベクトルインデックスを含むテーブルでサポートされていない DDL オペレーション

ベクトルインデックスの使用に関するベストプラクティス