Dataflow を使用して AlloyDB のリアルタイムベクトルエンベディングパイプラインを構築する

このドキュメントでは、Dataflow を使用して AlloyDB for PostgreSQL の抽出、変換、読み込み（ETL）パイプラインを作成する方法について説明します。 Google Cloud Dataflow は、データ処理パイプラインの開発と実行のためのフルマネージド Google Cloud サービスです。

使用可能なこのドキュメントの手順は、Apache Beam と AlloyDB を使用したベクトルエンベディングの取り込み Colab に基づいています。この Colab では、Python を使用して basic_ingestion_pipeline.py 取り込みパイプラインを作成しています。このドキュメントの情報が適用されるユースケースとしては、セマンティック検索や検索拡張生成（RAG）などがあります。

この手順では、次の Dataflow パイプラインコンポーネントについて説明します。

AlloyDB と Dataflow の接続を設定する
Apache Beam VertexAITextEmbeddings ハンドラと Vertex AI テキストエンベディングモデルを使用して AlloyDB for PostgreSQL でエンベディングを生成する
Dataflow でのストリーミングパイプラインの作成

始める前に

Colab を使用して Dataflow パイプラインを作成する前に、次の前提条件を満たしてください。

環境を構成して、Dataflow パイプラインを作成します。

AlloyDB for PostgreSQL とその他の必要な API を有効にします。

gcloud services enable alloydb.googleapis.com cloudresourcemanager.googleapis.com \
servicenetworking.googleapis.com

AlloyDB for PostgreSQL クラスタとプライマリインスタンスを作成します。
データベースに AlloyDB for PostgreSQL ベクトル拡張機能をインストールします。
Dataflow ユーザーアカウントに AlloyDB 管理者（roles/alloydb.admin）ロールを付与します。

AlloyDB for PostgreSQL インスタンスとパイプラインコンポーネントを設定する

まず、AlloyDB for PostgreSQL インスタンスに接続するようにパイプラインを構成します。この構成には、AlloyDB 言語コネクタを使用して接続するための Google Cloud プロジェクト ID、AlloyDB for PostgreSQL インスタンス URI、ユーザー、パスワードの定義が含まれます。接続の設定について詳しくは、データベースの設定をご覧ください。

検索拡張生成（RAG）固有の Apache Beam モジュールは、次のタスクのクラスを提供します。

AlloyDB for PostgreSQL からのデータの取り込み
エンベディングの生成
これらのベクトルエンベディングを AlloyDB for PostgreSQL に書き戻す

パイプラインロジックを構築する前に、必要なクラスをパイプラインコードにインポートします。パイプラインコンポーネントの詳細については、パイプラインコンポーネントのインポートをご覧ください。

サンプルデータを作成する

Apache Beam と AlloyDB を使用したベクトルエンベディングの取り込みの Colab には、パイプラインの実行に使用するためのサンプル products_data データが用意されています。パイプラインは、このサンプルデータをエンベディングモデルとともに入力として使用して、エンベディングを生成します。

詳細については、サンプルデータを作成するをご覧ください。

エンベディングを格納するテーブルを作成する

パイプラインは、生成されたエンベディングを default_dataflow_product_embeddings テーブルに保存します。テーブルスキーマの作成の詳細については、デフォルトのスキーマでテーブルを作成するをご覧ください。

省略可: エンベディングの取り込み用にデータを準備する

データセットに基づいて、エンベディングモデルがエンベディングに変換する必要があるメタデータとテキストにデータを分割できます。MLTransform() クラスと VectorDatabaseWriteTransform() クラスは、入力データをエンベディングモデルがサポートするサイズに処理します。メタデータを配置し、使用しているエンベディングモデルの仕様に従って入力データをフォーマットします。

データの準備の詳細については、プロダクトデータをチャンクにマッピングするをご覧ください。

エンベディングを生成するようにエンベディングハンドラを構成する

VertexAITextEmbeddings() クラスは、ベクトルエンベディングを作成するテキストエンベディングモデルを定義します。このエンベディングモデルは、チャンク化されたデータをエンベディングに変換します。

詳細については、エンベディングハンドラを構成するをご覧ください。

Huggingface SentenceTransformers フレームワークを使用して作成された事前トレーニング済みモデルを使用して、ベクトルエンベディングを生成することもできます。詳細については、HuggingFace を使用してエンベディングを生成するをご覧ください。

取り込みパイプラインを作成する

Apache Beam と AlloyDB を使用したベクトルエンベディングの取り込み Colab に用意されている basic_ingestion_pipeline.py パイプラインには、AlloyDB for PostgreSQL の設定、AlloyDB for PostgreSQL へのデータの読み込み、オプションのデータチャンク、エンベディングハンドラの構成など、先行するセクションの構成が組み込まれています。

取り込みパイプラインは次の処理を行います。

商品データテーブルを作成する
データをチャンクに変換する
エンベディングを生成する
変換されたエンベディングを AlloyDB for PostgreSQL の products_data テーブルに書き込む

このパイプラインは、直接ローカルランナーまたはクラウドベースのランナー（Dataflow など）を使用して実行できます。

取り込みパイプラインの作成の詳細については、パイプラインを Python ファイルに保存するをご覧ください。

Dataflow パイプラインを実行する

コマンドラインから Dataflow パイプラインを実行できます。プロジェクト ID、AlloyDB for PostgreSQL 接続の詳細、Cloud Storage バケットのロケーション、実行環境の詳細、ネットワーク情報、取り込みパイプラインの名前（basic_ingestion_pipeline.py）などの認証情報を渡します。

Apache Beam と AlloyDB を使用したベクトルエンベディングの取り込みの Colab では、AlloyDB for PostgreSQL インスタンスと Dataflow ジョブは同じ VPC ネットワークとサブネットワークで実行されます。

Dataflow でパイプラインを実行する際の詳細については、Dataflow でパイプラインを実行するをご覧ください。

Google Cloud コンソールの Dataflow ダッシュボードで、パイプラインの実行中に実行グラフ、ログ、指標を表示できます。

省略可: ストリーミング Dataflow パイプラインを実行する

類似性検索やレコメンデーションエンジンなど、頻繁に変更されることが予想されるデータについては、Dataflow と Pub/Sub を使用してストリーミングパイプラインを作成することを検討してください。

このパイプラインは、データのバッチを処理するのではなく、Pub/Sub トピックから受信メッセージを継続的に読み取り、メッセージをチャンクに変換し、指定されたモデル（Hugging Face や Vertex AI など）を使用してエンベディングを生成し、AlloyDB for PostgreSQL テーブルを更新します。

詳細については、Pub/Sub からのエンベディングの更新のストリーミングをご覧ください。

AlloyDB for PostgreSQL でベクトルエンベディングを確認する

パイプラインの実行後、パイプラインがエンベディングを AlloyDB for PostgreSQL データベースに書き込んだことを確認します。

詳細については、書き込まれたエンベディングを確認するをご覧ください。

次のステップ

Apache Beam、Dataflow、AlloyDB for PostgreSQL を使用してベクトルエンベディングの取り込みを行う方法を学習する。

Dataflow を使用して AlloyDB のリアルタイム ベクトル エンベディング パイプラインを構築する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。