Spanner to Vertex AI Vector Search 模板

Spanner to Vertex AI Vector Search files on Cloud Storage 模板会创建一个批处理流水线,可采用 JSON 格式将 Spanner 表中的向量嵌入数据导出到 Cloud Storage。使用模板参数指定要将向量嵌入导出到其中的 Cloud Storage 文件夹。Cloud Storage 文件夹包含导出的 .json 文件列表,这些文件以 Vertex AI Vector Search 索引支持的格式表示向量嵌入。

如需了解详情,请参阅输入数据格式和结构

流水线要求

  • Spanner 数据库必须已存在。
  • 用于输出数据的 Cloud Storage 存储桶必须已存在。
  • 除了运行 Dataflow 作业所需的 Identity and Access Management (IAM) 角色之外,您还需要具有读取 Spanner 数据并写入 Cloud Storage 存储桶的必需 IAM 角色

模板参数

参数 说明
spannerProjectId Spanner 实例的项目 ID。
spannerInstanceId 要从中导出向量嵌入的 Spanner 实例的 ID。
spannerDatabaseId 要从中导出向量嵌入的 Spanner 数据库的 ID。
spannerTable 要从中读取数据的 Spanner 表。
spannerColumnsToExport Vertex AI Vector Search 索引的必需列的英文逗号分隔列表。Vector Search 需要 idembedding 列。如果列名称与 Vertex AI Vector Search 索引输入结构不匹配,请使用别名创建列映射。如果列名称与 Vertex AI 预期的格式不匹配,请使用表示法 from:to。例如,如果有名为 idmy_embedding 的列,请指定 id, my_embedding:embedding
gcsOutputFolder 用于写入输出文件的 Cloud Storage 文件夹。该路径应以斜杠结尾。例如:gs://your-bucket/folder1/
gcsOutputFilePrefix 用于写入输出文件的文件名前缀。例如:vector-embeddings
spannerHost 可选:要在模板中调用的 Spanner 端点。默认值为 https://batch-spanner.googleapis.com
spannerVersionTime 可选:如果设置,则指定必须采用数据库版本的时间。该值是一个字符串,采用 RFC-3339 日期格式,以 Unix 纪元时间表示。例如:1990-12-31T23:59:60Z。时间戳必须是过去的时间,并且必须遵循时间戳过时上限。如果未设置,则使用强边界读取最新数据。默认值为空。
spannerDataBoostEnabled 可选:设置为 true 时,模板使用 Spanner 按需计算。 导出作业在不会影响当前 Spanner 工作负载的独立计算资源上运行。使用此选项会在 Spanner 中产生额外费用。如需了解详情,请参阅 Spanner Data Boost 概览。 默认值为 false
spannerPriority 可选:Spanner 调用的请求优先级。允许的值包括 HIGHMEDIUMLOW。默认值为 MEDIUM

运行模板

控制台

  1. 转到 Dataflow 基于模板创建作业页面。
  2. 转到“基于模板创建作业”
  3. 作业名称字段中,输入唯一的作业名称。
  4. 可选:对于区域性端点,从下拉菜单中选择一个值。默认区域为 us-central1

    如需查看可以在其中运行 Dataflow 作业的区域列表,请参阅 Dataflow 位置

  5. Dataflow 模板下拉菜单中,选择 the Spanner to Vertex AI Vector Search files on Cloud Storage template。
  6. 在提供的参数字段中,输入您的参数值。
  7. 点击运行作业

gcloud

在 shell 或终端中,运行模板:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location=gs://dataflow-templates-REGION_NAME/VERSION/Cloud_Spanner_vectors_to_Cloud_Storage \
    --project=PROJECT_ID \
    --region=REGION_NAME \
    --parameters \
       spannerProjectId=SPANNER_PROJECT_ID,\
       spannerInstanceId=SPANNER_INSTANCE_ID,\
       spannerDatabaseId=SPANNER_DATABASE_ID,\
       spannerTable=SPANNER_TABLE,\
       spannerColumnsToExport=SPANNER_COLUMNS_TO_EXPORT,\
       gcsOutputFolder=GCS_OUTPUT_FOLDER,\
       gcsOutputFilePrefix=GCS_OUTPUT_FILE_PREFIX,\

请替换以下内容:

  • JOB_NAME:您选择的唯一性作业名称
  • VERSION:您要使用的模板的版本

    您可使用以下值:

  • REGION_NAME:要在其中部署 Dataflow 作业的区域,例如 us-central1
  • SPANNER_PROJECT_ID:Spanner 项目 ID
  • SPANNER_INSTANCE_ID:Spanner 实例 ID
  • SPANNER_DATABASE_ID:Spanner 数据库 ID
  • SPANNER_TABLE:Spanner 表
  • SPANNER_COLUMNS_TO_EXPORT:要从 Spanner 表中导出的列
  • GCS_OUTPUT_FOLDER:要将文件输出到的 Cloud Storage 文件夹
  • GCS_OUTPUT_FILE_PREFIX:Cloud Storage 中的输出文件前缀

API

如需使用 REST API 来运行模板,请发送 HTTP POST 请求。如需详细了解 API 及其授权范围,请参阅 projects.templates.launch

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Cloud_Spanner_vectors_to_Cloud_Storage
{
   "jobName": "JOB_NAME",
   "parameters": {
     "spannerProjectId": "SPANNER_PROJECT_ID",
     "spannerInstanceId": "SPANNER_INSTANCE_ID",
     "spannerDatabaseId": "SPANNER_DATABASE_ID",
     "spannerTable": "SPANNER_TABLE",
     "spannerColumnsToExport": "SPANNER_COLUMNS_TO_EXPORT",
     "gcsOutputFolder": "GCS_OUTPUT_FOLDER",
     "gcsOutputFilePrefix": "GCS_OUTPUT_FILE_PREFIX",
   },
   "environment": { "maxWorkers": "10" }
}

请替换以下内容:

  • PROJECT_ID:您要在其中运行 Dataflow 作业的 Google Cloud 项目的 ID
  • JOB_NAME:您选择的唯一性作业名称
  • VERSION:您要使用的模板的版本

    您可使用以下值:

  • LOCATION:要在其中部署 Dataflow 作业的区域,例如 us-central1
  • SPANNER_PROJECT_ID:Spanner 项目 ID
  • SPANNER_INSTANCE_ID:Spanner 实例 ID
  • SPANNER_DATABASE_ID:Spanner 数据库 ID
  • SPANNER_TABLE:Spanner 表
  • SPANNER_COLUMNS_TO_EXPORT:要从 Spanner 表中导出的列
  • GCS_OUTPUT_FOLDER:要将文件输出到的 Cloud Storage 文件夹
  • GCS_OUTPUT_FILE_PREFIX:Cloud Storage 中的输出文件前缀

后续步骤