获取 Vertex AI 文本嵌入

本页面介绍了如何针对 GoogleSQL 方言数据库和 PostgreSQL 方言数据库使用 Vertex AI 文本嵌入 API，为存储在 Spanner 中的数据生成、存储和更新文本嵌入。

文本嵌入是文本数据的向量表示法，用于以多种方式查找相似项。每次完成 Google 搜索或在线购物时看到推荐时，您都会与其互动。创建文本嵌入时，您可以以浮点数数组的形式获取自然文本的向量表示法。这意味着，所有输入文本都分配有数值表示法。通过比较两段文本的向量表示法之间的数值距离，应用可以确定文本或文本表示的对象之间的相似度。

借助 Vertex AI 文本嵌入 API，您可以使用生成式 AI 创建文本嵌入。在本教程中，您将使用 Vertex AI 文本嵌入模型为存储在 Spanner 中的数据生成文本嵌入。

如需详细了解文本嵌入和支持的模型，请参阅获取文本嵌入。

目标

在本教程中，您将学习如何：

使用 DDL 语句在 Spanner 架构中注册 Vertex AI 文本嵌入模型。
使用 SQL 查询引用已注册的模型，以根据存储在 Spanner 中的数据生成嵌入。

价格

本教程使用 Google Cloud的收费组件，包括：

Spanner
Vertex AI

如需详细了解 Spanner 费用，请参阅 Spanner 价格页面。

如需详细了解 Vertex AI 费用，请参阅 Vertex AI 价格页面。

生成和存储文本嵌入

根据您使用的模型，生成嵌入可能需要一些时间。对于对性能更敏感的工作负载，最佳实践是避免在读写事务中生成嵌入。请改用以下 SQL 示例，在只读事务中生成嵌入。

GoogleSQL

在 Spanner 中注册文本嵌入模型

在 GoogleSQL 中，您必须先注册模型，然后才能将其与 ML.PREDICT 函数搭配使用。如需在 Spanner 数据库中注册 Vertex AI 文本嵌入模型，请执行以下 DDL 语句：

CREATE MODEL MODEL_NAME
INPUT(content STRING(MAX))
OUTPUT(
  embeddings
    STRUCT<
      statistics STRUCT<truncated BOOL, token_count FLOAT64>,
      values ARRAY<FLOAT64>>
)
REMOTE OPTIONS (
  endpoint = '//aiplatform.googleapis.com/projects/PROJECT/locations/LOCATION/publishers/google/models/$MODEL_NAME'
);

请替换以下内容：

MODEL_NAME：Vertex AI 文本嵌入模型的名称
PROJECT：托管 Vertex AI 端点的项目
LOCATION：Vertex AI 端点的位置

Spanner 会自动授予适当的权限。如果没有，请查看模型端点访问权限控制。

生成式 AI 模型不支持架构发现和验证。您需要提供与模型架构匹配的 INPUT 和 OUTPUT 子句。如需查看文本嵌入模型的完整架构，请参阅获取文本嵌入。

生成文本嵌入

如需生成嵌入，请使用以下 SQL 将一段文本直接传递给 ML.PREDICT 函数：

SELECT embeddings.values
FROM ML.PREDICT(
  MODEL MODEL_NAME,
  (SELECT "A product description" as content)
);

如需为表中存储的数据生成嵌入，请使用以下 SQL：

SELECT id, embeddings.values
FROM ML.PREDICT(
  MODEL MODEL_NAME,
  (SELECT id, description as content FROM Products)
);

存储文本嵌入

在只读事务中生成嵌入后，将其存储在 Spanner 中，以便使用运营数据进行管理。如需存储嵌入，请使用读写事务。

对于对性能不太敏感的工作负载，您可以在读写事务中使用以下 SQL 生成和插入嵌入：

CREATE TABLE Products(
  id INT64 NOT NULL,
  description STRING(MAX),
  embeddings ARRAY<FLOAT32>,
) PRIMARY KEY(id);

INSERT INTO Products (id, description, embeddings)
SELECT @Id, @Description, embeddings.values
FROM ML.PREDICT(
  MODEL MODEL_NAME,
  (SELECT @Description as content)
);

PostgreSQL

生成文本嵌入

如需生成嵌入，请使用以下 SQL 将一段文本直接传递给 spanner.ML_PREDICT_ROW 函数：

SELECT
  spanner.ML_PREDICT_ROW(
    'projects/PROJECT/locations/LOCATION/publishers/google/models/$MODEL_NAME',
    '{"instances": [{"content": "A product description"}]}'::jsonb
  ) ->'predictions'->0->'embeddings'->'values';

请替换以下内容：

PROJECT：托管 Vertex AI 端点的项目
LOCATION：Vertex AI 端点的位置
MODEL_NAME：Vertex AI 文本嵌入模型的名称

如需为存储在表中的数据生成嵌入，请使用以下 SQL：

SELECT id, spanner.ML_PREDICT_ROW(
    'projects/PROJECT/locations/LOCATION/publishers/google/models/$MODEL_NAME',
    JSONB_BUILD_OBJECT('instances', JSONB_BUILD_ARRAY(JSONB_BUILD_OBJECT('content', description))))
  ) -> `predictions`->0->`embeddings`->`values``
FROM Products;

请替换以下内容：

PROJECT：托管 Vertex AI 端点的项目
LOCATION：Vertex AI 端点的位置
MODEL_NAME：Vertex AI 文本嵌入模型的名称

存储文本嵌入

在只读事务中生成嵌入后，将其存储在 Spanner 中，以便使用运营数据进行管理。如需存储嵌入，请使用读写事务。

对于对性能不太敏感的工作负载，您可以在读写事务中使用以下 SQL 生成和插入嵌入：

CREATE TABLE Products (
  id INT8 NOT NULL,
  description TEXT,
  embeddings REAL[],
  PRIMARY KEY(id)
);

INSERT INTO Products (id, description, embeddings)
SELECT @Id, @Description, spanner.FLOAT32_ARRAY(spanner.ML_PREDICT_ROW(
    'projects/PROJECT/locations/LOCATION/publishers/google/models/$MODEL_NAME',
    JSONB_BUILD_OBJECT('instances', JSONB_BUILD_ARRAY(JSONB_BUILD_OBJECT('content', @Description)))
  ) -> 'predictions'->0->'embeddings'->'values'
));

请替换以下内容：

PROJECT：托管 Vertex AI 端点的项目
LOCATION：Vertex AI 端点的位置
MODEL_NAME：Vertex AI 文本嵌入模型的名称

更新文本嵌入

如需更新嵌入或实时注入数据，请使用 UPDATE（GoogleSQL 和 PostgreSQL）语句。

如需更新上一个示例中的 Products 表，请使用以下 SQL：

GoogleSQL

UPDATE Products
SET
  description = @description,
  embeddings = (SELECT embeddings.values
                  FROM ML.PREDICT(MODEL MODEL_NAME, (SELECT @description as content))
              )
WHERE id = @id;

替换以下内容：

MODEL_NAME：Vertex AI 文本嵌入模型的名称

PostgreSQL

UPDATE
  Products
SET
  description = $1,
  embeddings = spanner.FLOAT32_ARRAY(
    spanner.ML_PREDICT_ROW(
      'projects/PROJECT/locations/LOCATION/publishers/google/models/$MODEL_NAME',
      JSONB_BUILD_OBJECT('instances', JSONB_BUILD_ARRAY(JSONB_BUILD_OBJECT('content', $1)))
    ) -> 'predictions'->0->'embeddings'->'values')
WHERE
  id = $2;

请替换以下内容：

PROJECT：托管 Vertex AI 端点的项目
LOCATION：Vertex AI 端点的位置
MODEL_NAME：Vertex AI 文本嵌入模型的名称

后续步骤

了解如何使用 Vertex AI Vector Search 搜索语义相似的项。
如需详细了解机器学习和嵌入，请参阅我们的嵌入速成课程。
详细了解 Vertex AI 文本嵌入模型。