分区搜索索引

Spanner 同时支持非分区和分区搜索索引。本页介绍了如何在 Spanner 中创建分区搜索索引。

如果在索引定义中省略 PARTITION BY 子句,则会创建非分区索引。在未分区的索引中,查询需要从所有索引分块读取。这会限制全文搜索查询的潜在可伸缩性。

另一方面,分区索引会将索引细分为更小的单元,每个唯一分区对应一个单元。查询一次只能在单个分区内进行搜索,该分区由 WHERE 子句中的等式条件指定。针对分区索引的查询通常比针对未分区索引的查询更高效,因为 Spanner 只需读取单个分区的数据。搜索索引的分区类似于次级索引的键前缀。

例如,假设数据库中有 1,000,000 个 SingerIds,并且有以下两个索引:

CREATE TABLE Albums (
  AlbumId STRING(MAX) NOT NULL,
  SingerId STRING(MAX) NOT NULL,
  ReleaseTimestamp INT64 NOT NULL,
  AlbumTitle STRING(MAX),
  AlbumTitle_Tokens TOKENLIST AS (TOKENIZE_FULLTEXT(AlbumTitle)) HIDDEN,
  SingerId_Tokens TOKENLIST AS (TOKEN(SingerId)) HIDDEN
) PRIMARY KEY(SingerId, AlbumId);

CREATE SEARCH INDEX AlbumsUnpartitionedIndex
ON Albums(AlbumTitle_Tokens, SingerId_Tokens);

CREATE SEARCH INDEX AlbumsIndexBySingerId
ON Albums(AlbumTitle_Tokens)
PARTITION BY SingerId;

以下查询选择了 AlbumsIndexBySingerId 索引,因为它只搜索单个歌手的数据。这类查询通常会使用较少的资源。

SELECT AlbumId
FROM Albums
WHERE SingerId = "singer1"
AND SEARCH(AlbumTitle_Tokens, 'happy')

您还可以强制查询使用 AlbumsUnpartitionedIndex 返回相同的结果。不过,这种方式会使用更多资源,因为查询需要访问所有索引分块,并过滤所有歌手的所有专辑,才能找到令牌“happy”,而不是仅过滤与歌手 singer1 对应的分块。

不过,有时应用需要搜索所有专辑,而不是特定歌手的专辑。在以下情况下,您必须使用非分区索引:

SELECT AlbumId
FROM Albums
WHERE SEARCH(AlbumTitle_Tokens, 'piano concerto 1')

一般建议使用最精细的分区粒度,该粒度应切实可行且适合查询。例如,如果应用查询电子邮件邮箱,并且每个查询都限制在特定邮箱中,请按邮箱 ID 对搜索索引进行分区。不过,如果查询需要搜索所有邮箱,则不分区的索引更适合。

某些应用可能需要采用多种分区策略来满足其特定的搜索要求。例如,库存管理系统可能需要支持按商品类型或制造商进行过滤的查询。此外,某些应用可能需要进行多次预排序,例如按创建时间或修改时间进行排序。在这些情况下,建议您创建多个搜索索引,每个索引都针对相应的查询进行优化。

后续步骤