高效执行前 k 个检索

许多应用都会查询数据库,以在应用中填充单个网页。在这种应用中,应用不需要所有匹配项,而只需要根据索引排序顺序获取前 k 个匹配项。搜索索引可以非常高效地实现此类搜索。本页介绍了如何创建和搜索具有前 k 个匹配项的索引。

为前 k 个匹配项创建搜索索引

如需针对前 k 个匹配项配置搜索索引,请使用 ORDER BY 按特定列对搜索索引进行排序。查询需要包含一个与搜索索引排序顺序(包括升序与降序)完全匹配的 ORDER BY 子句,以及一个请求在找到 k 个匹配行后停止查询的 LIMIT 子句。

您还可以使用这些子句实现分页。如需了解详情,请参阅对搜索查询进行分页

对于某些用例,维护按不同列排序的多个搜索索引可能很有用。与分区一样,这需要在存储和写入费用与查询延迟时间之间进行权衡。

例如,请考虑使用以下架构的表:

CREATE TABLE Albums (
  AlbumId STRING(MAX) NOT NULL,
  RecordTimestamp INT64 NOT NULL,
  ReleaseTimestamp INT64 NOT NULL,
  ListenTimestamp INT64 NOT NULL,
  AlbumTitle STRING(MAX),
  AlbumTitle_Tokens TOKENLIST AS (TOKENIZE_FULLTEXT(AlbumTitle)) HIDDEN
) PRIMARY KEY(AlbumId);

CREATE SEARCH INDEX AlbumsRecordTimestampIndex
ON Albums(AlbumTitle_Tokens, SingerId_Tokens)
ORDER BY RecordTimestamp DESC
STORING ListenTimestamp

CREATE SEARCH INDEX AlbumsReleaseTimestampIndex
ON Albums(AlbumTitle_Tokens)
ORDER BY ReleaseTimestamp DESC
STORING ListenTimestamp

查询搜索索引以获取前 k 个匹配项

如前所述,查询需要包含一个与搜索索引排序顺序完全匹配的 ORDER BY 子句(包括升序与降序方向),以及一个 LIMIT 子句,用于请求在查询找到 k 个匹配行后停止。

以下是一些常见查询:

  • 以下查询非常高效。它会选择 AlbumsRecordTimestampIndex 索引。即使有许多影集包含“happy”一词,查询也只会扫描少量行:

    SELECT AlbumId
    FROM Albums
    WHERE SEARCH(AlbumTitle_Tokens, 'happy')
    ORDER BY RecordTimestamp DESC
    LIMIT 10
    
  • 同样的查询,请求按 ReleaseTimestamp 降序排序,使用 AlbumsReleaseTimestampIndex 索引,效率同样高:

    SELECT AlbumId
    FROM Albums
    WHERE SEARCH(AlbumTitle_Tokens, 'happy')
    ORDER BY ReleaseTimestamp DESC
    LIMIT 10
    
  • 同时,请求按 ListenTimestamp 排序的查询无法高效执行前 k 个查询。它必须提取所有匹配的专辑,按 ListenTimestamp, 对其进行排序,然后返回前 10 个专辑。如果有大量文档包含字词“happy”,则此类查询会使用更多资源。

    SELECT AlbumId
    FROM Albums
    WHERE SEARCH(AlbumTitle_Tokens, 'happy')
    ORDER BY ListenTimestamp DESC
    LIMIT 10
    
  • 同样,如果查询请求按 RecordTimestamp 列从高到低对结果进行排序,则查询的运行效率会不高。它会扫描包含“happy”一词的所有行,即使其中包含 LIMIT 也是如此。

    SELECT AlbumId
    FROM Albums
    WHERE SEARCH(AlbumTitle_Tokens, 'happy')
    ORDER BY RecordTimestamp ASC
    LIMIT 10
    

后续步骤