Esta página descreve como classificar os resultados da pesquisa de texto completo no Spanner.
O Spanner oferece suporte à computação de uma pontuação de atualidade, que fornece um bloco de construção para criar funções de classificação sofisticadas. Essas pontuações calculam a relevância de um resultado para uma consulta com base na frequência do termo da consulta e em outras opções personalizáveis.
O exemplo a seguir mostra uma pesquisa classificada:
SELECT AlbumId
FROM Albums
WHERE SEARCH(AlbumTitle_Tokens, "fifth symphony")
ORDER BY SCORE(AlbumTitle_Tokens, "fifth symphony") DESC
Pontuar termos de consulta com a função SCORE
A função SCORE
calcula uma pontuação para cada termo de consulta e as combina. A pontuação por termo é baseada aproximadamente na frequência do termo e na frequência inversa do
documento (TF/IDF). A pontuação é
um componente da ordem final de um registro. A consulta combina isso com
outros indicadores, como a atualidade que modula a pontuação de atualidade.
Na implementação atual, a parte do IDF do TF/IDF só está disponível quando
enhance_query=>true
é usada. Ele calcula a frequência relativa de palavras
com base no corpus da Web completo usado pela Pesquisa Google, em vez de um
índice de pesquisa específico. Se a melhoria de consulta não estiver ativada, a pontuação só vai usar o componente de frequência de termo (TF, na sigla em inglês). Ou seja, o termo IDF é definido como 1.
A função SCORE
retorna valores que servem como pontuações de relevância que
o Spanner usa para estabelecer uma ordem de classificação. Eles não têm significado
independente. Quanto maior a pontuação, melhor a correspondência com a consulta.
Normalmente, argumentos como query
e enhance_query
são iguais nas funções
SEARCH
e SCORE
para garantir a consistência na recuperação e na classificação.
A maneira recomendada de fazer isso é usar esses argumentos com parâmetros de consulta em vez de literais de string
e especificar os mesmos parâmetros de consulta nas funções SEARCH
e SCORE
.
Pontuar várias colunas
O Spanner usa a função SCORE
para pontuar cada campo individualmente. A consulta combina essas
pontuações individuais. Uma maneira comum de fazer isso é somar as
pontuações individuais e, em seguida, aumentar de acordo com os pesos de campo fornecidos pelo usuário
(que são fornecidos usando parâmetros de consulta SQL).
Por exemplo, a consulta a seguir combina a saída de duas funções SCORE
:
SELECT AlbumId
FROM Albums
WHERE SEARCH(Title_Tokens, @p1) AND SEARCH(Studio_Tokens, @p2)
ORDER BY SCORE(Title_Tokens, @p1) * @titleweight + SCORE(Studio_Tokens, @p2) * @studioweight
LIMIT 25
O exemplo a seguir adiciona dois parâmetros de aumento:
- A atualização (
FreshnessBoost
) aumenta a pontuação com(1 + @freshnessweight * GREATEST(0, 30 - DaysOld) / 30)
- A popularidade(
PopularityBoost
) aumenta a pontuação multiplicando-a pelo fator(1 + IF(HasGrammy, @grammyweight, 0)
.
Para facilitar a leitura, a consulta usa o operador WITH
.
SELECT AlbumId
FROM Albums
WHERE SEARCH(Title_Tokens, @p1) AND SEARCH(Studio_Tokens, @p2)
ORDER BY WITH(
TitleScore AS SCORE(Title_Tokens, @p1) * @titleweight,
StudioScore AS SCORE(Studio_Tokens, @p2) * @studioweight,
DaysOld AS (UNIX_MICROS(CURRENT_TIMESTAMP()) - ReleaseTimestamp) / 8.64e+10,
FreshnessBoost AS (1 + @freshnessweight * GREATEST(0, 30 - DaysOld) / 30),
PopularityBoost AS (1 + IF(HasGrammy, @grammyweight, 0)),
(TitleScore + StudioScore) * FreshnessBoost * PopularityBoost)
LIMIT 25
TOKENLIST_CONCAT
também pode ser usado na pesquisa e na pontuação para simplificar as consultas quando apropriado:
SELECT AlbumId
FROM Albums
WHERE SEARCH(TOKENLIST_CONCAT([Title_Tokens, Studio_Tokens]), @p)
ORDER BY SCORE(TOKENLIST_CONCAT([Title_Tokens, Studio_Tokens]), @p)
LIMIT 25
Otimizar correspondências de ordenação de consultas
É possível aplicar um aumento multiplicativo à pontuação de atualidade para valores que contêm os termos da consulta na mesma ordem em que aparecem na consulta. Há duas versões desse aumento: correspondência parcial e exata. Um aumento de correspondência parcial é aplicado quando:
- O
TOKENLIST
contém todos os termos originais da consulta. - Os tokens estão adjacentes uns aos outros e na mesma ordem em que aparecem na consulta.
Há algumas regras especiais para conjunções, negações e frases:
- Uma consulta com uma negação não pode receber um aumento de correspondência parcial.
- Uma consulta com uma conjunção recebe um aumento se parte dela aparecer nos locais adequados.
- Uma consulta com uma frase recebe um aumento se a frase aparecer no
TOKENLIST
e o termo à esquerda da frase na consulta aparecer à esquerda da frase noTOKENLIST
. O mesmo se aplica ao termo à direita da frase.
O Spanner aplica um aumento de correspondência exata quando todas as regras anteriores são verdadeiras. Os primeiros e últimos tokens na consulta são os primeiros e os últimos tokens no documento.
Documento de exemplo: Bridge Over Troubled Water
Consulta | Otimização aplicada |
---|---|
Bridge Troubled | sem aumento |
Ponte sobre água | sem aumento |
Ponte (sobre ou com problemas) de água | sem aumento |
Bridge Over | aumento parcial |
Bridge Over (Troubled OR Water) | aumento parcial |
Bridge Over Troubled Water | aumento exato |
Ponte "Over Troubled" Water | aumento exato |
Ponte ("Over Troubled" OR missingterm) Água | aumento exato |
Limitar a profundidade de recuperação
Os índices de pesquisa geralmente contêm milhões de documentos. Para consultas em que os predicados têm baixa seletividade, não é prático classificar todos os resultados. As consultas de pontuação geralmente têm dois limites:
- Limite de profundidade de recuperação: o número máximo de linhas a serem pontuadas.
- Limite de tamanho do conjunto de resultados: o número máximo de linhas que a consulta precisa retornar (geralmente o tamanho da página).
As consultas podem limitar a profundidade de recuperação com subconsultas SQL:
SELECT *
FROM (
SELECT AlbumId
FROM Albums
WHERE SEARCH(Title_Tokens, @p1)
ORDER BY ReleaseTimestamp DESC
LIMIT @retrieval_limit
)
ORDER BY SCORE(Title_Tokens, @p1)
LIMIT @page_size
Isso funciona muito bem se o Spanner usa o indicador de classificação mais importante para classificar o índice.
A seguir
- Saiba mais sobre consultas de pesquisa de texto completo.
- Saiba como realizar uma pesquisa de substring.
- Saiba como paginar os resultados da pesquisa.
- Saiba como combinar consultas de texto completo e não de texto.
- Saiba como pesquisar várias colunas.