Sobre recuperação e classificação

Nesta página, descrevemos como a recuperação e a classificação trabalham juntas para oferecer resultados de pesquisa relevantes em apps da Vertex AI para Pesquisa.

Visão geral

Em resumo, a recuperação é encontrar documentos relevantes, enquanto a classificação é ordenar esses documentos recuperados. Classificar todos os documentos disponíveis pode ser caro do ponto de vista computacional. Portanto, a recuperação e a classificação funcionam em sequência.

Primeiro, o modelo de pesquisa entende e reescreve a consulta. Em seguida, dependendo das fontes de dados disponíveis e do número de documentos indexados no seu repositório de dados, o modelo recupera milhares de documentos. Uma pontuação de relevância é atribuída aos documentos recuperados.

Em seguida, o modelo de classificação ordena os documentos recuperados e apresenta os 400 principais resultados classificados. A imagem a seguir mostra como esses dois processos se encaixam no fluxo de trabalho de pesquisa.

recuperação e classificação na pesquisa
Figura 1. Recuperação e classificação no fluxo de trabalho de pesquisa

Métodos de recuperação

A recuperação é o processo de selecionar um subconjunto de documentos do seu repositório de dados que são relevantes para a consulta de um usuário. O modelo da Vertex AI para Pesquisa gerencia a recuperação dos seus apps de pesquisa com base em diferentes indicadores, como os seguintes, e atribui pontuações de relevância:

  • Relevância do tema: inclui correspondência de palavra-chave, mapas de informações e indicadores da Web.

  • Embeddings: inclui embeddings para encontrar conteúdo conceitualmente semelhante.

  • Atenção cruzada: permite que um modelo considere a relação entre uma consulta e um documento para atribuir uma pontuação de relevância a ele.

  • Atualização: envolve determinar a idade dos documentos no repositório de dados.

  • Eventos do usuário: incluem indicadores de conversão usados para personalização.

Além disso, em uma solicitação de pesquisa, é possível fornecer filtros de relevância e filtros de metadados para dados de sites e dados estruturados ou não estruturados para restringir a lista de documentos relevantes.

Métodos de classificação

O ranking usa os documentos selecionados durante a fase de recuperação, atribui a eles uma nova pontuação de relevância de acordo com as seguintes condições e reordena-os:

  • Intensificar: promove e rebaixa determinados resultados de acordo com atributos personalizados ou atualidade. Isso afeta os primeiros 1.000 documentos recuperados e classifica os 400 principais. Para mais informações, consulte Aumentar a relevância dos resultados da pesquisa.
  • Classificação personalizada: controla, ajusta e substitui a lógica de classificação padrão com um algoritmo baseado em fórmulas para atender aos seus requisitos específicos. A pontuação de relevância atribuída pela classificação personalizada tem precedência ao veicular os resultados. Para mais informações, consulte Personalizar a classificação dos resultados da pesquisa.
  • Ajuste da pesquisa: afeta a forma como o modelo percebe a relevância semântica dos seus documentos e muda as pontuações de relevância do embedding. Para mais informações, consulte Melhorar os resultados da pesquisa com o ajuste da pesquisa.
  • Reclassificação com base em eventos: atualiza os resultados no momento da veiculação usando um modelo de personalização com base em eventos do usuário.