A pesquisa aproximada é uma técnica que encontra correspondências mesmo quando a consulta de pesquisa não corresponde perfeitamente aos dados correspondentes. Ela vai além da correspondência literal de caractere por caractere e identifica resultados semelhantes à consulta de pesquisa em termos de ortografia, significado ou outros critérios. Isso pode ser útil principalmente quando se trata de entrada do usuário, que pode incluir erros de digitação, variações (plural e singular, abreviações, derivação etc.) e outras inconsistências baseadas nas diferentes formas de comunicação dos usuários.
Imagine pesquisar por "maçã" em um banco de dados. Um mecanismo de pesquisa mais simples pode retornar apenas entradas que correspondam exatamente à palavra "maçã". No entanto, um mecanismo com pesquisa aproximada também considera termos semelhantes, como "maçãs", "maçã" ou até "maçãa", reconhecendo-os como possíveis correspondências, apesar de pequenas variações ortográficas.
Essa abordagem pode ampliar o escopo da pesquisa e aumentar as chances de encontrar informações relevantes, mesmo que o usuário tenha escrito algo diferente na consulta. É como lançar uma rede maior que captura não apenas o peixe que você estava procurando, mas também aqueles que se assemelham a ele.
A pesquisa aproximada pode ser útil em cenários em que os dados podem ser inconsistentes ou quando os usuários não sabem a grafia exata do que estão pesquisando. Ela pode ser particularmente útil no e-commerce para encontrar produtos com pequenas variações de nome ou em grandes conjuntos de dados em que a limpeza manual de dados é impraticável.
Os produtos do Google Cloud que podem ser usados para criar e executar pesquisas aproximadas incluem a Vertex AI, o Cloud SQL e o Cloud Spanner. Para conhecer a pesquisa aproximada para suas necessidades, entre em contato com nossa equipe de vendas ou comece seu teste gratuito.
As pesquisas aproximadas empregam vários algoritmos e técnicas para determinar a semelhança entre duas strings de texto, a consulta de pesquisa e a possível correspondência nos dados. Esses algoritmos geralmente dependem de conceitos como:
Com esses tipos de conceitos, os mecanismos de pesquisa aproximada podem classificar as correspondências potenciais com base na semelhança com a consulta original, ajudando os usuários a conferir uma variedade de resultados relevantes, mesmo que contenham pequenas variações dos termos de pesquisa.
À medida que os conjuntos de dados aumentam e as entradas dos usuários se tornam mais diversas, a pesquisa aproximada oferece uma abordagem valiosa para recuperar informações com eficiência. Ela pode ajudar a preencher a lacuna entre as diversas formas de comunicação (ou pesquisa) dos usuários e a forma como os dados foram estruturados e armazenados.
Confira por que a pesquisa aproximada pode ser importante:
A diferença fundamental entre a pesquisa exata e a pesquisa aproximada está na forma como elas lidam com variações nos dados. Confira as principais diferenças:
Pesquisa exata | Pesquisa imprecisa | |
Critérios de correspondência | Exige uma correspondência exata de caractere por caractere | Permite erros de digitação, variações e correspondências parciais |
Escopo de pesquisa | Mais restrita, retorna apenas correspondências precisas | Mais ampla, recupera uma variedade maior de resultados |
Casos de uso | Situações que exigem precisão rigorosa, como catálogos de produtos ou bancos de dados em setores altamente regulamentados | Cenários em que flexibilidade e tolerância a erros são cruciais, como barras de pesquisa em sites grandes |
Pesquisa exata
Pesquisa imprecisa
Critérios de correspondência
Exige uma correspondência exata de caractere por caractere
Permite erros de digitação, variações e correspondências parciais
Escopo de pesquisa
Mais restrita, retorna apenas correspondências precisas
Mais ampla, recupera uma variedade maior de resultados
Casos de uso
Situações que exigem precisão rigorosa, como catálogos de produtos ou bancos de dados em setores altamente regulamentados
Cenários em que flexibilidade e tolerância a erros são cruciais, como barras de pesquisa em sites grandes
Para ilustrar as aplicações práticas, vamos conferir alguns exemplos de como a pesquisa difusa pode ajudar a corresponder a intenção do usuário por trás de diferentes consultas de pesquisa com resultados relevantes.
Nesse caso, mesmo com o erro de digitação, o algoritmo de pesquisa aproximada reconhece a intenção do usuário e entrega a receita de torta de maçã. Ele entende que "macã" provavelmente é um erro de digitação de "maçã" e prioriza o resultado de acordo.
A pesquisa aproximada lida perfeitamente com variações de plural. O mecanismo de pesquisa encontra resultados que correspondem ao significado pretendido, seja o usuário pesquisando no singular ou no plural. Assim, os usuários encontram receitas independentemente da abordagem gramatical.
A capacidade de interpretar sinônimos amplia o escopo da pesquisa. O mecanismo reconhece que "ideias para refeições rápidas" e "receitas de jantar fáceis" são conceitualmente semelhantes e fornece resultados relevantes para ambas, expandindo as possibilidades além das palavras-chave usadas.
Os algoritmos geralmente empregam a derivação, que reduz as palavras para a forma básica ou raiz. Isso permite que a pesquisa corresponda a "tênis de corrida" com "tênis corrida", mesmo que as palavras sejam gramaticamente diferentes, garantindo que os usuários encontrem produtos relevantes, independentemente de pequenas variações.
O sistema lida com abreviações, reconhecendo que "EUA" se refere aos "Estados Unidos da América". Esse recurso é particularmente útil em bancos de dados e mecanismos de pesquisa, em que as abreviações são frequentemente usadas para resumir.
A implementação da pesquisa aproximada geralmente envolve as seguintes etapas:
Embora a implementação específica possa variar dependendo do aplicativo, a Vertex AI do Google Cloud pode usar técnicas de pesquisa aproximada nos fluxos de trabalho de machine learning para melhorar a acurácia do modelo e lidar com dados com ruído ou inconsistentes. Por exemplo, a correspondência aproximada pode melhorar a engenharia de atributos agrupando pontos de dados semelhantes ou identificando e corrigindo erros em conjuntos de dados de treinamento.
Comece a criar no Google Cloud com US$ 300 em créditos e mais de 20 produtos do programa Sempre gratuito.