Cette page décrit la recherche en texte intégral et son fonctionnement.
Une recherche en texte intégral vous permet de créer une application qui peut rechercher des mots, des expressions ou des nombres dans un tableau, au lieu de rechercher uniquement des correspondances exactes dans des champs structurés. Les recherches en texte intégral renvoient les dernières données validées cohérentes avec les transactions à votre application. Les fonctionnalités de recherche de texte intégral de Spanner incluent également la correction orthographique, l'automatisation de la détection de la langue de la saisie de recherche et le classement des résultats de recherche. Spanner étend automatiquement les recherches de texte pour inclure une correspondance approximative des mots.
Vous devez créer un index de recherche pour toutes les colonnes que vous souhaitez mettre à la disposition des recherches en texte intégral. Spanner analyse les données de ces colonnes pour identifier les mots individuels à ajouter à l'index de recherche. Spanner met à jour l'index de recherche avec des données nouvelles ou modifiées dès qu'elles sont validées dans la base de données.
Types de recherche en texte intégral
- Recherche de texte de base: recherche du contenu à l'aide d'un mot ou d'une expression, en entier ou en partie, pour obtenir des résultats fiables. Exemples de prédicats de requête :
- Correspond à tous les mots [tricolor rat terrier]
- Mot ou expression exacts ["rat terrier"]
- L'un des mots suivants : [miniature OU standard]
- Mot à proximité immédiate [world AROUND(3) cup]
- Sous-chaîne [start*]
- Recherche numérique: effectue des recherches d'égalité et d'inégalité numériques. Les recherches d'égalité correspondent à un nombre. Les recherches de plage et d'inégalité correspondent à un nombre dans une plage spécifique.
- Recherche basée sur les n-grammes: permet de faire correspondre des mots avec des variantes d'orthographe, y compris des noms propres et des noms. Ce type de recherche permet également de faire correspondre le texte de la requête à des noms mal orthographiés, à des noms avec des orthographes alternatives et à du texte avec d'autres variantes d'orthographe.
- Recherches Soundex: recherche des mots qui se prononcent de la même manière.
Fonctionnalités de recherche en texte intégral
La recherche en texte intégral de Spanner présente les fonctionnalités suivantes:
- Résultats de recherche classés: calcule un score pour évaluer dans quelle mesure une requête correspond à un document (par exemple, en donnant plus de poids à la colonne A). Utilisez des expressions SQL pour personnaliser le classement.
- Extraits: met en surbrillance le texte correspondant dans le résultat de recherche.
- Compatibilité mondiale: compatible automatiquement avec la tokenisation dans différentes langues, y compris la segmentation CJK. La spécification manuelle de la langue vous permet d'effectuer des ajustements supplémentaires.
- Gestion: permet de trouver toutes les occurrences de mots spécifiques.
- Correction orthographique: corrige automatiquement les mots mal orthographiés dans les requêtes pour qu'ils correspondent au mot correctement orthographié dans l'espace de stockage. Par exemple, si l'utilisateur recherche "girafe", la recherche trouve les documents contenant "girafe".
- Ajout de synonymes contextuels, y compris de mots de stop: ajoute automatiquement des synonymes pertinents dans le contexte pour améliorer le rappel. Par exemple, "la maison" correspond à "cette maison" et "image de chat" correspond à "image de chaton".
- Traduction contextuelle des nombres vers et depuis le texte: met en correspondance la version textuelle d'un nombre avec la représentation numérique et inversement. Par exemple, "cinq chats" correspond à "5 chats".
- Conversion automatique au pluriel: remplace "chat" par "chats".
Concepts de recherche en texte intégral
La recherche en texte intégral repose sur les concepts clés suivants:
- Un document fait référence aux données pouvant faire l'objet d'une recherche dans une ligne donnée.
- Un jeton désigne chaque mot d'un document stocké dans un indice de recherche.
- Un processus de tokenisation divise un document en jetons.
- Un tokenizeur est une fonction SQL utilisée pour la tokenisation.
- Un index inversé stocke des jetons. Utilisez des requêtes SQL pour rechercher dans l'index inversé.
Exemple de cas d'utilisation de la recherche en texte intégral
Pour comprendre la recherche en texte intégral, examinons une application qui utilise une base de données pour stocker les titres de chaque chanteur. Chaque ligne correspond à une chanson. Chaque chanson contient des colonnes telles que le titre, les paroles, l'artiste et l'album. L'application utilise la recherche en texte intégral pour permettre à un utilisateur de rechercher un titre à l'aide de requêtes en langage naturel:
- La recherche est compatible avec les requêtes qui utilisent l'opérateur
OR
, commePrince OR Camille
. Les applications peuvent transmettre directement la saisie de l'utilisateur final à partir du champ de recherche dans la fonction SQLSEARCH
(à l'aide de la syntaxe de requête). - Spanner utilise des index de recherche pour rechercher des documents correspondants dans différents champs. Par exemple, une application peut envoyer une requête pour rechercher "cry" dans l'objet, "so cold" dans les paroles et "Prince" comme chanteur.
Autres utilisations des index de recherche
Les index de recherche ont de nombreux usages en plus de la recherche de texte intégral, par exemple:
Indexation des éléments dans les colonnes du tableau. Prenons l'exemple d'une application qui utilise une colonne de tableau pour stocker les balises associées à un élément. Avec les index de recherche, l'application peut rechercher efficacement les lignes contenant une balise spécifique. Pour en savoir plus, consultez la section Tokenisation de tableaux.
Rechercher des données qui se trouvent à l'intersection d'un ensemble de conditions de requête Par exemple, vous pouvez utiliser un ensemble arbitraire d'attributs (couleur, taille, marque, note, etc.) pour rechercher un produit dans un catalogue.
Utilisation de conditions de recherche numérique, seules ou combinées à des conditions de recherche en texte intégral. Voici quelques exemples de cas où un indice de recherche est utile pour les recherches numériques:
- Lorsqu'il est associé à une application en texte intégral. Par exemple, pour rechercher un e-mail avec l'objet Image et d'une taille supérieure à 1 Mo.
- Lorsqu'il fait partie d'une intersection de conditions décrites précédemment.
Par exemple, pour trouver des produits où
color = "yellow" AND size = 14 AND rating >= 4.5
. - Lorsque vous recherchez l'intersection de colonnes numériques. Par exemple, considérons une table stockant les heures de début et de fin des événements. Les index de recherche peuvent implémenter efficacement une requête qui recherche des événements ayant eu lieu à un moment donné:
start_time <= @p AND end_time > @p
.
Pour en savoir plus, consultez la section Index numériques.
Étapes de la recherche en texte intégral
Dans Spanner, la recherche en texte intégral nécessite les étapes suivantes:
- Tokenisez un document à l'aide des fonctions de tokeniseur Spanner, telles que
TOKENIZE_SUBSTRING
. Pour en savoir plus, consultez la section Tokenisation. - Créez un index de recherche pour stocker les jetons à l'aide de l'instruction LDD
CREATE SEARCH INDEX
. Pour en savoir plus, consultez la section Index de recherche. - Interrogez les documents de l'index de recherche à l'aide de la fonction Spanner
SEARCH
. Pour en savoir plus, consultez la section Présentation des requêtes. - Classez les résultats de la requête à l'aide de la fonction Spanner
SCORE
. Pour en savoir plus, consultez Classer les résultats de recherche.
Limites
- La recherche en texte intégral n'est pas compatible avec Assured Workloads.
Tarifs
Aucuns frais supplémentaires ne sont facturés par Spanner lorsque vous utilisez la recherche en texte intégral, bien que l'implémentation de la recherche en texte intégral augmente les coûts en raison de la nécessité de ressources de calcul et de stockage supplémentaires.
Pour en savoir plus, consultez la page Tarifs de Spanner.
Étape suivante
- Découvrez la tokenisation et les tokenizers Spanner.
- En savoir plus sur les index de recherche
- En savoir plus sur les requêtes de recherche en texte intégral