Bonnes pratiques de Search

Ce document recommande les bonnes pratiques pour l'API Search. Nous utilisons ici des guillemets simples (‘’) pour délimiter les chaînes de requête. De cette manière, lorsqu'une requête contient des expressions de plusieurs mots entourées de guillemets doubles, elle peut être délimitée sans confusion : ‘field:"some text" some-value’.

Appels par lots Index.put() et Index.delete()

Vous pouvez transmettre jusqu'à 200 documents à la fois lorsque vous les ajoutez ou les supprimez d'un index. Cette méthode est beaucoup plus efficace que de les traiter un par un.

Utilisez le classement de documents pour effectuer un prétri des documents

Par défaut, la recherche renvoie ses résultats par ordre décroissant. De plus, l'API Recherche Google définit par défaut le classement de chaque document en secondes depuis le 1er janvier 2011. Les documents les plus récents sont alors affichés en premier. Toutefois, si vous n'avez pas besoin que les documents soient triés en fonction de leur date d'ajout, vous pouvez utiliser le classement à d'autres fins. Supposons que vous ayez une application pour une activité dans l'immobilier. Le classement par prix des biens proposés est le plus plébiscité des clients. Pour que le tri par défaut soit pertinent, vous pouvez alors définir le classement en fonction du prix du logement.

Si vous avez besoin de plusieurs ordres de tri, tels que le prix croissant et le prix décroissant, vous pouvez créer un index distinct pour chaque ordre. L'un des index serait ainsi de type "rank = price" et l'autre "rank = MAXINT-price" (puisque le classement doit être positif).

L'utilisation de "rank" comme clé de tri améliore les performances de recherche. Pour spécifier d'autres clés de tri, vous devez utiliser les options de tri qui limitent le nombre de résultats de recherche à 10 000 documents. Dans ce cas, c'est l'ordre de tri défini par le classement qui va déterminer les documents à inclure dans le tri. Consultez la section relative aux options de tri pour en savoir plus.

Utilisez des champs atomiques pour les données booléennes

Le stockage de données booléennes dans des champs numériques est une méthode très inefficace. Utilisez plutôt des champs atomiques et affectez les constantes de votre choix ("True/False", "yes/no", 0/1).

Transformez les négatifs en positifs

Supposons que vous ayez un terme spécial pour identifier les restaurants dont le type de cuisine n'est pas défini. Si vous souhaitez exclure ces restaurants de la recherche, vous pouvez utiliser comme requête ‘NOT cuisine:undefined’. Ce type d'évaluation est plus coûteux (en matière d'opérations facturables et de temps de calcul) que l'évaluation contraire, à savoir rechercher les restaurants dont le type de cuisine est défini. Plutôt que d'utiliser le seul champ du type de cuisine, vous pouvez en utiliser deux, cuisine et cuisine_known, ce dernier étant un champ atomique. Pour les restaurants dont le type de cuisine est défini, vous définissez alors le premier champ sur le type de cuisine concerné, et le second sur "yes". Pour les restaurants dont vous ne connaissez pas le type de cuisine, vous définissez "cuisine" sur "" (chaîne vide) et cuisine_known sur "no". Pour trouver à présent des restaurants dont le type de cuisine est défini, lancez une requête ‘cuisine_known:yes’, beaucoup plus rapide que la négation.

Transformez les disjonctions en conjonctions

La disjonction "OR" est une opération coûteuse à la fois en opérations facturables et en temps de calcul. Supposons que vous souhaitiez lancer une recherche à l'aide de la requête ‘cuisine:Japanese OR cuisine:Korean’. L'idée est alors d'indexer les documents à l'aide de types de cuisine plus généraux. Dans le cas présent, la requête peut être simplifiée en ‘cuisine:Asian’.

Éliminez les tautologies de vos requêtes

Supposons que vous souhaitiez trouver tous les restaurants de Toronto. En partant du principe que vos documents ne contiennent qu'un seul champ nommé "city", si vous utilisez la requête ‘city:toronto AND NOT city:montreal’, vous obtenez les mêmes résultats qu'avec la requête ‘city:toronto’. En effet, si la ville est définie sur "toronto", elle ne peut pas être définie sur "montreal". La deuxième requête s'exécute beaucoup plus rapidement, car elle n'implique qu'un seul terme. La première requête réalise trois étapes. Premièrement, elle trouve la liste des documents dans lesquels le champ "city" est défini sur "toronto". Deuxièmement, elle trouve la liste de toutes les villes pour lesquelles le champ "city" n'est pas défini sur "montreal". Enfin, elle calcule l'intersection des deux listes.

Appliquez une restriction sur la plage avant le tri

Supposons que votre application stocke des informations sur des restaurants du monde entier, et que vous souhaitiez afficher les restaurants les plus proches de l'utilisateur actuel. Pour cela, vous pouvez trier les documents correspondants en fonction de la distance qui les sépare de l'emplacement de l'utilisateur. Toutefois, si vous avez 1 000 000 de restaurants à trier, lancer une requête du type ‘cuisine:japanese’ avec l'expression de tri distance(geopoint(x, y), restaurant_loc) prendra beaucoup de temps. Nous vous recommandons d'ajouter des filtres à une requête, pour commencer avec un ensemble des principaux documents à trier. Une solution consiste à créer des catégories géographiques, telles que le pays, l'État et la ville. Vous pouvez déduire la ville et l'État à partir de l'emplacement de l'utilisateur. Votre requête devient alors ‘cuisine:japanese AND city:<user-city>’. Il est très probable alors que vous n'ayez plus besoin de trier 1 000 000 de documents.

Utilisez des catégories restreintes pour éviter ou minimiser le tri

Si vous utilisez le classement pour trier les restaurants par prix, vous pouvez créer un champ price_range contenant les catégories de prix suivantes : price_0_10, price_11_20, price_21_30, price_31_40, price_41_lots. Vous pouvez ensuite trouver tous les restaurants dont les prix sont compris entre 21 $ et 40 $ sans aucun tri, à l'aide de la requête ‘price_range:price_21_30 OR price_range:price_31_40’. Dans de nombreux cas, les catégories appropriées ne sont pas aussi bien définies. Toutefois, avec cette technique, vous pouvez exclure un grand nombre de documents avant de lancer la recherche avec des requêtes coûteuses telles que ‘... AND price>25 AND price<35’.

N'attribuez pas de note aux correspondances, sauf si c'est nécessaire

La notation est utilisée pour indiquer la mesure dans laquelle un document donné correspond à une requête. Toutefois, à moins que vous n'ayez l'intention de trier les documents par note, ne demandez pas leur notation. Cette étape ne ferait que ralentir votre recherche.

Cette page vous a-t-elle été utile ? Évaluez-la :

Envoyer des commentaires concernant…

Environnement standard App Engine pour Python 2