Paramètres de configuration des index

Pour configurer des index pour les recherches de similarités, vous devez définir les champs ci-dessous. Pour obtenir des instructions sur la configuration d'un index, consultez la page Configurer les paramètres d'index.

Champs
contentsDeltaUri

string

Permet d'insérer, de mettre à jour ou de supprimer le contenu de l'Index Vector Search. La chaîne doit être un chemin d'accès Cloud Storage valide, tel que gs://BUCKET_NAME/PATH_TO_INDEX_DIR/.

Si vous définissez ce champ lorsque vous appelez IndexService.UpdateIndex, aucun autre champ Index ne peut également être mis à jour dans le cadre du même appel. Découvrez comment structurer des fichiers de données individuels.

isCompleteOverwrite

boolean

Si ce champ est défini avec contentsDeltaUri lors de l'appel de IndexService.UpdateIndex, le contenu existant de l'Index est remplacé par les données de contentsDeltaUri.

config

NearestNeighborSearchConfig

Configuration de l'Index Vector Search.

NearestNeighborSearchConfig

Champs
dimensions

int32

Obligatoire. Nombre de dimensions des vecteurs d'entrée.

approximateNeighborsCount

int32

Obligatoire si l'algorithme "tree-AH" est utilisé.

Nombre de voisins par défaut à rechercher via la recherche approximative avant la réorganisation exacte. La réorganisation exacte est une procédure dans laquelle les résultats renvoyés par un algorithme de recherche approximatif sont réorganisés à l'aide d'un calcul de distance plus coûteux.

ShardSize ShardSize

Taille de chaque segment. Lorsqu'un index est volumineux, il est segmenté en fonction de la taille de partition spécifiée. Pendant la diffusion, chaque segment est diffusé sur un nœud distinct et évolue indépendamment.

distanceMeasureType

DistanceMeasureType

Mesure de distance utilisée par la recherche de voisin le plus proche.

featureNormType

FeatureNormType

Type de normalisation à exécuter sur chaque vecteur.

algorithmConfig oneOf:

Configuration des algorithmes utilisés par Vector Search pour une recherche efficace.

DistanceMeasureType

Enums
SQUARED_L2_DISTANCE Distance euclidienne (L2)
L1_DISTANCE Distance de Manhattan (L1)
DOT_PRODUCT_DISTANCE Valeur par défaut. Définie comme le négatif du produit scalaire.
COSINE_DISTANCE Distance de cosinus. Nous vous recommandons vivement d'utiliser DOT_PRODUCT_DISTANCE + UNIT_L2_NORM au lieu de la distance COSINE. Nos algorithmes ont été plus optimisés pour la distance DOT_Product et, lorsqu'ils sont associés à UNIT_L2_NORM, offrent le même classement et l'équivalence mathématique que la distance COSINE.

ShardSize

Enums
SHARD_SIZE_SMALL 2 Gio par segment
SHADE_SIZE_MEDIUM 20 Gio par segment
SHADE_SIZE_LARGE 50 Gio par segment

FeatureNormType

Enums
UNIT_L2_NORM Type de normalisation de l'unité L2.
NONE Valeur par défaut. Aucun type de normalisation n'est spécifié.

TreeAhConfig

Il s'agit des champs à sélectionner pour l'algorithme "tree-AH".

Champs
fractionLeafNodesToSearch double
Fraction par défaut de nœuds feuilles pouvant être recherchés par n'importe quelle requête. Doit être compris entre 0 et 1 (exclus). Si ce nombre n'est pas défini, la valeur par défaut est 0.05.
leafNodeEmbeddingCount int32
Nombre de représentations vectorielles continues sur chaque nœud feuille. Si ce nombre n'est pas défini, la valeur par défaut est 1 000.
leafNodesToSearchPercent int32
Obsolète : utilisez fractionLeafNodesToSearch.

Pourcentage par défaut de nœuds feuilles pouvant être recherchés par n'importe quelle requête. Doit être compris entre 1 et 100 (inclus). La valeur par défaut est 10 (soit 10 %) si elle n'est pas définie.

BruteForceConfig

Cette option met en œuvre la recherche linéaire standard dans la base de données pour chaque requête. Il n'y a aucun champ à configurer pour une recherche par force brute. Pour sélectionner cet algorithme, transmettez un objet vide pour BruteForceConfig à algorithmConfig.