Cette page a été traduite par l'API Cloud Translation.

Indexer des vecteurs

Cette page explique comment stocker des vecteurs dans des hachages. Les hachages permettent de stocker efficacement des vecteurs dans Redis.

Sérialisation des données

Avant de stocker des vecteurs dans un type de données de hachage, vous devez les convertir dans un format compatible avec Memorystore pour Redis. Elle nécessite la sérialisation de vecteurs dans des blobs binaires dont la taille est égale à la taille en octets du type de données (par exemple, 4 pour FLOAT32) multiplié par le nombre de dimensions du vecteur. La bibliothèque NumPy Python est un choix populaire pour les vecteurs numériques:

Se connecter à Redis

Avant de stocker le vecteur dans un hachage, établissez une connexion à votre instance Memorystore pour Redis à l'aide d'un client compatible avec OSS Redis, comme redis-py:

Stocker le vecteur dans un hachage

Les hachages sont comme des dictionnaires, avec des paires clé-valeur. Utilisez la commande HSET pour stocker votre vecteur sérialisé:

import numpy as np
import redis

# Sample vector
vector = np.array([1.2, 3.5, -0.8], dtype=np.float32) # 3-dimensional vector

# Serialize to a binary blob
serialized_vector = vector.tobytes()

redis_client = redis.Redis(host='your_redis_host', port=6379)

redis_client.hset('vector_storage', 'vector_key', serialized_vector)  # 'vector_key' is a unique identifier

Pour que l'indexation soit efficace, vos données vectorielles doivent respecter les dimensions et le type de données définis dans le schéma de l'index.

Remplissage des index

Le remplissage des index peut se produire dans l'un des scénarios suivants:

Une fois un indice créé, la procédure de remplissage analyse l'espace de clés à la recherche d'entrées qui répondent aux critères de filtre de l'indice.
Les index vectoriels et leurs données sont conservés dans des instantanés RDB. Lorsqu'un fichier RDB est chargé, un processus automatique de remplissage de l'index est déclenché. Ce processus détecte et intègre activement les entrées nouvelles ou modifiées dans l'index depuis la création de l'instantané du RDB, ce qui permet de maintenir l'intégrité de l'index et de garantir les résultats actuels.