向量索引

本页介绍了如何将向量存储在哈希中。哈希提供了一种在 Redis 中存储向量的有效方式。

数据序列化

在将向量存储到 Redis 哈希中之前,需要将向量转换为 Redis 可识别的格式。它需要将向量序列化为二进制 blob,其中大小等于数据类型的字节大小(例如,4(对于 FLOAT32)乘以向量的维度数。对于数值向量,一种热门选择是 Python NumPy 库

连接到 Redis

在将向量存储到哈希中之前,请使用 redis-py 等客户端与 Redis 实例建立连接:

将向量存储在哈希中

Redis 哈希与字典类似,包含键值对。使用 Redis HSET 命令存储序列化向量:

import numpy as np
import redis

# Sample vector
vector = np.array([1.2, 3.5, -0.8], dtype=np.float32) # 3-dimensional vector

# Serialize to a binary blob
serialized_vector = vector.tobytes()

redis_client = redis.cluster.RedisCluster(host='your_redis_host', port=6379)

redis_client.hset('vector_storage', 'vector_key', serialized_vector)  # 'vector_key' is a unique identifier
  • 为确保成功编入索引,您的向量数据必须符合索引架构中设置的维度和数据类型。

回填索引

在以下任一场景中,可能会发生回填索引的情况:

  • 创建索引后,回填过程会扫描 Redis 键空间,查找符合索引过滤条件的条目。
  • 向量索引及其数据会持久保存在 RDB 快照中。加载 RDB 文件时,系统会触发自动索引回填流程。此过程会主动检测自创建 RDB 快照以来索引中的任何新增或修改的条目,从而保持索引完整性并确保结果是最新的。