Parâmetros de configuração de índice

Para configurar índices para pesquisas de semelhança, é preciso configurar os campos a seguir.

Para instruções sobre como configurar um índice, consulte Configurar parâmetros de índice.

Campos
contentsDeltaUri

string

Permite inserir, atualizar ou excluir o conteúdo da Vector Search Index. A string precisa ser um caminho de diretório válido do Cloud Storage, como gs://BUCKET_NAME/PATH_TO_INDEX_DIR/.

Se você definir esse campo ao chamar IndexService.UpdateIndex, nenhum outro campo Index também poderá ser atualizado como parte da mesma chamada. Saiba como estruturar arquivos de dados individuais.

isCompleteOverwrite

boolean

Se esse campo for definido com contentsDeltaUri ao chamar IndexService.UpdateIndex, o conteúdo existente do Index será substituído pelos dados do contentsDeltaUri. Quando esse campo é definido como verdadeiro, o índice inteiro é substituído completamente pelo novo arquivo de metadados fornecido.

config

NearestNeighborSearchConfig

A configuração da Pesquisa de vetor Index.

NearestNeighborSearchConfig

Campos
dimensions

int32

Obrigatório. O número de dimensões dos vetores de entrada. Usado apenas para embeddings densos.

approximateNeighborsCount

int32

Obrigatório se o algoritmo tree-AH for usado.

O número padrão de vizinhos que será encontrado por meio da pesquisa de aproximação antes da reordenação exata ser realizada. A reordenação exata é um procedimento em que os resultados retornados por um algoritmo de pesquisa aproximada são reordenados usando um cálculo de distância mais caro.

ShardSize ShardSize

O tamanho de cada fragmento. Quando um índice é grande, ele é fragmentado com base no tamanho do fragmento especificado. Durante a disponibilização, cada fragmento é exibido em um nó separado e é escalonado de maneira independente.

distanceMeasureType

DistanceMeasureType

A medida de distância usada na pesquisa de vizinho mais próxima.

featureNormType

FeatureNormType

Tipo de normalização a ser realizada em cada vetor.

algorithmConfig oneOf:

A configuração dos algoritmos usados pelo Vector Search para uma pesquisa eficiente. Usado apenas para embeddings densos.

DistanceMeasureType

Enums
SQUARED_L2_DISTANCE Distância euclidiana (L2)
L1_DISTANCE Distância de Manhattan (L1)
DOT_PRODUCT_DISTANCE Valor padrão. Definido como um negativo do produto de ponto.
COSINE_DISTANCE Distância do cosseno. Sugerimos usar DOT_PRODUCT_DISTANCE + UNIT_L2_NORM em vez da distância COSINE. Nossos algoritmos foram mais otimizados para a distância DOT_PRODUCT e, quando combinado com UNIT_L2_NORM, oferece a mesma classificação e equivalência matemática que a distância COSINE.

ShardSize

Enums
SHARD_SIZE_SMALL 2 GiB por fragmento
SHARD_SIZE_MEDIUM 20 GiB por fragmento
SHARD_SIZE_LARGE 50 GiB por fragmento

FeatureNormType

Enums
UNIT_L2_NORM Tipo de normalização da unidade L2.
NONE Valor padrão. Nenhum tipo de normalização foi especificado.

TreeAhConfig

Esses são os campos a serem selecionados para o algoritmo tree-AH.

Campos
fractionLeafNodesToSearch double
A porcentagem padrão de nós de folha em que qualquer consulta pode ser pesquisada. Precisa estar entre 0,0 e 1,0, exclusivamente. Se não for definido, o valor padrão será 0.05.
leafNodeEmbeddingCount int32
Número de embeddings em cada nó de folha. Se não for definido, o valor padrão será 1.000.
leafNodesToSearchPercent int32
fractionLeafNodesToSearchObsoleto: use .

A porcentagem padrão de nós de folha em que qualquer consulta pode ser pesquisada. Precisa estar no intervalo 1-100, inclusive. Se não for definido, o valor padrão será 10 (significa 10%).

BruteForceConfig

Essa opção implementa a pesquisa linear padrão no banco de dados para cada consulta. Não há campos para configurar para uma pesquisa de força bruta. Para selecionar esse algoritmo, transmita um objeto vazio de BruteForceConfig para algorithmConfig.