Parâmetros de configuração do índice

Para configurar os índices para pesquisas de semelhanças, tem de configurar os seguintes campos.

Para ver instruções sobre como configurar um índice, consulte o artigo Configure parâmetros de índice.

Campos
contentsDeltaUri

string

Permite inserir, atualizar ou eliminar o conteúdo da pesquisa vetorial Index. A string tem de ser um caminho de diretório do Cloud Storage válido, como gs://BUCKET_NAME/PATH_TO_INDEX_DIR/.

Se definir este campo quando chamar o IndexService.UpdateIndex, nenhum outro campo Index também pode ser atualizado como parte da mesma chamada. Saiba como estruturar ficheiros de dados individuais.

isCompleteOverwrite

boolean

Se este campo for definido juntamente com contentsDeltaUri quando chamar IndexService.UpdateIndex, o conteúdo existente de Index é substituído pelos dados de contentsDeltaUri. Quando este campo está definido como verdadeiro, o índice inteiro é completamente substituído pelo novo ficheiro de metadados que fornecer.

config

NearestNeighborSearchConfig

A configuração da pesquisa vetorial Index.

NearestNeighborSearchConfig

Campos
dimensions

int32

Obrigatório. O número de dimensões dos vetores de entrada. Usado apenas para incorporações densas.

approximateNeighborsCount

int32

Obrigatório se for usado o algoritmo tree-AH.

O número predefinido de vizinhos a encontrar através da pesquisa aproximada antes de ser realizada a reordenação exata. A reordenação exata é um procedimento em que os resultados devolvidos por um algoritmo de pesquisa aproximado são reordenados através de um cálculo de distância mais dispendioso.

ShardSize ShardSize

O tamanho de cada fragmento. Quando um índice é grande, é dividido em partições com base no tamanho da partição especificado. Durante a publicação, cada fragmento é publicado num nó separado e é dimensionado de forma independente.

distanceMeasureType

DistanceMeasureType

A medida de distância usada na pesquisa de vizinho mais próximo.

featureNormType

FeatureNormType

Tipo de normalização a realizar em cada vetor.

algorithmConfig oneOf:

A configuração dos algoritmos que a pesquisa vetorial usa para uma pesquisa eficiente. Usado apenas para incorporações densas.

  • TreeAhConfig: Opções de configuração para usar o algoritmo tree-AH. Para mais informações, consulte esta publicação no blogue Escalar a obtenção detalhada com o TensorFlow Recommenders e a pesquisa vetorial
  • BruteForceConfig: esta opção implementa a pesquisa linear padrão na base de dados para cada consulta. Não existem campos para configurar para uma pesquisa de força bruta. Para selecionar este algoritmo, transmita um objeto vazio para BruteForceConfig.

DistanceMeasureType

Enumerações
SQUARED_L2_DISTANCE Distância euclidiana (L2)
L1_DISTANCE Distância de Manhattan (L1)
DOT_PRODUCT_DISTANCE Valor predefinido. Definida como o negativo do produto escalar.
COSINE_DISTANCE Distância do cosseno. Recomendamos vivamente que use DOT_PRODUCT_DISTANCE + UNIT_L2_NORM em vez da distância COSINE. Os nossos algoritmos foram mais otimizados para a distância DOT_PRODUCT e, quando combinados com UNIT_L2_NORM, oferecem a mesma classificação e equivalência matemática que a distância COSINE.

ShardSize

Enumerações
SHARD_SIZE_SMALL 2 GiB por fragmento
SHARD_SIZE_MEDIUM 20 GiB por fragmento
SHARD_SIZE_LARGE 50 GiB por fragmento

FeatureNormType

Enumerações
UNIT_L2_NORM Tipo de normalização da unidade L2.
NONE Valor predefinido. Não foi especificado nenhum tipo de normalização.

TreeAhConfig

Estes são os campos a selecionar para o algoritmo de AH de árvore.

Campos
fractionLeafNodesToSearch double
A fração predefinida de nós folha que qualquer consulta pode pesquisar. Tem de estar no intervalo 0,0 a 1,0, exclusivo. O valor predefinido é 0,05 se não estiver definido.
leafNodeEmbeddingCount int32
Número de incorporações em cada nó folha. O valor predefinido é 1000 se não estiver definido.
leafNodesToSearchPercent int32
Descontinuado, use fractionLeafNodesToSearch.

A percentagem predefinida de nós folha que qualquer consulta pode pesquisar. Tem de estar no intervalo de 1 a 100, inclusive. O valor predefinido é 10 (o que significa 10%) se não estiver definido.

BruteForceConfig

Esta opção implementa a pesquisa linear padrão na base de dados para cada consulta. Não existem campos para configurar para uma pesquisa de força bruta. Para selecionar este algoritmo, transmita um objeto vazio para BruteForceConfig para algorithmConfig.