Criar índices

Nesta página, descrevemos como usar incorporações armazenadas para gerar índices e consultar incorporações usando índices ScaNN, IVF, IVFFlat e HNSW com o AlloyDB para PostgreSQL. Para mais informações sobre como armazenar embeddings, consulte Armazenar embeddings de vetor.

Antes de começar

Antes de começar a criar índices, conclua os seguintes pré-requisitos.

Os vetores de embedding são adicionados a uma tabela no banco de dados do AlloyDB.
A versão 0.5.0 ou mais recente da extensão vector, baseada em pgvector e estendida pelo Google para o AlloyDB, está instalada.
```
CREATE EXTENSION IF NOT EXISTS vector;
```
Para gerar índices ScaNN, instale a extensão alloydb_scann além da extensão vector.
```
CREATE EXTENSION IF NOT EXISTS alloydb_scann;
```

Criar um índice

É possível criar um dos seguintes tipos de índice para tabelas no seu banco de dados.

Criar um índice `ScaNN`

O AlloyDB alloydb_scann, uma extensão do PostgreSQL desenvolvida pelo Google que implementa um índice de vizinho mais próximo altamente eficiente com tecnologia do algoritmo ScaNN.

O índice ScaNN é um índice de quantização baseado em árvore para pesquisa aproximada de vizinho mais próximo. Ele oferece um tempo de criação de índice menor e um consumo de memória menor em comparação com HNSW. Além disso, ele oferece QPS mais rápido em comparação com HNSW com base na carga de trabalho.

Índice de árvore de dois níveis `ScaNN`

Para aplicar um índice de árvore de dois níveis usando o algoritmo ScaNN a uma coluna que contém embeddings de vetores armazenados, execute a seguinte consulta DDL:

CREATE INDEX INDEX_NAME ON TABLE
  USING scann (EMBEDDING_COLUMN DISTANCE_FUNCTION)
  WITH (num_leaves=NUM_LEAVES_VALUE);

Substitua:

INDEX_NAME: o nome do índice que você quer criar, por exemplo, my-scann-index. Os nomes de índice são compartilhados em todo o banco de dados. Verifique se cada nome de índice é exclusivo para cada tabela no banco de dados.
TABLE: a tabela em que o índice será adicionado.
EMBEDDING_COLUMN: uma coluna que armazena dados de vector.
DISTANCE_FUNCTION: a função de distância a ser usada com esse índice. Escolha uma destas opções:
- Distância de L2: l2
- Produto escalar: dot_product
- Distância do cosseno: cosine
NUM_LEAVES_VALUE: o número de partições a serem aplicadas a esse índice. Definido como qualquer valor entre 1 e 1.048.576. Para mais informações sobre como decidir esse valor, consulte Ajustar um índice ScaNN.

Índice de árvore de três níveis `ScaNN`

Para criar um índice de árvore de três níveis usando o algoritmo ScaNN em uma coluna que contém embeddings de vetores armazenados, execute a seguinte consulta DDL:

CREATE INDEX INDEX_NAME ON TABLE
  USING scann (EMBEDDING_COLUMN DISTANCE_FUNCTION)
  WITH (num_leaves=NUM_LEAVES_VALUE, max_num_levels = MAX_NUM_LEVELS);

Substitua:

MAX_NUM_LEVELS: o número máximo de níveis da árvore de agrupamento K-means. Defina como 1(padrão) para quantização de dois níveis baseada em árvore e como 2 para quantização de três níveis baseada em árvore.

Depois de criar o índice, siga as instruções em Fazer uma consulta de vizinho mais próximo com um texto fornecido para executar consultas de pesquisa de vizinho mais próximo que usam o índice.

Os parâmetros de índice precisam ser definidos para encontrar o equilíbrio certo entre QPS e recall. Para mais informações sobre como ajustar o índice ScaNN, consulte Ajustar um índice ScaNN.

Para criar esse índice em uma coluna incorporada que usa o tipo de dados real[] em vez de vector, converta a coluna no tipo de dados vector:

CREATE INDEX INDEX_NAME ON TABLE
  USING scann (CAST(EMBEDDING_COLUMN AS vector(DIMENSIONS)) DISTANCE_FUNCTION)
  WITH (num_leaves=NUM_LEAVES_VALUE, max_num_levels = MAX_NUM_LEVELS);

Substitua DIMENSIONS pela largura dimensional da coluna de embedding. Para mais informações sobre como encontrar as dimensões, consulte a função vector_dims em Funções de vetor.

Para ter uma experiência de pesquisa consistente, ative a manutenção automática ao criar um índice ScaNN. Para mais informações, consulte Manter índices vetoriais. Esse recurso está disponível em Pré-lançamento.

Para conferir o progresso da indexação, use a visualização pg_stat_progress_create_index:

SELECT * FROM pg_stat_progress_create_index;

A coluna phase mostra o estado atual da criação do índice, e a fase building index: tree training desaparece depois que o índice é criado.

Para ajustar seu índice para um recall desejado e um equilíbrio de QPS, consulte Ajustar um índice ScaNN.

Analisar a tabela indexada

Depois de criar o índice ScaNN, execute o comando ANALYZE para atualizar as estatísticas sobre seus dados.

ANALYZE TABLE;

Criar índices em paralelo

Para criar seu índice mais rápido, o AlloyDB pode gerar automaticamente vários workers paralelos, dependendo do conjunto de dados e do tipo de índice escolhido.

A criação de índice paralela geralmente é acionada se você estiver criando um índice ScaNN de três níveis ou se o conjunto de dados exceder 100 milhões de linhas.

Embora o AlloyDB otimize automaticamente o número de workers paralelos, é possível ajustar esses workers usando os parâmetros de planejamento de consultas do PostgreSQL max_parallel_maintenance_workers, max_parallel_workers e min_parallel_table_scan_size.

Executar uma consulta usando pgvector

Depois de armazenar e indexar os embeddings no banco de dados, você pode começar a consultar usando a funcionalidade de consulta pgvector. Não é possível executar consultas de pesquisa em massa usando a extensão alloydb_scann.

Para encontrar os vizinhos semânticos mais próximos de um vetor de embedding, execute a consulta de exemplo a seguir, em que você define a mesma função de distância usada durante a criação do índice.

  SELECT * FROM TABLE
    ORDER BY EMBEDDING_COLUMN DISTANCE_FUNCTION_QUERY ['EMBEDDING']
    LIMIT ROW_COUNT

Substitua o seguinte:

TABLE: a tabela que contém o embedding com o qual você vai comparar o texto.
INDEX_NAME: o nome do índice que você quer usar. Por exemplo, my-scann-index.
EMBEDDING_COLUMN: a coluna que contém os embeddings armazenados.
DISTANCE_FUNCTION_QUERY: a função de distância a ser usada com essa consulta. Escolha uma das seguintes opções com base na função de distância usada ao criar o índice:
- Distância de L2: <->
- Produto interno: <#>
- Distância do cosseno: <=>
EMBEDDING: o vetor de embedding para encontrar os vizinhos semânticos armazenados mais próximos.
ROW_COUNT: o número de linhas que serão retornadas.

Especifique 1 se você quiser apenas a melhor correspondência.

Para mais exemplos de consultas, consulte Consultas.

Você também pode usar a função embedding() para traduzir o texto em um vetor. Você aplica o vetor a um dos operadores de vizinho mais próximo pgvector, <-> para distância L2, para encontrar as linhas do banco de dados com os embeddings mais semanticamente semelhantes.

Como embedding() retorna uma matriz real, é necessário transmitir explicitamente a chamada embedding() para vector para usar esses valores com operadores pgvector.

Criar índices Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Antes de começar

Criar um índice

Criar um índice ScaNN

Índice de árvore de dois níveis ScaNN

Índice de árvore de três níveis ScaNN