Questa pagina descrive le best practice per l'indicizzazione vettoriale che ottimizzano gli indici vettoriali e migliorano i risultati delle query di ricerca approssimativa del vicino più prossimo (ANN).
Ottimizza le opzioni di ricerca vettoriale
I valori più ottimali per le opzioni dell'indice vettoriale dipendono dal caso d'uso,
dal set di dati vettoriali e dai vettori di query. Puoi impostare e ottimizzare questi valori
creando un nuovo indice vettoriale e impostando index_option_list
nell'istruzione CREATE VECTOR INDEX
. Potresti dover eseguire una messa a punto iterativa per trovare i valori migliori per il tuo carico di lavoro specifico.
Ecco alcune linee guida utili da seguire quando scegli i valori appropriati:
tree_depth
(livello dell'albero): se la tabella che stai indicizzando ha meno di 10 milioni di righe, utilizza untree_depth
di2
. In caso contrario, untree_depth
di3
supporta tabelle con un massimo di circa 10 miliardi di righe.num_leaves
: utilizza la radice quadrata del numero di righe nel set di dati. Un valore maggiore può aumentare il tempo di creazione dell'indice vettoriale. Evita di impostarenum_leaves
superiore atable_row_count
diviso per 1000, in quanto ciò comporta foglie eccessivamente piccole e prestazioni scarse.num_leaves_to_search
: questa opzione specifica il numero di nodi foglia dell'indice che vengono cercati. L'aumento dinum_leaves_to_search
migliora il richiamo, ma aumenta anche la latenza e i costi. Ti consigliamo di utilizzare un numero pari all'1% del numero totale di foglie definito nell'istruzioneCREATE VECTOR INDEX
come valore pernum_leaves_to_search
. Se utilizzi una clausola di filtro, aumenta questo valore per ampliare la ricerca.
Se si ottiene un richiamo accettabile, ma il costo delle query è troppo elevato,
con conseguente basso QPS massimo, prova ad aumentare num_leaves
seguendo questi
passaggi:
- Imposta
num_leaves
su un multiplo k del suo valore originale (ad esempio,2 * sqrt(table_row_count)
). - Imposta
num_leaves_to_search
in modo che sia lo stesso multiplo k del suo valore originale. - Prova a ridurre
num_leaves_to_search
per migliorare il costo e le QPS mantenendo il richiamo.
Migliorare il ricordo
Per migliorare il richiamo, valuta la possibilità di ottimizzare il valore di num_leaves_to_search
o
di ricompilare l'indice vettoriale.
Aumenta il valore di num_leaves_to_search
Se il valore di num_leaves_to_search
è troppo piccolo, potrebbe essere più
difficile trovare i vicini più vicini per alcuni vettori di query. La creazione di un nuovo
indice vettoriale con un valore num_leaves_to_search
maggiore può contribuire a migliorare
il richiamo cercando più foglie. Le query recenti potrebbero contenere un numero maggiore di questi
vettori difficili.
Ricrea l'indice vettoriale
La struttura ad albero dell'indice vettoriale viene ottimizzata per il set di dati al momento della creazione e rimane statica in seguito. Pertanto, se vengono aggiunti vettori significativamente diversi dopo la creazione dell'indice vettoriale iniziale, la struttura ad albero potrebbe non essere ottimale, con conseguente richiamo peggiore.
Per ricompilare l'indice vettoriale senza tempi di inattività:
- Crea un nuovo indice vettoriale nella stessa colonna di incorporamento dell'indice vettoriale attuale, aggiornando i parametri (ad esempio
OPTIONS
) in base alle esigenze. - Una volta completata la creazione dell'indice, utilizza il suggerimento
FORCE_INDEX
per indicare il nuovo indice per aggiornare la query di ricerca vettoriale. In questo modo la query utilizza il nuovo indice vettoriale. Potresti anche dover eseguire di nuovo l'ottimizzazionenum_leaves_to_search
nella nuova query. - Elimina l'indice vettoriale obsoleto.
Passaggi successivi
Scopri di più sugli indici vettoriali di Spanner.
Scopri di più sugli approssimativi vicini più prossimi di Spanner.
Scopri di più sulle funzioni GoogleSQL
APPROXIMATE_COSINE_DISTANCE()
,APPROXIMATE_EUCLIDEAN_DISTANCE()
,APPROXIMATE_DOT_PRODUCT()
.Scopri di più sulle istruzioni
VECTOR INDEX
GoogleSQL.