Indici di ricerca

Questa pagina descrive come aggiungere indici di ricerca. La ricerca a testo intero viene eseguita sulle voci nell'indice di ricerca.

Come utilizzare gli indici di ricerca

Puoi creare un indice di ricerca per tutte le colonne che vuoi mettere a disposizione per le ricerche a testo intero. Per creare un indice di ricerca, utilizza l'istruzione DDL CREATE SEARCH INDEX. Per aggiornare un indice, utilizza l'istruzione DDL ALTER SEARCH INDEX. Spanner crea e gestisce automaticamente l'indice di ricerca, inclusa l'aggiunta e l'aggiornamento dei dati nell'indice di ricerca non appena vengono modificati nel database.

Partizioni dell'indice della Ricerca

Un indice di ricerca può essere partizionato o non partizionato, a seconda del tipo di query che vuoi accelerare.

  • Un esempio di quando un indice partizionato è la scelta migliore è quando l'applicazione esegue query su una casella di posta email. Ogni query è limitata a una casella di posta specifica.

  • Un esempio di quando una query non partizionata è la scelta migliore è quando viene eseguita una query su tutte le categorie di prodotti in un catalogo dei prodotti.

Casi d'uso dell'indice della Ricerca

Oltre alla ricerca a testo intero, gli indici di ricerca di Spanner supportano quanto segue:

  • Ricerche di sottostringhe, che è un tipo di query che cerca una stringa più breve (la sottostringa) all'interno di un corpo di testo più grande.
  • Combinazione di condizioni su qualsiasi sottoinsieme di dati indicizzati in un'unica scansione dell'indice.

Sebbene gli indici di ricerca supportino l'indicizzazione di dati non di testo, come numeri e stringhe con corrispondenza esatta, il caso d'uso più comune per un indice di ricerca è l'indicizzazione del testo in un documento.

Esempio di indice della Ricerca

Per mostrare le funzionalità degli indici di ricerca, supponiamo che esista una tabella che immagazzina informazioni sugli album musicali:

CREATE TABLE Albums (
  AlbumId STRING(MAX) NOT NULL,
  AlbumTitle STRING(MAX)
) PRIMARY KEY(AlbumId);

Spanner dispone di diverse funzioni di tokenizzazione che creano token. Per modificare la tabella precedente in modo che gli utenti possano eseguire una ricerca a testo intero per trovare i titoli degli album, utilizza la funzione TOKENIZE_FULLTEXT per creare token dai titoli degli album. Quindi crea una colonna che utilizzi il tipo di dati TOKENLIST per memorizzare l'output della tokenizzazione di TOKENIZE_FULLTEXT. Per questo esempio, abbiamo creato la colonna AlbumTitle_Tokens.

ALTER TABLE Albums
  ADD COLUMN AlbumTitle_Tokens TOKENLIST
  AS (TOKENIZE_FULLTEXT(AlbumTitle)) HIDDEN;

Il seguente esempio utilizza il DDL CREATE SEARCH INDEX per creare un indice di ricerca (AlbumsIndex) sui token AlbumTitle (AlbumTitle_Tokens):

CREATE SEARCH INDEX AlbumsIndex
  ON Albums(AlbumTitle_Tokens);

Dopo aver aggiunto l'indice di ricerca, utilizza le query SQL per trovare gli album corrispondenti ai criteri di ricerca. Ad esempio:

SELECT AlbumId
FROM Albums
WHERE SEARCH(AlbumTitle_Tokens, "fifth symphony")

Coerenza dei dati

Quando viene creato un indice, Spanner utilizza processi automatici per eseguire il backfill dei dati al fine di garantire la coerenza. Quando le scritture vengono confermate, gli indici vengono aggiornati nella stessa transazione. Spanner esegue automaticamente controlli di coerenza dei dati.

Definizioni dello schema dell'indice della Ricerca

Gli indici di ricerca sono definiti in una o più colonne TOKENLIST di una tabella. Gli indici di ricerca hanno i seguenti componenti:

  • Tabella di base: la tabella Spanner che deve essere indicizzata.
  • Colonna TOKENLIST: una raccolta di colonne che definiscono i token che richiedono l'indicizzazione. L'ordine di queste colonne non è importante.

Ad esempio, nell'istruzione seguente, la tabella di base è Album. Le colonne TOKENLIST vengono create su AlbumTitle (AlbumTitle_Tokens) e Rating (Rating_Tokens).

CREATE TABLE Albums (
  AlbumId STRING(MAX) NOT NULL,
  SingerId INT64 NOT NULL,
  ReleaseTimestamp INT64 NOT NULL,
  AlbumTitle STRING(MAX),
  Rating FLOAT64,
  AlbumTitle_Tokens TOKENLIST AS (TOKENIZE_FULLTEXT(AlbumTitle)) HIDDEN,
  Rating_Tokens TOKENLIST AS (TOKENIZE_NUMBER(Rating)) HIDDEN
) PRIMARY KEY(AlbumId);

Utilizza la seguente dichiarazione CREATE SEARCH INDEX per creare un indice di ricerca utilizzando i token per AlbumTitle e Rating:

CREATE SEARCH INDEX AlbumsIndex
ON Albums(AlbumTitle_Tokens, Rating_Tokens)
PARTITION BY SingerId
ORDER BY ReleaseTimestamp DESC

Gli indici di ricerca hanno le seguenti opzioni:

  • Partizioni: un gruppo facoltativo di colonne che suddivide l'indice di ricerca. Eseguire query su un indice partizionato è spesso molto più efficiente rispetto all'esecuzione di query su un indice non partizionato. Per ulteriori informazioni, consulta Indici di ricerca delle partizioni.
  • Colonna Ordine di ordinamento: una colonna INT64 facoltativa che stabilisce l'ordine di recupero dall'indice di ricerca. Per ulteriori informazioni, consulta Ordine di ordinamento dell'indice di ricerca.
  • Interlacciamento: come per gli indici secondari, puoi interlacciare gli indici di ricerca. Gli indici di ricerca interlacciati utilizzano meno risorse per la scrittura e l'unione con la tabella di base. Per ulteriori informazioni, consulta la sezione Indici di ricerca interlacciati.
  • Clausola opzioni: un elenco di coppie chiave-valore che sostituisce le impostazioni predefinite dell'indice di ricerca.

Per ulteriori informazioni, consulta la documentazione di riferimento di CREATE SEARCH INDEX.

Layout interno degli indici di ricerca

Un elemento importante della rappresentazione interna degli indici di ricerca è un docid, che funge da rappresentazione efficiente in termini di spazio di archiviazione della chiave primaria della tabella di base e può essere di lunghezza arbitraria. Inoltre, crea l'ordine per il layout dei dati interni in base alle colonne ORDER BY fornite dall'utente della clausola CREATE SEARCH INDEX. È rappresentato da uno o due numeri interi a 64 bit.

Gli indici di ricerca vengono implementati internamente come mappatura a due livelli:

  1. Token a docid
  2. Docid alle chiavi primarie della tabella di base

Questo schema consente risparmi di spazio di archiviazione significativi, in quanto Spanner non deve memorizzare la chiave primaria completa della tabella di base per ogni coppia <token, document>.

Esistono due tipi di indici fisici che implementano i due livelli di mappatura:

  1. Un indice secondario che mappa le chiavi di partizione e un docid alla chiave primaria della tabella di base. Nell'esempio della sezione precedente, {SingerId, ReleaseTimestamp, uid} viene mappato a {AlbumId}. L'indice secondario immagazzina inoltre tutte le colonne specificate nella clausola STORING di CREATE SEARCH INDEX.
  2. Un indice di token che mappa i token ai documenti, simile agli indici inversi nella letteratura di recupero delle informazioni. Spanner gestisce un indice dei token separato per ogni TOKENLIST dell'indice di ricerca. Logicamente, gli indici di token gestiscono elenchi di docid per ogni token all'interno di ogni partizione (noti nel recupero delle informazioni come elenchi di posting). Gli elenchi sono ordinati per token per un recupero rapido e, all'interno degli elenchi, viene utilizzato docid per l'ordinamento. Gli indici dei singoli token sono un dettaglio di implementazione non esposto tramite le API Spanner.

Spanner supporta le seguenti quattro opzioni per docid.

Indice della Ricerca Docid Comportamento
La clausola ORDER BY viene omessa per l'indice di ricerca {uid} Spanner aggiunge un valore univoco nascosto (UID) per identificare ogni riga.
ORDER BY column {column, uid} Spanner aggiunge la colonna UID come criterio di parità tra le righe con gli stessi valori column all'interno di una partizione.
ORDER BY column ... OPTIONS (disable_automatic_uid_column=true) {column} La colonna UID non è stata aggiunta. I valori column devono essere univoci all'interno di una partizione.
ORDER BY column1, column2 ... OPTIONS (disable_automatic_uid_column=true) {column1, column2} La colonna UID non è stata aggiunta. La combinazione dei valori column1, column2 deve essere univoca all'interno di una partizione.

Note sull'utilizzo:

  • La colonna UID interna non è esposta tramite l'API Spanner.
  • Negli indici in cui l'UID non viene aggiunto, le transazioni che aggiungono una riga con un valore già esistente (partizione,ordine di ordinamento) non vanno a buon fine.

Ad esempio, considera i seguenti dati:

AlbumId SingerId ReleaseTimestamp SongTitle
a1 1 997 Giornate meravigliose
a2 1 743 Occhi belli

Supponendo che la colonna di preordinamento sia in ordine crescente, i contenuti dell'indice dei token suddivisi per SingerId suddividono i contenuti dell'indice dei token nel seguente modo:

SingerId _token ReleaseTimestamp uid
1 bella 743 uid1
1 bella 997 uid2
1 giorni 743 uid1
1 occhi 997 uid2

Sharding dell'indice della Ricerca

Quando Spanner suddivide una tabella, distribuisce i dati dell'indice di ricerca in modo che tutti i token di una determinata riga della tabella di base si trovino nella stessa suddivisione. In altre parole, l'indice di ricerca è suddiviso in parti in base ai documenti. Questa strategia di suddivisione ha implicazioni significative sul rendimento:

  1. Il numero di server con cui comunica ogni transazione rimane costante, indipendentemente dal numero di token o dal numero di colonne TOKENLIST indicizzate.
  2. Le query di ricerca che coinvolgono più espressioni condizionali vengono eseguite in modo indipendente su ogni suddivisione, evitando il sovraccarico delle prestazioni associato a un join distribuito.

Gli indici di ricerca hanno due modalità di distribuzione:

  • Sharding uniforme (impostazione predefinita). Nello sharding uniforme, i dati indicizzati per ogni riga della tabella di base vengono assegnati in modo casuale a una suddivisione dell'indice di una partizione.
  • Sharding in base all'ordine di ordinamento. Nel partizionamento in base all'ordine di ordinamento, i dati di ogni riga della tabella di base vengono assegnati a una suddivisione dell'indice di una partizione in base alle colonne ORDER BY. Ad esempio, nel caso di un ordinamento decrescente, tutte le righe con i valori di ordinamento più elevati vengono visualizzate nella prima suddivisione dell'indice di una partizione e il gruppo di valori di ordinamento successivo nella suddivisione successiva.

Queste modalità di suddivisione comportano un compromesso tra i rischi di hotspotting e il costo delle query:

  • Gli indici di ricerca suddivisi per ordinamento sono soggetti a hotspot quando l'indice è ordinato in base a un timestamp. Per ulteriori informazioni, consulta la sezione Scegliere una chiave primaria per prevenire gli hotspot. D'altra parte, quando il carico di scrittura aumenta in un intervallo di documenti, il partitioning uniforme garantisce che l'aumento venga distribuito uniformemente tra gli shard.
  • La suddivisione in base al carico standard crea suddivisioni aggiuntive che forniscono una protezione adeguata contro gli hotspot. Lo svantaggio dello sharding uniforme è che può utilizzare più risorse per alcuni tipi di query.

La modalità di suddivisione in parti di un indice di ricerca viene configurata utilizzando la clausola OPTIONS:

CREATE SEARCH INDEX AlbumsIndex
ON Albums(AlbumTitle_Tokens, Rating_Tokens)
PARTITION BY SingerId
ORDER BY ReleaseTimestamp DESC
OPTIONS (sort_order_sharding = true);

Se sort_order_sharding=false è impostato o non specificato, l'indice di ricerca viene creato utilizzando la suddivisione uniforme.

Indici di ricerca interlacciati

Come per gli indici secondari, puoi interfoliare gli indici di ricerca in una tabella principale della tabella di base. Il motivo principale per cui utilizzare gli indici di ricerca interlacciati è collocare i dati della tabella di base con i dati dell'indice per piccole partizioni. Questa co-locazione opportunistica presenta i seguenti vantaggi:

  • Per le scritture non è necessario eseguire un commit a due fasi.
  • Le unioni posteriori dell'indice di ricerca con la tabella di base non sono distribuite.

Gli indici di ricerca interlacciati presentano le seguenti limitazioni:

  1. Solo gli indici con suddivisione in base all'ordine di ordinamento possono essere interlacciati.
  2. Gli indici di ricerca possono essere interlacciati solo nelle tabelle di primo livello (non nelle tabelle figlie).
  3. Come per le tabelle interlacciate e gli indici secondari, imposta la chiave della tabella principale come prefisso delle colonne PARTITION BY nell'indice di ricerca interlacciato.

Definire un indice di ricerca interlacciato

L'esempio seguente mostra come definire un indice di ricerca interlacciato:

CREATE TABLE Singers (
  SingerId INT64 NOT NULL
) PRIMARY KEY(SingerId);

CREATE TABLE Albums (
  SingerId INT64 NOT NULL,
  AlbumId STRING(MAX) NOT NULL,
  AlbumTitle STRING(MAX),
  AlbumTitle_Tokens TOKENLIST AS (TOKENIZE_FULLTEXT(AlbumTitle)) HIDDEN
) PRIMARY KEY(SingerId, AlbumId),
  INTERLEAVE IN PARENT Singers ON DELETE CASCADE;

CREATE SEARCH INDEX AlbumsIndex
ON Albums(AlbumTitle_Tokens)
PARTITION BY SingerId,
INTERLEAVE IN Singers
OPTIONS (sort_order_sharding = true);

Ordinamento dell'indice della Ricerca

I requisiti per la definizione dell'ordinamento dell'indice di ricerca sono diversi da quelli degli indici secondari.

Ad esempio, considera la seguente tabella:

CREATE TABLE Albums (
  AlbumId STRING(MAX) NOT NULL,
  ReleaseTimestamp INT64 NOT NULL,
  AlbumName STRING(MAX),
  AlbumName_Token TOKENLIST AS (TOKEN(AlbumName)) HIDDEN
) PRIMARY KEY(AlbumId);

L'applicazione potrebbe definire un indice secondario per cercare informazioni utilizzando AlbumName ordinato per ReleaseTimestamp:

CREATE INDEX AlbumsSecondaryIndex ON Albums(AlbumName, ReleaseTimestamp DESC);

L'indice di ricerca equivalente è il seguente (utilizza la tokenizzazione con corrispondenza esatta, poiché gli indici secondari non supportano le ricerche a testo intero):

CREATE SEARCH INDEX AlbumsSearchIndex
ON Albums(AlbumName_Token)
ORDER BY ReleaseTimestamp DESC;

L'ordinamento dell'indice di ricerca deve essere conforme ai seguenti requisiti:

  1. Utilizza le colonne INT64 solo per l'ordine di ordinamento di un indice di ricerca. Le colonne con dimensioni arbitrarie utilizzano troppe risorse nell'indice di ricerca perché Spanner deve memorizzare un docid accanto a ogni token. Nello specifico, la colonna ordine di ordinamento non può utilizzare il tipo TIMESTAMP perché TIMESTAMP utilizza la precisione a nanosecondi che non è compatibile con un numero intero a 64 bit.
  2. Le colonne dell'ordinamento non devono essere NULL. Esistono due modi per soddisfare questo requisito:

    1. Dichiara la colonna dell'ordinamento come NOT NULL.
    2. Configura l'indice in modo da escludere i valori NULL.

Per determinare l'ordine di ordinamento viene spesso utilizzato un timestamp. È prassi comune utilizzare i microsecondi dall'epoca Unix per questi timestamp.

In genere le applicazioni recuperano prima i dati più recenti utilizzando un indice di ricerca ordinato in ordine decrescente.

Indici di ricerca filtrati per NULL

Gli indici di ricerca possono utilizzare la sintassi WHERE column IS NOT NULL per escludere le righe della tabella di base. Il filtro NULL può essere applicato alle chiavi di partizionamento, alle colonne di ordinamento e alle colonne archiviate. Non è consentito il filtro NULL per le colonne di array archiviate.

Esempio

CREATE SEARCH INDEX AlbumsIndex
ON Albums(AlbumTitle_Tokens)
STORING Genre
WHERE Genre IS NOT NULL

La query deve specificare la condizione di filtro NULL (Genre IS NOT NULL per questo esempio) nella clausola WHERE. In caso contrario, lo strumento di ottimizzazione delle query non è in grado di utilizzare l'indice di ricerca. Per ulteriori informazioni, consulta i requisiti delle query SQL.

Utilizza il filtro NULL su una colonna generata per escludere le righe in base a qualsiasi criterio arbitrario. Per ulteriori informazioni, vedi Creare un indice parziale utilizzando una colonna generata.

Passaggi successivi