Cerca negli incorporamenti con la ricerca vettoriale
Per fornire feedback o richiedere assistenza per questa funzione, invia un'email a bq-vector-search@google.com.
Questo tutorial mostra come cercare gli incorporamenti archiviati in
nelle tabelle BigQuery mediante
Funzione VECTOR_SEARCH
e, facoltativamente, un indice vettoriale.
Autorizzazioni obbligatorie
Per eseguire questo tutorial, è necessario quanto segue Identity and Access Management (IAM) autorizzazioni:
- Per creare un set di dati, devi disporre dell'autorizzazione
bigquery.datasets.create
. Per creare una tabella, devi disporre delle seguenti autorizzazioni:
bigquery.tables.create
bigquery.tables.updateData
bigquery.jobs.create
Per creare un indice vettoriale, è necessario
bigquery.tables.createIndex
sulla tabella in cui stai creando l'indice.Per rilasciare un indice vettoriale, devi disporre dell'autorizzazione
bigquery.tables.deleteIndex
nella tabella in cui stai eliminando l'indice.
Ciascuno dei seguenti ruoli IAM predefiniti include autorizzazioni necessarie per lavorare con gli indici vettoriali:
- Proprietario dati BigQuery (
roles/bigquery.dataOwner
) - Editor dati BigQuery (
roles/bigquery.dataEditor
)
Costi
In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:
- BigQuery: You incur costs for index storage and data processing in BigQuery.
Per generare una stima dei costi basata sull'utilizzo previsto,
utilizza il Calcolatore prezzi.
Per ulteriori informazioni, vedi Prezzi di BigQuery.
Prima di iniziare
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Attiva l'API BigQuery.
Crea un set di dati
Crea un set di dati BigQuery:
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, fai clic sul nome del tuo progetto.
Fai clic su
Visualizza azioni > Crea il set di dati.Nella pagina Crea set di dati, segui questi passaggi:
In ID set di dati, inserisci
vector_search
.Per Tipo di località, seleziona Più regioni e poi Stati Uniti (più regioni negli Stati Uniti).
I set di dati pubblici vengono archiviati nell'
US
più regioni. Per semplicità, per archiviare il set di dati nella stessa posizione.Lascia invariate le restanti impostazioni predefinite e fai clic su Crea il set di dati.
Crea tabelle di test
Crea la tabella
patents
che contiene gli incorporamenti di brevetti, in base a un sottoinsieme del Google Brevetti set di dati pubblico:CREATE TABLE vector_search.patents AS SELECT * FROM `patents-public-data.google_patents_research.publications` WHERE ARRAY_LENGTH(embedding_v1) > 0 AND publication_number NOT IN ('KR-20180122872-A') LIMIT 1000000;
Crea la tabella
patents2
che contiene un incorporamento del brevetto per trovare vicini più prossimi di:CREATE TABLE vector_search.patents2 AS SELECT * FROM `patents-public-data.google_patents_research.publications` WHERE publication_number = 'KR-20180122872-A';
Crea un indice vettoriale
Crea l'indice vettoriale
my_index
nella colonnaembeddings_v1
di Tabellapatents
:CREATE VECTOR INDEX my_index ON vector_search.patents(embedding_v1) OPTIONS(distance_type='COSINE', index_type='IVF', ivf_options='{"num_lists": 1000}');
Attendi alcuni minuti la creazione dell'indice vettoriale, quindi esegui seguente query e verifica che il valore
coverage_percentage
sia100
:SELECT * FROM vector_search.INFORMATION_SCHEMA.VECTOR_INDEXES;
Utilizzare la funzione VECTOR_SEARCH
con un indice
Dopo aver creato e compilato l'indice vettoriale, utilizza VECTOR_SEARCH
per trovare il vicino più prossimo per l'incorporamento in embedding_v1
colonna nella tabella patents2
. Questa query utilizza l'indice vettoriale nella ricerca,
quindi VECTOR_SEARCH
utilizza
Vicino approssimato più vicino
per trovare il vicino più prossimo dell'incorporamento:
SELECT query.publication_number AS query_publication_number, query.title AS query_title, base.publication_number AS base_publication_number, base.title AS base_title, distance FROM VECTOR_SEARCH( TABLE vector_search.patents, 'embedding_v1', TABLE vector_search.patents2, top_k => 5, distance_type => 'COSINE', options => '{"fraction_lists_to_search": 0.005}');
I risultati sono simili ai seguenti:
+--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+ | query_publication_number | query_title | base_publication_number | base_title | distance | +--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+ | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | CN-106599080-B | A kind of rapid generation for keeping away big vast transfer figure based on GIS | 0.14471956347590609 | | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | CN-114118544-A | Urban waterlogging detection method and device | 0.17472108931171348 | | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | KR-20200048143-A | Method and system for mornitoring dry stream using unmanned aerial vehicle | 0.17561990745619782 | | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | KR-101721695-B1 | Urban Climate Impact Assessment method of Reflecting Urban Planning Scenarios and Analysis System using the same | 0.17696129365559843 | | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | CN-109000731-B | The experimental rig and method that research inlet for stom water chocking-up degree influences water discharged amount | 0.17902723269642917 | +--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+
Usare la funzione VECTOR_SEARCH
con la forza bruta
Usa VECTOR_SEARCH
per trovare il vicino più prossimo per l'incorporamento in embedding_v1
colonna nella tabella patents2
. Questa query non utilizza l'indice vettoriale nella
quindi VECTOR_SEARCH
trova il vicino più prossimo esatto dell'incorporamento:
SELECT query.publication_number AS query_publication_number, query.title AS query_title, base.publication_number AS base_publication_number, base.title AS base_title, distance FROM VECTOR_SEARCH( TABLE vector_search.patents, 'embedding_v1', TABLE vector_search.patents2, top_k => 5, distance_type => 'COSINE', options => '{"use_brute_force":true}');
I risultati sono simili ai seguenti:
+--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+ | query_publication_number | query_title | base_publication_number | base_title | distance | +--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+ | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | CN-106599080-B | A kind of rapid generation for keeping away big vast transfer figure based on GIS | 0.1447195634759062 | | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | CN-114118544-A | Urban waterlogging detection method and device | 0.1747210893117136 | | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | KR-20200048143-A | Method and system for mornitoring dry stream using unmanned aerial vehicle | 0.17561990745619782 | | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | KR-101721695-B1 | Urban Climate Impact Assessment method of Reflecting Urban Planning Scenarios and Analysis System using the same | 0.17696129365559843 | | KR-20180122872-A | Rainwater management system based on rainwater keeping unit | CN-109000731-B | The experimental rig and method that research inlet for stom water chocking-up degree influences water discharged amount | 0.17902723269642928 | +--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+
Valuta il richiamo
Quando esegui una ricerca vettoriale con un indice, vengono restituiti risultati approssimativi,
con il compromesso di ridurre
richiamo. Puoi calcolare il richiamo
Confrontando i risultati restituiti dalla ricerca vettoriale con un indice e per
eseguire ricerche con la forza bruta. In questo set di dati, il valore publication_number
identifica in modo univoco un brevetto, pertanto viene utilizzato per il confronto.
WITH approx_results AS ( SELECT query.publication_number AS query_publication_number, base.publication_number AS base_publication_number FROM VECTOR_SEARCH( TABLE vector_search.patents, 'embedding_v1', TABLE vector_search.patents2, top_k => 5, distance_type => 'COSINE', options => '{"fraction_lists_to_search": 0.005}') ), exact_results AS ( SELECT query.publication_number AS query_publication_number, base.publication_number AS base_publication_number FROM VECTOR_SEARCH( TABLE vector_search.patents, 'embedding_v1', TABLE vector_search.patents2, top_k => 5, distance_type => 'COSINE', options => '{"use_brute_force":true}') ) SELECT a.query_publication_number, SUM(CASE WHEN a.base_publication_number = e.base_publication_number THEN 1 ELSE 0 END) / 5 AS recall FROM exact_results e LEFT JOIN approx_results a ON e.query_publication_number = a.query_publication_number GROUP BY a.query_publication_number
Se il richiamo è inferiore a quello desiderato, puoi aumentare il
fraction_lists_to_search
, con uno svantaggio di un valore potenzialmente più alto
latenza e utilizzo delle risorse. Per ottimizzare la ricerca vettoriale, puoi provare a utilizzare
di VECTOR_SEARCH
con valori di argomento diversi, salva i risultati in
tabelle e poi confronti i risultati.
Esegui la pulizia
- Nella console Google Cloud, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.