Puoi creare datastore dalle tabelle BigQuery in due modi:
Importazione una tantum: importi i dati da una tabella BigQuery in un datastore. I dati nel datastore non cambiano a meno che tu non li aggiorni manualmente.
Importazione periodica: importi i dati da una o più tabelle BigQuery e imposti una frequenza di sincronizzazione che determina la frequenza con cui gli archivi di dati vengono aggiornati con i dati più recenti del set di dati BigQuery.
La tabella seguente confronta i due modi in cui puoi importare i dati BigQuery nei datastore Gemini Enterprise.
Importazione una tantum | Importazione periodica |
---|---|
Disponibilità generale (GA). | Anteprima pubblica. |
I dati devono essere aggiornati manualmente. | I dati vengono aggiornati automaticamente ogni 1, 3 o 5 giorni. I dati non possono essere aggiornati manualmente. |
Gemini Enterprise crea un unico datastore da una tabella in BigQuery. | Gemini Enterprise crea un connettore di dati per un set di dati BigQuery e un datastore (chiamato datastore entità) per ogni tabella specificata. Per ogni connettore di dati, le tabelle devono avere lo stesso tipo di dati (ad esempio, strutturati) e trovarsi nello stesso set di dati BigQuery. |
I dati di più tabelle possono essere combinati in un unico datastore prima di inserire i dati di una tabella e poi altri dati da un'altra origine o tabella BigQuery. | Poiché l'importazione manuale dei dati non è supportata, i dati in un datastore delle entità possono provenire solo da una tabella BigQuery. |
Il controllo dell'accesso all'origine dati è supportato. | Controllo dell'accesso all'origine dati non è supportato. I dati importati possono contenere controlli dell'accesso, ma questi controlli non verranno rispettati. |
Puoi creare un datastore utilizzando la consoleGoogle Cloud o l'API. | Per creare i connettori di dati e i relativi datastore delle entità, devi utilizzare la console. |
Conforme a CMEK. | Conforme a CMEK. |
Importa una volta da BigQuery
Per importare dati da una tabella BigQuery, segui questi passaggi per creare un datastore e importare dati utilizzando la console Google Cloud o l'API.
Prima di importare i dati, consulta Preparare i dati per l'importazione.
Console
Per utilizzare la console Google Cloud per importare i dati da BigQuery, segui questi passaggi:
Nella console Google Cloud , vai alla pagina Gemini Enterprise.
Vai alla pagina Datastore.
Fai clic su Crea datastore.
Nella pagina Seleziona un'origine dati, seleziona BigQuery.
Seleziona il tipo di dati che stai importando.
Fai clic su Una tantum.
Nel campo Percorso BigQuery, fai clic su Sfoglia, seleziona una tabella che hai preparato per l'importazione e poi fai clic su Seleziona. In alternativa, inserisci la posizione della tabella direttamente nel campo Percorso BigQuery.
Fai clic su Continua.
Se esegui un'importazione una tantum di dati strutturati:
Mappa i campi alle proprietà chiave.
Se mancano campi importanti nello schema, utilizza Aggiungi nuovo campo per aggiungerli.
Per saperne di più, consulta Informazioni sul rilevamento automatico e sull'editing.
Fai clic su Continua.
Seleziona una regione per il datastore.
Inserisci un nome per il tuo datastore.
Fai clic su Crea.
Per controllare lo stato dell'importazione, vai alla pagina Datastore e fai clic sul nome del datastore per visualizzarne i dettagli nella pagina Data (Dati). Quando la colonna dello stato nella scheda Attività cambia da In corso a Importazione completata, l'importazione è terminata.
A seconda delle dimensioni dei dati, l'importazione può richiedere diversi minuti o diverse ore.
REST
Per utilizzare la riga di comando per creare un datastore e importare i dati da BigQuery, segui questi passaggi.
Crea un datastore.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"] }'
Sostituisci quanto segue:
PROJECT_ID
: l'ID progetto.DATA_STORE_ID
: l'ID del datastore che vuoi creare. Questo ID può contenere solo lettere minuscole, cifre, trattini bassi e trattini.DATA_STORE_DISPLAY_NAME
: il nome visualizzato del datastore che vuoi creare.
(Facoltativo) Se carichi dati non strutturati e vuoi configurare l'analisi dei documenti o attivare la suddivisione dei documenti per RAG, specifica l'oggetto
documentProcessingConfig
e includilo nella richiesta di creazione del datastore. La configurazione di un analizzatore OCR per i PDF è consigliata se importi PDF scansionati. Per informazioni su come configurare le opzioni di analisi o suddivisione in blocchi, vedi Analizzare e dividere i documenti in blocchi.Importa dati da BigQuery.
Se hai definito uno schema, assicurati che i dati siano conformi.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Sostituisci quanto segue:
PROJECT_ID
: l'ID progetto.DATA_STORE_ID
: l'ID del datastore.DATASET_ID
: l'ID del set di dati BigQuery.TABLE_ID
: l'ID della tabella BigQuery.- Se la tabella BigQuery non si trova in
PROJECT_ID
, devi concedere all'account di servizioservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
l'autorizzazione "Visualizzatore dati BigQuery" per la tabella BigQuery. Ad esempio, se importi una tabella BigQuery dal progetto di origine "123" al progetto di destinazione "456", concediservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
autorizzazioni per la tabella BigQuery nel progetto "123".
- Se la tabella BigQuery non si trova in
DATA_SCHEMA
: facoltativo. I valori sonodocument
ecustom
. Il valore predefinito èdocument
.document
: la tabella BigQuery che utilizzi deve essere conforme allo schema BigQuery predefinito fornito in Preparare i dati per l'importazione. Puoi definire tu stesso l'ID di ogni documento, mentre racchiudi tutti i dati nella stringa jsonData.custom
: Viene accettato qualsiasi schema di tabella BigQuery e Gemini Enterprise genera automaticamente gli ID per ogni documento importato.
ERROR_DIRECTORY
: facoltativo. Una directory Cloud Storage per informazioni sugli errori relativi all'importazione, ad esempiogs://<your-gcs-bucket>/directory/import_errors
. Google consiglia di lasciare vuoto questo campo per consentire a Gemini Enterprise di creare automaticamente una directory temporanea.RECONCILIATION_MODE
: facoltativo. I valori sonoFULL
eINCREMENTAL
. Il valore predefinito èINCREMENTAL
. Se specifichiINCREMENTAL
, viene eseguito un aggiornamento incrementale dei dati da BigQuery al tuo datastore. Esegue un'operazione di upsert, che aggiunge nuovi documenti e sostituisce quelli esistenti con documenti aggiornati con lo stesso ID. La specifica diFULL
causa una ribasatura completa dei documenti nel datastore. In altre parole, i documenti nuovi e aggiornati vengono aggiunti al tuo datastore e i documenti che non si trovano in BigQuery vengono rimossi dal tuo datastore. La modalitàFULL
è utile se vuoi eliminare automaticamente i documenti che non ti servono più.AUTO_GENERATE_IDS
: facoltativo. Specifica se generare automaticamente gli ID documento. Se impostato sutrue
, gli ID documento vengono generati in base a un hash del payload. Tieni presente che gli ID documento generati potrebbero non rimanere coerenti in più importazioni. Se generi automaticamente ID in più importazioni, Google consiglia vivamente di impostarereconciliationMode
suFULL
per mantenere ID documento coerenti.Specifica
autoGenerateIds
solo quandobigquerySource.dataSchema
è impostato sucustom
. In caso contrario, viene restituito un erroreINVALID_ARGUMENT
. Se non specifichiautoGenerateIds
o lo imposti sufalse
, devi specificareidField
. In caso contrario, l'importazione dei documenti non andrà a buon fine.ID_FIELD
: facoltativo. Specifica quali campi sono gli ID documento. Per i file di origine BigQuery,idField
indica il nome della colonna nella tabella BigQuery che contiene gli ID documento.Specifica
idField
solo quando: (1)bigquerySource.dataSchema
è impostato sucustom
e (2)auto_generate_ids
è impostato sufalse
o non è specificato. In caso contrario, viene restituito un erroreINVALID_ARGUMENT
.Il valore del nome della colonna BigQuery deve essere di tipo stringa, deve essere compreso tra 1 e 63 caratteri e deve essere conforme allo standard RFC-1034. In caso contrario, l'importazione dei documenti non andrà a buon fine.
Connettersi a BigQuery con la sincronizzazione periodica
Prima di importare i dati, consulta Preparare i dati per l'importazione.
La seguente procedura descrive come creare un data store BigQuery che sincronizza periodicamente i dati da un set di dati BigQuery. Se il set di dati contiene più tabelle, puoi aggiungerle al datastore BigQuery che stai creando. Ogni tabella che aggiungi viene definita entità. Gemini Enterprise crea un datastore separato per ogni entità. Pertanto, quando crei il datastore utilizzando la console Google Cloud , ottieni una raccolta di datastore che rappresentano queste entità di dati importate.
I dati del set di dati vengono sincronizzati periodicamente con i datastore delle entità. Puoi specificare la sincronizzazione giornaliera, ogni tre giorni o ogni cinque giorni.
Console
Per creare un datastore che sincronizzi periodicamente i dati da un set di dati BigQuery a Gemini Enterprise, segui questi passaggi:
Nella console Google Cloud , vai alla pagina Gemini Enterprise.
Nel menu di navigazione, fai clic su Datastore.
Fai clic su Crea datastore.
Nella pagina Origine, seleziona BigQuery.
Seleziona il tipo di dati che stai importando.
Fai clic su Periodico.
Seleziona la Frequenza di sincronizzazione, ovvero la frequenza con cui vuoi che il connettore Gemini Enterprise si sincronizzi con il set di dati BigQuery. Puoi modificare la frequenza in un secondo momento.
Nel campo Percorso del set di dati BigQuery, fai clic su Sfoglia, seleziona il set di dati che contiene le tabelle che hai preparato per l'importazione. In alternativa, inserisci la posizione della tabella direttamente nel campo Percorso BigQuery. Il formato del percorso è
projectname.datasetname
.Nel campo Tabelle da sincronizzare, fai clic su Sfoglia e seleziona una tabella che contiene i dati che vuoi per il datastore.
Se nel set di dati sono presenti altre tabelle che vuoi utilizzare per gli archivi dati, fai clic su Aggiungi tabella e specifica anche queste tabelle.
Fai clic su Continua.
Scegli una regione per il datastore, inserisci un nome per il connettore dati e fai clic su Crea.
Ora hai creato un connettore dati che sincronizzerà periodicamente i dati con il set di dati BigQuery. Inoltre, hai creato uno o più datastore di entità. I datastore hanno gli stessi nomi delle tabelle BigQuery.
Per controllare lo stato dell'importazione, vai alla pagina Datastore e fai clic sul nome del connettore dati per visualizzarne i dettagli nella pagina Data (Dati) > scheda Attività di importazione dei dati. Quando la colonna dello stato nella scheda Attività passa da In corso a Riuscito, la prima importazione è completata.
A seconda delle dimensioni dei dati, l'importazione può richiedere diversi minuti o diverse ore.
Dopo aver configurato l'origine dati e importato i dati la prima volta, il datastore sincronizza i dati da questa origine con una frequenza che selezioni durante la configurazione. Circa un'ora dopo la creazione del connettore dati, viene eseguita la prima sincronizzazione. La sincronizzazione successiva avviene circa 24 ore, 72 ore o 120 ore dopo.
Passaggi successivi
Per collegare il datastore a un'app, crea un'app e seleziona il datastore seguendo i passaggi descritti in Crea un'app di ricerca.
Per visualizzare l'anteprima dell'aspetto dei risultati di ricerca dopo la configurazione dell'app e del datastore, consulta Visualizzare l'anteprima dei risultati di ricerca.