Questa pagina è stata tradotta dall'API Cloud Translation.

Introduzione ai connettori e ai datastore

I connettori recuperano i dati da Google e da origini dati di terze parti in Gemini Enterprise, memorizzandoli in datastore dedicati. Questo documento fornisce una panoramica di questi connettori. La centralizzazione dei dati in Gemini Enterprise migliora l'accessibilità, la funzionalità di ricerca e le capacità analitiche.

Un'immagine di panoramica che mostra come i connettori inseriscono i dati in Gemini Enterprise. — Panoramica del connettore

Concetti relativi a connettori e datastore

Datastore

Ogni origine dati supporta un insieme di tipi di entità. Ad esempio, Jira Cloud ha entità come problemi, allegati, commenti e registri di lavoro, che sono univoci per l'origine dati. Gemini Enterprise crea un datastore separato per ogni entità. Pertanto, quando crei un datastore utilizzando la console Google Cloud , ottieni una raccolta di datastore che rappresentano queste entità di dati importate.

Federazione dei dati e importazione (indicizzazione)

La federazione dei dati recupera direttamente le informazioni dall'origine dati specificata. Poiché i dati non vengono copiati nell'indice di Vertex AI Search, non devi preoccuparti dell'archiviazione dei dati. Tuttavia, poiché i dati non sono indicizzati, la qualità della ricerca potrebbe essere inferiore.

L'importazione (indicizzazione) dei dati copia i dati nell'indice di Vertex AI Search. Ciò può comportare un miglioramento della qualità della ricerca. Tuttavia, questo processo consuma più spazio di archiviazione e tempo.

Dati non strutturati

Il formato dei dati supportato è specifico per l'origine dati e il tipo di entità. Se i contenuti di un'entità sono archiviati in un formato non strutturato, ad esempio HTML, PDF, TXT, PPTX o DOCX, viene creato un datastore non strutturato da Vertex AI Search. Per maggiori informazioni e per i tipi di file supportati, vedi Ricerca non strutturata.

Dati strutturati

Il formato dei dati supportato è specifico per l'origine dati e il tipo di entità. Se i contenuti di un'entità sono archiviati in un formato strutturato, Vertex AI Search crea un datastore strutturato. Per maggiori informazioni, vedi Ricerca strutturata.

Schemi di dati

Lo schema dei dati definisce la struttura dei dati. Quando importi dati strutturati utilizzando Gemini Enterprise, il sistema rileva automaticamente lo schema. Puoi utilizzare lo schema rilevato automaticamente o definirlo utilizzando l'API. Per saperne di più, consulta Fornire o rilevare automaticamente uno schema.

Regioni del datastore

Quando importi i dati, devi selezionare la regione in cui vuoi archiviarli, ad esempio globale, Stati Uniti o UE. Per saperne di più, vedi Località di Gemini Enterprise. I dati archiviati nelle regioni degli Stati Uniti o dell'UE richiedono la crittografia dei dati. La crittografia predefinita avviene con Google-owned and Google-managed encryption key, ma in alternativa puoi utilizzare chiavi di crittografia gestite dal cliente.

Sincronizzazioni dei dati

Una sincronizzazione dei dati estrae e aggiorna i dati di identità (ad esempio ruoli, autorizzazioni e utenti) e i dati delle entità (ad esempio i dati relativi a un'origine dati specifica) dall'origine dati originale. Per saperne di più, vedi Tipi e pianificazioni di sincronizzazione dei dati.

Tipi e pianificazioni della sincronizzazione dei dati

Una sincronizzazione dei dati acquisisce i dati delle entità, i dati delle identità o entrambi e aggiorna i contenuti del datastore in Gemini Enterprise.

Tipi di sincronizzazione

I datastore in Gemini Enterprise utilizzano due tipi essenziali di sincronizzazione dei dati:

Una sincronizzazione completa acquisisce l'intero stato dell'app o del servizio di terze parti. Sono inclusi aggiunte, aggiornamenti ed eliminazioni. Una sincronizzazione completa sostituisce i contenuti esistenti del datastore.
Una sincronizzazione incrementale acquisisce periodicamente i dati delle entità aggiunti o aggiornati dall'ultima sincronizzazione. Non sincronizza i dati di identità o le eliminazioni di dati delle entità.

Puoi pianificare una sincronizzazione completa separatamente per i seguenti tipi di dati:

Una sincronizzazione delle entità acquisisce i dati specifici dell'origine dati di terze parti. Ad esempio, un datastore per un sistema come Jira può sincronizzare problemi, registri di lavoro, commenti e allegati. Le sincronizzazioni delle entità non includono informazioni sull'identità.
Una sincronizzazione delle identità acquisisce i dati sugli account utente associati a un gruppo ACL.

Interazione tra la sincronizzazione delle identità e la sincronizzazione completa

Per capire come funziona una singola esecuzione della sincronizzazione delle identità con un'esecuzione della sincronizzazione completa, considera uno scenario di esempio che include due pagine: page_1, collegata a un gruppo ACL group_1; e page_2, collegata a un gruppo ACL group_2.

Viene eseguita una sincronizzazione iniziale dell'identità e vengono recuperate informazioni sui gruppi group_1 e group_2.
- Supponiamo che group_1 contenga l'utente user_1.
- Supponiamo che group_2 contenga l'utente user_2.
Questa sincronizzazione delle identità stabilisce la seguente mappatura:
- user_1 maps to group_1.
- user_2 maps to group_2.
Oltre alla sincronizzazione delle identità, viene eseguita una sincronizzazione completa, che recupera sia page_1 sia page_2.

Questa sincronizzazione completa stabilisce la seguente mappatura:
- user_1 ha accesso a page_1 (tramite group_1).
- user_2 ha accesso a page_2 (tramite group_2).

Programmazioni della sincronizzazione

Per ogni datastore, puoi selezionare una frequenza per diversi tipi di sincronizzazione:

Le sincronizzazioni complete di tutti i dati sull'identità e sull'entità possono essere pianificate contemporaneamente ogni 3 ore, 6 ore, 12 ore, 1 giorno o 3 giorni.
È possibile pianificare sincronizzazioni complete indipendenti di tutti i dati di identità e di tutte le entità separatamente utilizzando una delle seguenti frequenze di sincronizzazione personalizzate:
- Dati delle entità: ogni 3 ore, 6 ore, 12 ore, 1 giorno, 3 giorni, 5 giorni e ogni 7 giorni.
- Dati sull'identità: ogni 30 minuti, 1 ora, 3 ore, 6 ore, 12 ore, 1 giorno, 3 giorni, 5 giorni e ogni 7 giorni.
Le sincronizzazioni incrementali dei dati delle entità aggiornati o aggiunti possono essere pianificate ogni 3 ore, 6 ore, 12 ore, 1 giorno, 3 giorni, 5 giorni o 7 giorni. Per impostazione predefinita, viene eseguita una sincronizzazione incrementale ogni 3 ore.

Nota:le sincronizzazioni incrementali devono essere pianificate per essere eseguite con una frequenza maggiore rispetto alla sincronizzazione completa. Ad esempio, se hai pianificato sincronizzazioni complete ogni 12 ore, puoi pianificare sincronizzazioni incrementali solo ogni 3 o 6 ore.

Se pianifichi la sincronizzazione incrementale e la sincronizzazione completa con la stessa frequenza, la sincronizzazione incrementale verrà sospesa automaticamente e richiederà un intervento manuale per riprendere.

Consigli sulla frequenza

Scegli una frequenza di sincronizzazione dei dati in linea con il volume di record recuperati e con le query al secondo (QPS) consigliate.

La seguente tabella mostra il numero tipico di record recuperati per le sincronizzazioni di uno, tre, cinque e sette giorni. Il numero effettivo di record può variare a seconda dell'origine dati e della sua configurazione.

QPS	Volume dei record per la sincronizzazione di un giorno	Volume di registrazione per la sincronizzazione di 3 giorni	Volume di registrazione per la sincronizzazione di 5 giorni	Volume di registrazione per la sincronizzazione di 7 giorni
5	432.000	1,296 mln	2,16 Mln	3M
10	864.000	2,592 Mln	4,32 Mln	6 mln
20	1,7 Mln	5,1 Mln	8,5 Mln	11,9 Mln
50	4,3 Mln	12,9 Mln	21,5 milioni	30,1 Mln
100	8,6 Mln	25,8 milioni	43 Mln	60,2 mln

Mettere in pausa e riprendere le sincronizzazioni

Puoi mettere in pausa e riprendere sia le sincronizzazioni complete sia quelle incrementali:

Quando metti in pausa un tipo di sincronizzazione, il datastore annulla le sincronizzazioni in corso di quel tipo e interrompe la pianificazione di nuove sincronizzazioni dello stesso tipo.
Quando riprendi un tipo di sincronizzazione, l'datastore pianifica la nuova sincronizzazione in base all'ultima ora di sincronizzazione pianificata, ma non continua la sincronizzazione interrotta in precedenza.

Ad esempio, se metti in pausa la sincronizzazione completa mentre è in corso, l'archivio dati annulla la sincronizzazione. Se in un secondo momento riprendi la sincronizzazione completa, il datastore pianifica automaticamente una nuova sincronizzazione completa in base alla pianificazione della sincronizzazione completa.

Origini dati di Google

Puoi connetterti a origini dati Google, come BigQuery, Spanner e Google Drive.

Elenco di controllo per le origini dati Google

Prima di inviare dati a Gemini Enterprise, esamina il seguente elenco di controllo:

Configura il controllo degli accessi per l'origine dati. Per maggiori informazioni, vedi Identità e autorizzazioni.
Decidi se i dati devono essere federati o importati (indicizzati).
Decidi la frequenza di sincronizzazione dei dati.
Se utilizzi chiavi di crittografia gestite dal cliente (CMEK), crea chiavi multiregionali. Per maggiori informazioni, consulta Registrare chiavi a singola regione per origini dati di terze parti.
Se disponi di informazioni che consentono l'identificazione personale (PII) e intendi utilizzare il completamento automatico per i suggerimenti di query, consulta Protezione dalle fughe di PII.

Origini dati Google supportate

Google Drive	Gmail	Google Calendar	Ricerca di persone

Origini dati di terze parti

I datastore di terze parti importano i dati delle applicazioni di terze parti in Gemini Enterprise.

Elenco di controllo per le origini dati di terze parti

Prima di connettere un'origine dati di terze parti a Gemini Enterprise, consulta il seguente elenco di controllo:

Per alcune origini dati devono essere configurati ambiti e autorizzazioni specifici. Un amministratore dell'applicazione di terze parti deve esaminare le credenziali richieste per connettere un'origine dati e configurare l'autenticazione e le autorizzazioni. Per informazioni sugli ambiti e sulle autorizzazioni specifici, consulta la documentazione della rispettiva origine dati di terze parti.
Configura controllo dell'accesso per il datastore. Per ulteriori informazioni, vedi Identità e autorizzazioni
Decidi se i dati devono essere federati o importati (indicizzati).
Se i dati vengono importati, assicurati che le risorse non siano limitate per le credenziali utente che utilizzi per importare i dati nell'origine dati.
Decidi la frequenza di sincronizzazione dei dati.
Se utilizzi chiavi di crittografia gestite dal cliente (CMEK), crea chiavi multiregionali e monoregionali. Per maggiori informazioni, vedi Registrare chiavi a singola regione per datastore di terze parti.
Se disponi di informazioni che consentono l'identificazione personale (PII) e intendi utilizzare il completamento automatico per i suggerimenti di query, consulta Protezione dalle fughe di PII.

Origini dati di terze parti supportate

Microsoft Entra ID	Microsoft OneDrive	Microsoft Outlook	Microsoft SharePoint

Jira Cloud	Confluence Cloud	ServiceNow