I connettori recuperano i dati da Google e da origini dati di terze parti in Gemini Enterprise, memorizzandoli in datastore dedicati. Questo documento fornisce una panoramica di questi connettori. La centralizzazione dei dati in Gemini Enterprise migliora l'accessibilità, la funzionalità di ricerca e le capacità analitiche.

Concetti relativi a connettori e datastore
Datastore |
Ogni origine dati supporta un insieme di tipi di entità. Ad esempio, Jira Cloud ha entità come problemi, allegati, commenti e registri di lavoro, che sono univoci per l'origine dati. Gemini Enterprise crea un datastore separato per ogni entità. Pertanto, quando crei un datastore utilizzando la console Google Cloud , ottieni una raccolta di datastore che rappresentano queste entità di dati importate. |
Federazione dei dati e importazione (indicizzazione) |
La federazione dei dati recupera direttamente le informazioni dall'origine dati specificata. Poiché i dati non vengono copiati nell'indice di Vertex AI Search, non devi preoccuparti dell'archiviazione dei dati. Tuttavia, poiché i dati non sono indicizzati, la qualità della ricerca potrebbe essere inferiore. L'importazione (indicizzazione) dei dati copia i dati nell'indice di Vertex AI Search. Ciò può comportare un miglioramento della qualità della ricerca. Tuttavia, questo processo consuma più spazio di archiviazione e tempo. |
Dati non strutturati |
Il formato dei dati supportato è specifico per l'origine dati e il tipo di entità. Se i contenuti di un'entità sono archiviati in un formato non strutturato, ad esempio HTML, PDF, TXT, PPTX o DOCX, viene creato un datastore non strutturato da Vertex AI Search. Per maggiori informazioni e per i tipi di file supportati, vedi Ricerca non strutturata. |
Dati strutturati |
Il formato dei dati supportato è specifico per l'origine dati e il tipo di entità. Se i contenuti di un'entità sono archiviati in un formato strutturato, Vertex AI Search crea un datastore strutturato. Per maggiori informazioni, vedi Ricerca strutturata. |
Schemi di dati |
Lo schema dei dati definisce la struttura dei dati. Quando importi dati strutturati utilizzando Gemini Enterprise, il sistema rileva automaticamente lo schema. Puoi utilizzare lo schema rilevato automaticamente o definirlo utilizzando l'API. Per saperne di più, consulta Fornire o rilevare automaticamente uno schema. |
Regioni del datastore |
Quando importi i dati, devi selezionare la regione in cui vuoi archiviarli, ad esempio globale, Stati Uniti o UE. Per saperne di più, vedi Località di Gemini Enterprise. I dati archiviati nelle regioni degli Stati Uniti o dell'UE richiedono la crittografia dei dati. La crittografia predefinita avviene con Google-owned and Google-managed encryption key, ma in alternativa puoi utilizzare chiavi di crittografia gestite dal cliente. |
Sincronizzazioni dei dati |
Una sincronizzazione dei dati estrae e aggiorna i dati di identità (ad esempio ruoli, autorizzazioni e utenti) e i dati delle entità (ad esempio i dati relativi a un'origine dati specifica) dall'origine dati originale. Per saperne di più, vedi Tipi e pianificazioni di sincronizzazione dei dati. |
Tipi e pianificazioni della sincronizzazione dei dati
Una sincronizzazione dei dati acquisisce i dati delle entità, i dati delle identità o entrambi e aggiorna i contenuti del datastore in Gemini Enterprise.
Tipi di sincronizzazione
I datastore in Gemini Enterprise utilizzano due tipi essenziali di sincronizzazione dei dati:
Una sincronizzazione completa acquisisce l'intero stato dell'app o del servizio di terze parti. Sono inclusi aggiunte, aggiornamenti ed eliminazioni. Una sincronizzazione completa sostituisce i contenuti esistenti del datastore.
Una sincronizzazione incrementale acquisisce periodicamente i dati delle entità aggiunti o aggiornati dall'ultima sincronizzazione. Non sincronizza i dati di identità o le eliminazioni di dati delle entità.
Puoi pianificare una sincronizzazione completa separatamente per i seguenti tipi di dati:
Una sincronizzazione delle entità acquisisce i dati specifici dell'origine dati di terze parti. Ad esempio, un datastore per un sistema come Jira può sincronizzare problemi, registri di lavoro, commenti e allegati. Le sincronizzazioni delle entità non includono informazioni sull'identità.
Una sincronizzazione delle identità acquisisce i dati sugli account utente associati a un gruppo ACL.
Interazione tra la sincronizzazione delle identità e la sincronizzazione completa
Per capire come funziona una singola esecuzione della sincronizzazione delle identità con un'esecuzione della sincronizzazione completa,
considera uno scenario di esempio che include due pagine: page_1
, collegata a un gruppo ACL group_1
; e page_2
, collegata a un gruppo ACL group_2
.
Viene eseguita una sincronizzazione iniziale dell'identità e vengono recuperate informazioni sui gruppi
group_1
egroup_2
.Supponiamo che
group_1
contenga l'utenteuser_1
.Supponiamo che
group_2
contenga l'utenteuser_2
.
Questa sincronizzazione delle identità stabilisce la seguente mappatura:
user_1
maps togroup_1
.user_2
maps togroup_2
.
Oltre alla sincronizzazione delle identità, viene eseguita una sincronizzazione completa, che recupera sia
page_1
siapage_2
.Questa sincronizzazione completa stabilisce la seguente mappatura:
user_1
ha accesso apage_1
(tramitegroup_1
).user_2
ha accesso apage_2
(tramitegroup_2
).
Programmazioni della sincronizzazione
Per ogni datastore, puoi selezionare una frequenza per diversi tipi di sincronizzazione:
Le sincronizzazioni complete di tutti i dati sull'identità e sull'entità possono essere pianificate contemporaneamente ogni 3 ore, 6 ore, 12 ore, 1 giorno o 3 giorni.
È possibile pianificare sincronizzazioni complete indipendenti di tutti i dati di identità e di tutte le entità separatamente utilizzando una delle seguenti frequenze di sincronizzazione personalizzate:
Dati delle entità: ogni 3 ore, 6 ore, 12 ore, 1 giorno, 3 giorni, 5 giorni e ogni 7 giorni.
Dati sull'identità: ogni 30 minuti, 1 ora, 3 ore, 6 ore, 12 ore, 1 giorno, 3 giorni, 5 giorni e ogni 7 giorni.
Le sincronizzazioni incrementali dei dati delle entità aggiornati o aggiunti possono essere pianificate ogni 3 ore, 6 ore, 12 ore, 1 giorno, 3 giorni, 5 giorni o 7 giorni. Per impostazione predefinita, viene eseguita una sincronizzazione incrementale ogni 3 ore.
Consigli sulla frequenza
Scegli una frequenza di sincronizzazione dei dati in linea con il volume di record recuperati e con le query al secondo (QPS) consigliate.
La seguente tabella mostra il numero tipico di record recuperati per le sincronizzazioni di uno, tre, cinque e sette giorni. Il numero effettivo di record può variare a seconda dell'origine dati e della sua configurazione.
QPS | Volume dei record per la sincronizzazione di un giorno | Volume di registrazione per la sincronizzazione di 3 giorni | Volume di registrazione per la sincronizzazione di 5 giorni | Volume di registrazione per la sincronizzazione di 7 giorni |
---|---|---|---|---|
5 | 432.000 | 1,296 mln | 2,16 Mln | 3M |
10 | 864.000 | 2,592 Mln | 4,32 Mln | 6 mln |
20 | 1,7 Mln | 5,1 Mln | 8,5 Mln | 11,9 Mln |
50 | 4,3 Mln | 12,9 Mln | 21,5 milioni | 30,1 Mln |
100 | 8,6 Mln | 25,8 milioni | 43 Mln | 60,2 mln |
Mettere in pausa e riprendere le sincronizzazioni
Puoi mettere in pausa e riprendere sia le sincronizzazioni complete sia quelle incrementali:
Quando metti in pausa un tipo di sincronizzazione, il datastore annulla le sincronizzazioni in corso di quel tipo e interrompe la pianificazione di nuove sincronizzazioni dello stesso tipo.
Quando riprendi un tipo di sincronizzazione, l'datastore pianifica la nuova sincronizzazione in base all'ultima ora di sincronizzazione pianificata, ma non continua la sincronizzazione interrotta in precedenza.
Ad esempio, se metti in pausa la sincronizzazione completa mentre è in corso, l'archivio dati annulla la sincronizzazione. Se in un secondo momento riprendi la sincronizzazione completa, il datastore pianifica automaticamente una nuova sincronizzazione completa in base alla pianificazione della sincronizzazione completa.
Origini dati di Google
Puoi connetterti a origini dati Google, come BigQuery, Spanner e Google Drive.
Elenco di controllo per le origini dati Google
Prima di inviare dati a Gemini Enterprise, esamina il seguente elenco di controllo:
Configura il controllo degli accessi per l'origine dati. Per maggiori informazioni, vedi Identità e autorizzazioni.
Decidi se i dati devono essere federati o importati (indicizzati).
Decidi la frequenza di sincronizzazione dei dati.
Se utilizzi chiavi di crittografia gestite dal cliente (CMEK), crea chiavi multiregionali. Per maggiori informazioni, consulta Registrare chiavi a singola regione per origini dati di terze parti.
Se disponi di informazioni che consentono l'identificazione personale (PII) e intendi utilizzare il completamento automatico per i suggerimenti di query, consulta Protezione dalle fughe di PII.
Origini dati Google supportate
Google Drive | Gmail | Google Calendar | Ricerca di persone |
|
|
|
|
Origini dati di terze parti
I datastore di terze parti importano i dati delle applicazioni di terze parti in Gemini Enterprise.
Elenco di controllo per le origini dati di terze parti
Prima di connettere un'origine dati di terze parti a Gemini Enterprise, consulta il seguente elenco di controllo:
Per alcune origini dati devono essere configurati ambiti e autorizzazioni specifici. Un amministratore dell'applicazione di terze parti deve esaminare le credenziali richieste per connettere un'origine dati e configurare l'autenticazione e le autorizzazioni. Per informazioni sugli ambiti e sulle autorizzazioni specifici, consulta la documentazione della rispettiva origine dati di terze parti.
Configura controllo dell'accesso per il datastore. Per ulteriori informazioni, vedi Identità e autorizzazioni
Decidi se i dati devono essere federati o importati (indicizzati).
Se i dati vengono importati, assicurati che le risorse non siano limitate per le credenziali utente che utilizzi per importare i dati nell'origine dati.
Decidi la frequenza di sincronizzazione dei dati.
Se utilizzi chiavi di crittografia gestite dal cliente (CMEK), crea chiavi multiregionali e monoregionali. Per maggiori informazioni, vedi Registrare chiavi a singola regione per datastore di terze parti.
Se disponi di informazioni che consentono l'identificazione personale (PII) e intendi utilizzare il completamento automatico per i suggerimenti di query, consulta Protezione dalle fughe di PII.
Origini dati di terze parti supportate
Microsoft Entra ID | Microsoft OneDrive | Microsoft Outlook | Microsoft SharePoint |
![]() |
![]() |
![]() |
![]() |
Jira Cloud | Confluence Cloud | ServiceNow | |
![]() |
![]() |
![]() |