Introduzione ai connettori e ai datastore

I connettori recuperano i dati da Google e da origini dati di terze parti in Gemini Enterprise, memorizzandoli in datastore dedicati. Questo documento fornisce una panoramica di questi connettori. La centralizzazione dei dati in Gemini Enterprise migliora l'accessibilità, la funzionalità di ricerca e le capacità analitiche.

Un'immagine di panoramica che mostra come i connettori inseriscono i dati in Gemini Enterprise.
Panoramica del connettore

Concetti relativi a connettori e datastore

Datastore
Ogni origine dati supporta un insieme di tipi di entità. Ad esempio, Jira Cloud ha entità come problemi, allegati, commenti e registri di lavoro, che sono univoci per l'origine dati. Gemini Enterprise crea un datastore separato per ogni entità. Pertanto, quando crei un datastore utilizzando la console Google Cloud , ottieni una raccolta di datastore che rappresentano queste entità di dati importate.
Federazione dei dati e importazione (indicizzazione)
La federazione dei dati recupera direttamente le informazioni dall'origine dati specificata. Poiché i dati non vengono copiati nell'indice di Vertex AI Search, non devi preoccuparti dell'archiviazione dei dati. Tuttavia, poiché i dati non sono indicizzati, la qualità della ricerca potrebbe essere inferiore.

L'importazione (indicizzazione) dei dati copia i dati nell'indice di Vertex AI Search. Ciò può comportare un miglioramento della qualità della ricerca. Tuttavia, questo processo consuma più spazio di archiviazione e tempo.
Dati non strutturati
Il formato dei dati supportato è specifico per l'origine dati e il tipo di entità. Se i contenuti di un'entità sono archiviati in un formato non strutturato, ad esempio HTML, PDF, TXT, PPTX o DOCX, viene creato un datastore non strutturato da Vertex AI Search. Per maggiori informazioni e per i tipi di file supportati, vedi Ricerca non strutturata.
Dati strutturati
Il formato dei dati supportato è specifico per l'origine dati e il tipo di entità. Se i contenuti di un'entità sono archiviati in un formato strutturato, Vertex AI Search crea un datastore strutturato. Per maggiori informazioni, vedi Ricerca strutturata.
Schemi di dati
Lo schema dei dati definisce la struttura dei dati. Quando importi dati strutturati utilizzando Gemini Enterprise, il sistema rileva automaticamente lo schema. Puoi utilizzare lo schema rilevato automaticamente o definirlo utilizzando l'API. Per saperne di più, consulta Fornire o rilevare automaticamente uno schema.
Regioni del datastore
Quando importi i dati, devi selezionare la regione in cui vuoi archiviarli, ad esempio globale, Stati Uniti o UE. Per saperne di più, vedi Località di Gemini Enterprise. I dati archiviati nelle regioni degli Stati Uniti o dell'UE richiedono la crittografia dei dati. La crittografia predefinita avviene con Google-owned and Google-managed encryption key, ma in alternativa puoi utilizzare chiavi di crittografia gestite dal cliente.
Sincronizzazioni dei dati

Una sincronizzazione dei dati estrae e aggiorna i dati di identità (ad esempio ruoli, autorizzazioni e utenti) e i dati delle entità (ad esempio i dati relativi a un'origine dati specifica) dall'origine dati originale. Per saperne di più, vedi Tipi e pianificazioni di sincronizzazione dei dati.

Tipi e pianificazioni della sincronizzazione dei dati

Una sincronizzazione dei dati acquisisce i dati delle entità, i dati delle identità o entrambi e aggiorna i contenuti del datastore in Gemini Enterprise.

Tipi di sincronizzazione

I datastore in Gemini Enterprise utilizzano due tipi essenziali di sincronizzazione dei dati:

  • Una sincronizzazione completa acquisisce l'intero stato dell'app o del servizio di terze parti. Sono inclusi aggiunte, aggiornamenti ed eliminazioni. Una sincronizzazione completa sostituisce i contenuti esistenti del datastore.

  • Una sincronizzazione incrementale acquisisce periodicamente i dati delle entità aggiunti o aggiornati dall'ultima sincronizzazione. Non sincronizza i dati di identità o le eliminazioni di dati delle entità.

Puoi pianificare una sincronizzazione completa separatamente per i seguenti tipi di dati:

  • Una sincronizzazione delle entità acquisisce i dati specifici dell'origine dati di terze parti. Ad esempio, un datastore per un sistema come Jira può sincronizzare problemi, registri di lavoro, commenti e allegati. Le sincronizzazioni delle entità non includono informazioni sull'identità.

  • Una sincronizzazione delle identità acquisisce i dati sugli account utente associati a un gruppo ACL.

Interazione tra la sincronizzazione delle identità e la sincronizzazione completa

Per capire come funziona una singola esecuzione della sincronizzazione delle identità con un'esecuzione della sincronizzazione completa, considera uno scenario di esempio che include due pagine: page_1, collegata a un gruppo ACL group_1; e page_2, collegata a un gruppo ACL group_2.

  1. Viene eseguita una sincronizzazione iniziale dell'identità e vengono recuperate informazioni sui gruppi group_1 e group_2.

    • Supponiamo che group_1 contenga l'utente user_1.

    • Supponiamo che group_2 contenga l'utente user_2.

    Questa sincronizzazione delle identità stabilisce la seguente mappatura:

    • user_1 maps to group_1.

    • user_2 maps to group_2.

  2. Oltre alla sincronizzazione delle identità, viene eseguita una sincronizzazione completa, che recupera sia page_1 sia page_2.

    Questa sincronizzazione completa stabilisce la seguente mappatura:

    • user_1 ha accesso a page_1 (tramite group_1).

    • user_2 ha accesso a page_2 (tramite group_2).

Programmazioni della sincronizzazione

Per ogni datastore, puoi selezionare una frequenza per diversi tipi di sincronizzazione:

  • Le sincronizzazioni complete di tutti i dati sull'identità e sull'entità possono essere pianificate contemporaneamente ogni 3 ore, 6 ore, 12 ore, 1 giorno o 3 giorni.

  • È possibile pianificare sincronizzazioni complete indipendenti di tutti i dati di identità e di tutte le entità separatamente utilizzando una delle seguenti frequenze di sincronizzazione personalizzate:

    • Dati delle entità: ogni 3 ore, 6 ore, 12 ore, 1 giorno, 3 giorni, 5 giorni e ogni 7 giorni.

    • Dati sull'identità: ogni 30 minuti, 1 ora, 3 ore, 6 ore, 12 ore, 1 giorno, 3 giorni, 5 giorni e ogni 7 giorni.

  • Le sincronizzazioni incrementali dei dati delle entità aggiornati o aggiunti possono essere pianificate ogni 3 ore, 6 ore, 12 ore, 1 giorno, 3 giorni, 5 giorni o 7 giorni. Per impostazione predefinita, viene eseguita una sincronizzazione incrementale ogni 3 ore.

Consigli sulla frequenza

Scegli una frequenza di sincronizzazione dei dati in linea con il volume di record recuperati e con le query al secondo (QPS) consigliate.

La seguente tabella mostra il numero tipico di record recuperati per le sincronizzazioni di uno, tre, cinque e sette giorni. Il numero effettivo di record può variare a seconda dell'origine dati e della sua configurazione.

QPS Volume dei record per la sincronizzazione di un giorno Volume di registrazione per la sincronizzazione di 3 giorni Volume di registrazione per la sincronizzazione di 5 giorni Volume di registrazione per la sincronizzazione di 7 giorni
5 432.000 1,296 mln 2,16 Mln 3M
10 864.000 2,592 Mln 4,32 Mln 6 mln
20 1,7 Mln 5,1 Mln 8,5 Mln 11,9 Mln
50 4,3 Mln 12,9 Mln 21,5 milioni 30,1 Mln
100 8,6 Mln 25,8 milioni 43 Mln 60,2 mln

Mettere in pausa e riprendere le sincronizzazioni

Puoi mettere in pausa e riprendere sia le sincronizzazioni complete sia quelle incrementali:

  • Quando metti in pausa un tipo di sincronizzazione, il datastore annulla le sincronizzazioni in corso di quel tipo e interrompe la pianificazione di nuove sincronizzazioni dello stesso tipo.

  • Quando riprendi un tipo di sincronizzazione, l'datastore pianifica la nuova sincronizzazione in base all'ultima ora di sincronizzazione pianificata, ma non continua la sincronizzazione interrotta in precedenza.

Ad esempio, se metti in pausa la sincronizzazione completa mentre è in corso, l'archivio dati annulla la sincronizzazione. Se in un secondo momento riprendi la sincronizzazione completa, il datastore pianifica automaticamente una nuova sincronizzazione completa in base alla pianificazione della sincronizzazione completa.

Origini dati di Google

Puoi connetterti a origini dati Google, come BigQuery, Spanner e Google Drive.

Elenco di controllo per le origini dati Google

Prima di inviare dati a Gemini Enterprise, esamina il seguente elenco di controllo:

Origini dati Google supportate

Google Drive Gmail Google Calendar Ricerca di persone
L'icona di Google Drive. L'icona di Gmail. L'icona di Google Calendar. L'icona della ricerca di persone.

Origini dati di terze parti

I datastore di terze parti importano i dati delle applicazioni di terze parti in Gemini Enterprise.

Elenco di controllo per le origini dati di terze parti

Prima di connettere un'origine dati di terze parti a Gemini Enterprise, consulta il seguente elenco di controllo:

  • Per alcune origini dati devono essere configurati ambiti e autorizzazioni specifici. Un amministratore dell'applicazione di terze parti deve esaminare le credenziali richieste per connettere un'origine dati e configurare l'autenticazione e le autorizzazioni. Per informazioni sugli ambiti e sulle autorizzazioni specifici, consulta la documentazione della rispettiva origine dati di terze parti.

  • Configura controllo dell'accesso per il datastore. Per ulteriori informazioni, vedi Identità e autorizzazioni

  • Decidi se i dati devono essere federati o importati (indicizzati).

  • Se i dati vengono importati, assicurati che le risorse non siano limitate per le credenziali utente che utilizzi per importare i dati nell'origine dati.

  • Decidi la frequenza di sincronizzazione dei dati.

  • Se utilizzi chiavi di crittografia gestite dal cliente (CMEK), crea chiavi multiregionali e monoregionali. Per maggiori informazioni, vedi Registrare chiavi a singola regione per datastore di terze parti.

  • Se disponi di informazioni che consentono l'identificazione personale (PII) e intendi utilizzare il completamento automatico per i suggerimenti di query, consulta Protezione dalle fughe di PII.

Origini dati di terze parti supportate

Microsoft Entra ID Microsoft OneDrive Microsoft Outlook Microsoft SharePoint
L'icona di Microsoft Entra ID. L'icona di OneDrive. L'icona di Microsoft Outlook. L'icona di SharePoint.
Jira Cloud Confluence Cloud ServiceNow
L'icona di Jira Cloud. L'icona di Confluence Cloud. L'icona di ServiceNow.