Introducción a los conectores y los almacenes de datos

Los conectores obtienen datos de fuentes de datos de Google y de terceros en Gemini Enterprise y los almacenan en almacenes de datos específicos. En este documento se ofrece una descripción general de estos conectores. Centralizar tus datos en Gemini Enterprise mejora la accesibilidad de los datos, la función de búsqueda y las capacidades analíticas.

Imagen general que muestra cómo obtienen los conectores los datos de Gemini Enterprise.
Descripción general de los conectores

Conceptos de conector y almacén de datos

Almacenes de datos
Cada fuente de datos admite un conjunto de tipos de entidad. Por ejemplo, Jira Cloud tiene entidades como incidencias, archivos adjuntos, comentarios y registros de trabajo, que son exclusivas de la fuente de datos. Gemini Enterprise crea un almacén de datos independiente para cada entidad. Por lo tanto, cuando creas un almacén de datos con la Google Cloud consola, obtienes una colección de almacenes de datos que representan estas entidades de datos ingeridas.
Federación de datos frente a ingestión (indexación)
La federación de datos obtiene información directamente de la fuente de datos especificada. Como los datos no se copian en el índice de Vertex AI Search, no tienes que preocuparte por el almacenamiento de datos. Sin embargo, como los datos no están indexados, la calidad de la búsqueda puede ser inferior.

La ingestión de datos (indexación) copia los datos en el índice de Vertex AI Search. Esto puede mejorar la calidad de la búsqueda. Sin embargo, este proceso consume más espacio de almacenamiento y tiempo.
Datos sin estructurar
El formato de datos admitido es específico de la fuente de datos y del tipo de entidad. Si el contenido de una entidad se almacena en un formato no estructurado (como HTML, PDF, TXT, PPTX o DOCX), Vertex AI Search crea un almacén de datos no estructurados. Para obtener más información sobre los tipos de archivo admitidos, consulta Búsqueda no estructurada.
Datos estructurados
El formato de datos admitido es específico de la fuente de datos y del tipo de entidad. Si el contenido de una entidad se almacena en un formato estructurado, Vertex AI Search crea un almacén de datos estructurados. Para obtener más información, consulta Búsqueda estructurada.
Esquemas de datos
El esquema de datos define la estructura de los datos. Cuando importas datos estructurados con Gemini Enterprise, el sistema detecta automáticamente el esquema. Puedes usar el esquema detectado automáticamente o definirlo mediante la API. Para obtener más información, consulta Proporcionar o detectar automáticamente un esquema.
Regiones de almacén de datos
Cuando ingieras datos, tendrás que seleccionar la región en la que quieras almacenarlos, como el mundo, EE. UU. o la UE. Para obtener más información, consulta Ubicaciones de Gemini Enterprise. Los datos almacenados en las regiones de EE. UU. o de la UE deben cifrarse. El cifrado predeterminado es con Google-owned and Google-managed encryption keys, pero también puedes usar claves de cifrado gestionadas por el cliente.
Sincronizaciones de datos

Una sincronización de datos extrae y actualiza los datos de identidad (como roles, permisos y usuarios) y los datos de entidad (como los datos relacionados con una fuente de datos específica) de la fuente de datos original. Para obtener más información, consulta Tipos y programaciones de sincronización de datos.

Tipos y programaciones de sincronización de datos

Una sincronización de datos recoge datos de entidades, datos de identidad o ambos, y actualiza el contenido del almacén de datos en Gemini Enterprise.

Tipos de sincronización

Los almacenes de datos de Gemini Enterprise usan dos tipos esenciales de sincronización de datos:

  • Una sincronización completa captura todo el estado de la aplicación o el servicio de terceros. Esto incluye adiciones, actualizaciones y eliminaciones. Una sincronización completa sustituye el contenido del almacén de datos.

  • Una sincronización incremental captura periódicamente los datos de las entidades que se han añadido o actualizado desde la última sincronización. No sincroniza datos de identidad ni eliminaciones de datos de entidades.

Puede programar una sincronización completa por separado para los siguientes tipos de datos:

  • Una sincronización de entidades recoge datos específicos de la fuente de datos de terceros. Por ejemplo, un almacén de datos de un sistema como Jira puede sincronizar incidencias, registros de trabajo, comentarios y archivos adjuntos. Las sincronizaciones de entidades no incluyen información de identidad.

  • Una sincronización de identidades recoge datos sobre las cuentas de usuario asociadas a un grupo de ACL.

Interacción entre la sincronización de identidades y la sincronización completa

Para entender cómo funciona una sincronización de identidades individual con una sincronización completa, vamos a ver un ejemplo con dos páginas: page_1, vinculada a un grupo de LCA group_1, y page_2, vinculada a un grupo de LCA group_2.

  1. Se ejecuta una sincronización inicial de identidades y se obtiene información sobre los grupos group_1 y group_2.

    • Supongamos que group_1 contiene al usuario user_1.

    • Supongamos que group_2 contiene al usuario user_2.

    Esta sincronización de identidades establece la siguiente asignación:

    • user_1 se asigna a group_1.

    • user_2 se asigna a group_2.

  2. Además de la sincronización de identidades, se ejecuta una sincronización completa que obtiene tanto page_1 como page_2.

    Esta sincronización completa establece la siguiente asignación:

    • user_1 tiene acceso a page_1 (a través de group_1).

    • user_2 tiene acceso a page_2 (a través de group_2).

Sincronizaciones programadas

Para cada almacén de datos, puedes seleccionar una frecuencia para diferentes tipos de sincronización:

  • Las sincronizaciones completas de todos los datos de identidad y de entidad se pueden programar simultáneamente cada 3, 6 o 12 horas, o cada 1 o 3 días.

  • Las sincronizaciones completas independientes de todos los datos de identidad y de todos los datos de entidad se pueden programar por separado con cualquiera de las siguientes frecuencias de sincronización personalizadas:

    • Datos de entidad: cada 3, 6 o 12 horas, o cada 1, 3, 5 o 7 días.

    • Datos de identidad: cada 30 minutos, 1 hora, 3 horas, 6 horas, 12 horas, 1 día, 3 días, 5 días y 7 días.

  • Las sincronizaciones incrementales de los datos de entidades actualizados o añadidos se pueden programar para que se realicen cada 3, 6 o 12 horas, o bien cada 1, 3, 5 o 7 días. De forma predeterminada, la sincronización incremental se realiza cada 3 horas.

Recomendaciones de frecuencia

Elige una frecuencia de sincronización de datos que se ajuste al volumen de registros obtenidos y a las consultas por segundo (CPS) recomendadas.

En la siguiente tabla se muestra el número habitual de registros obtenidos en sincronizaciones de uno, tres, cinco y siete días. El número real de registros puede variar en función de la fuente de datos y su configuración.

Consultas por segundo Registrar el volumen de sincronización de un día Registrar el volumen de sincronización de 3 días Volumen de registros de la sincronización de 5 días Volumen de registros de la sincronización de 7 días
5 432.000 1,296 M 2,16 M 3M
10 864.000 2,592 M 4,32 M 6M
20 1,7 millones 5,1 M 8,5 M 11,9 M
50 4,3 M 12,9 M 21,5 M 30,1 M
100 8,6 M 25,8 M 43 M 60,2 M

Pausar y reanudar sincronizaciones

Puedes pausar y reanudar tanto las sincronizaciones completas como las incrementales:

  • Cuando pausas un tipo de sincronización, el almacén de datos cancela las sincronizaciones de ese tipo que estén en curso y deja de programar nuevas sincronizaciones de ese tipo.

  • Cuando reanudas un tipo de sincronización, el almacén de datos programa la nueva sincronización en función de la última hora de sincronización programada, pero no continúa la sincronización que se había interrumpido anteriormente.

Por ejemplo, si pausas la sincronización completa mientras se está llevando a cabo, el almacén de datos cancelará esa sincronización. Si más adelante reanudas la sincronización completa, el almacén de datos programará automáticamente una nueva sincronización completa según la programación de sincronización completa.

Fuentes de datos de Google

Puede conectarse a fuentes de datos de Google, como BigQuery, Spanner y Google Drive.

Lista de comprobación de fuentes de datos de Google

Antes de enviar datos a Gemini Enterprise, consulta la siguiente lista de comprobación:

Fuentes de datos de Google admitidas

Google Drive Gmail Google Calendar Búsqueda de personas
Icono de Google Drive. Icono de Gmail. Icono de Google Calendar. Icono de búsqueda de personas.

Fuentes de datos de terceros

Los almacenes de datos de terceros ingieren datos de aplicaciones de terceros en Gemini Enterprise.

Lista de comprobación de fuentes de datos de terceros

Antes de conectar una fuente de datos de terceros a Gemini Enterprise, consulta la siguiente lista de comprobación:

  • Deben configurarse permisos y ámbitos específicos para determinadas fuentes de datos. Un administrador de la aplicación de terceros debe revisar las credenciales necesarias para conectar una fuente de datos y configurar la autenticación y los permisos. Para obtener información sobre los ámbitos y permisos específicos, consulta la documentación de la fuente de datos de terceros correspondiente.

  • Configura el control de acceso de tu almacén de datos. Para obtener más información, consulta Identidad y permisos.

  • Decide si los datos deben federarse o ingerirse (indexarse).

  • Si se ingieren datos, asegúrese de que los recursos no estén restringidos para las credenciales de usuario que utilice para ingerir datos en la fuente de datos.

  • Decide con qué frecuencia se deben sincronizar los datos.

  • Si usas claves de cifrado gestionadas por el cliente (CMEK), crea claves multirregión y de una sola región. Para obtener más información, consulta Registrar claves de una sola región para almacenes de datos de terceros.

  • Si tienes información personal identificable (IPI) y quieres usar la función de autocompletar para sugerencias de consultas, consulta cómo protegerte frente a las filtraciones de IPI.

Fuentes de datos de terceros admitidas

.
Microsoft Entra ID Microsoft OneDrive Microsoft Outlook Microsoft SharePoint
Icono de Microsoft Entra ID. El icono de OneDrive. Icono de Microsoft Outlook. El icono de SharePoint.
Jira Cloud Confluence Cloud ServiceNow
El icono de Jira Cloud. Icono de Confluence Cloud. El icono de ServiceNow.