Acerca de las aplicaciones y los almacenes de datos

En esta página se describen las aplicaciones y los almacenes de datos de Gemini Enterprise.

Con Gemini Enterprise, creas una aplicación y la conectas a un almacén de datos. Un Google Cloud proyecto puede contener varias aplicaciones.

Términos clave:

  • Aplicación: una aplicación de Gemini Enterprise proporciona resultados de búsqueda, acciones y agentes a tus usuarios finales. El término aplicación se puede usar indistintamente con el término motor en el contexto de las APIs.

  • Almacén de datos: un almacén de datos es una entidad que contiene los datos ingeridos de una fuente de datos propia, como Cloud Storage, o de aplicaciones de terceros, como Jira o Salesforce. Los almacenes de datos que contienen datos de aplicaciones de terceros también se denominan conectores de datos.

Relación entre las aplicaciones y los almacenes de datos

Una aplicación debe estar conectada a un almacén de datos para poder usar los datos de este y ofrecer resultados de búsqueda, respuestas o acciones.

Las aplicaciones tienen una relación de muchos a muchos con los almacenes de datos. Cuando se conectan varios almacenes de datos a una sola aplicación, se habla de búsqueda combinada. Para obtener información sobre las limitaciones de conectar una aplicación de búsqueda a más de un almacén de datos, consulta el artículo Acerca de la búsqueda combinada.

Método de creación de aplicaciones e ingestión de datos

La forma de crear una aplicación e ingerir datos depende del tipo de datos que tengas:

  • En el caso de los datos de terceros, debe usar la Google Cloud consola, no la API, para crear su aplicación e ingerir datos.

  • Para otros datos, puedes usar la Google Cloud consola o la API.

Redactar documentos

Cada almacén de datos tiene uno o varios registros de datos, denominados documentos. Lo que representa un documento varía en función del tipo de datos del almacén de datos:

  • Datos de fuentes de datos de terceros. Un documento es una entidad específica de la fuente de datos de terceros, como un problema de Jira o un espacio de Confluence.

  • Datos estructurados. Un documento es una fila de una tabla o un registro JSON que sigue un esquema concreto. Puedes proporcionar este esquema tú mismo o dejar que Gemini Enterprise lo derive de los datos ingeridos.

  • Datos no estructurados. Un documento es un archivo en formato HTML, PDF con texto insertado o TXT. Los formatos PPTX y DOCX están disponibles en la vista previa.

Almacenes de datos y aplicaciones

En Gemini Enterprise, hay varios tipos de almacenes de datos. Un almacén de datos solo puede contener un tipo de datos.

Datos estructurados para tiendas de datos de terceros

Los siguientes conectores de fuentes de datos de terceros están disponibles en la versión preliminar con lista de permitidos:

  • Confluence
  • Jira
  • Salesforce
  • SharePoint Online
  • Slack

Los datos de estos terceros se consideran datos estructurados.

Cuando configuras un conector, seleccionas una frecuencia de sincronización. También puedes seleccionar qué entidades quieres sincronizar. Las entidades varían en función de la fuente, como los problemas de Jira y el contenido y los espacios de Confluence. Se crea un almacén de datos único para cada entidad. Los almacenes de datos de entidades se agrupan por instancia de conector.

Siguientes pasos

Datos estructurados

Un almacén de datos con datos estructurados permite realizar búsquedas semánticas o recomendaciones sobre datos estructurados. Puede importar datos de BigQuery o de Cloud Storage. También puede subir manualmente datos JSON estructurados a través de la API.

Por ejemplo, puedes habilitar la búsqueda o las recomendaciones en un catálogo de productos para tu experiencia de comercio electrónico o en un directorio de médicos para la búsqueda o las recomendaciones de proveedores.

Gemini Enterprise detecta automáticamente el esquema de los datos que importas. También puede proporcionar un esquema para sus datos. Si proporciona un esquema para sus datos, suele mejorar la calidad de los resultados.

Siguientes pasos

Datos sin estructurar

Un almacén de datos no estructurados permite realizar búsquedas semánticas o recomendaciones sobre datos, como documentos e imágenes.

Los almacenes de datos no estructurados admiten documentos en formato HTML, PDF con texto insertado y TXT. Los formatos PPTX y DOCX están disponibles en la vista previa.

La Búsqueda ofrece resultados en forma de 10 URLs y respuestas resumidas a consultas en lenguaje natural. Los documentos deben subirse a un segmento de Cloud Storage con los permisos de acceso adecuados. Por ejemplo, una institución financiera puede habilitar la búsqueda o las recomendaciones en su corpus privado de publicaciones de investigación financiera, o una empresa biotecnológica puede habilitar la búsqueda o las recomendaciones en su repositorio privado de investigación médica.

Siguientes pasos

Acerca de la búsqueda combinada

Con la búsqueda combinada, se pueden conectar varios almacenes de datos a una sola aplicación. Esto permite que la aplicación busque en varias fuentes y tipos de datos.

Para crear una aplicación de búsqueda combinada, selecciona varios almacenes de datos al crear una aplicación. Si no seleccionas varios almacenes de datos durante la creación, no podrás añadir más almacenes de datos más adelante.

Cuando obtengas resultados de búsqueda, puedes buscar en todos los almacenes de datos o filtrar los resultados de un solo almacén de datos.

La búsqueda combinada tiene las siguientes limitaciones:

  • Añadir y quitar almacenes de datos:
    • Para activar la búsqueda combinada en una aplicación, debes conectar al menos dos almacenes de datos durante la creación de la aplicación.
    • Puedes añadir o quitar almacenes de datos de una aplicación de búsqueda combinada, pero la aplicación no puede tener menos de dos almacenes de datos conectados en ningún momento.
    • Si conectas un único almacén de datos a una aplicación de búsqueda durante la creación de la aplicación, no podrás añadir ni quitar ese almacén de datos.
  • No se admiten los almacenes de datos que contengan datos no estructurados importados mediante BigQuery.
  • La búsqueda combinada permite usar los siguientes campos en las solicitudes de búsqueda:
    • boostSpec
    • contentSearchSpec
    • dataStoreSpecs
    • facetSpecs
    • filter
    • languageCode
    • offset
    • oneBoxPageSize
    • orderBy
    • query
    • pageSize
    • pageToken
    • relevanceScoreSpec
    • relevanceThreshold
    • session
    • sessionSpec
    • spellCorrectionSpec
    • userInfo
    • userPseudoId
  • La búsqueda combinada permite usar los siguientes campos en dataStoreSpecs:
    • dataStore
    • boostSpec: si se especifican especificaciones de impulso para SearchRequest y dataStoreSpecs, ambas se aplican a los resultados de búsqueda.
    • filter: si se especifican filtros para SearchRequest y dataStoreSpecs, ambos se aplican a los resultados de búsqueda.
  • Las operaciones de creación, lectura, actualización y eliminación (CRUD) en las configuraciones de servicio se admiten en las aplicaciones combinadas. Solo se pueden añadir o actualizar los siguientes campos en una configuración de servicio:
    • boostControlIds
    • displayName
    • filterControlIds
    • genericConfig:
      • contentSearchSpec
    • name
    • solutionType
    • synonymsControlIds
  • Las aplicaciones de búsqueda combinada admiten operaciones CRUD en los siguientes controles:
    • boostAction
    • synonymAction
    • filterAction
  • Hay un límite de 50 almacenes de datos por aplicación de búsqueda.
  • Si un almacén de datos usa una configuración de CMEK, todos los demás almacenes de datos también deben usar la misma configuración de CMEK.