Información acerca de las apps y los almacenes de datos

En esta página, se describen las apps y los almacenes de datos de Vertex AI Search. Para obtener información sobre los almacenes de datos de Vertex AI Agents, consulta Almacenes de datos de Vertex AI Agents.

Con Vertex AI Search, creas una app de búsqueda o recommendaciones y la conectas a un almacén de datos. Un proyecto de Google Cloud puede contener varias apps.

Relación entre las apps y los almacenes de datos

La relación entre las apps y los almacenes de datos depende del tipo de app:

  • Las apps de búsqueda genéricas tienen una relación de varios a varios con los almacenes de datos. Cuándo varios almacenes de datos están conectados a una única aplicación de búsqueda genérica, es decir, conocida como búsqueda combinada. Para obtener información sobre las limitaciones de conectar una app de búsqueda a más de un almacén de datos, consulta Acerca de la búsqueda combinada.

  • Una app de recomendaciones genéricas tiene una conexión uno a uno con su almacén de datos.

  • Una app de música tiene una relación de varios a uno con su almacén de datos. Una app puede conectarse a un almacén de datos, mientras que un almacén de datos determinado puede conectadas a varias aplicaciones. Por ejemplo, una búsqueda de contenido multimedia app y una de recomendaciones de contenido multimedia pueden compartir un almacén de datos.

  • Una app de búsqueda de atención médica tiene una relación de varios a uno con su almacén de datos. Una app puede conectarse a un almacén de datos, mientras que un almacén de datos determinado puede conectadas a varias aplicaciones. Por ejemplo, una app para pacientes y una app para proveedores pueden conectarse al mismo almacén de datos.

    Para la importación de datos por lotes de datos de atención médica, los datos se importan a un tienda dentro de una aplicación. Para la importación de datos de transmisión (vista previa) de En los datos de atención médica, estos se importan a una entidad, que es un tipo de datos dentro de un conector de datos. Un conector de datos también es un tipo de almacén de datos que se encuentra dentro de una app.

Una vez que un almacén de datos se conecta a una app, no se puede desconectar.

Método de creación de apps y transferencia de datos

La forma en que crees una app y transfieras datos depende del tipo de datos que tengas:

  • En el caso de los datos de sitios web, debes usar la consola de Google Cloud, no la API, para crear tu app y transferir datos.

  • Para datos estructurados o no estructurados, puedes usar el la consola de Google Cloud o la API.

  • Para los datos de atención médica, puedes usar la consola de Google Cloud o la API.

Documentos

Cada almacén de datos tiene uno o más registros de datos, llamados documentos. ¡Qué representa varía según el tipo de datos en el almacén de datos:

  • Sitio web. Un documento es una página web.

  • Datos estructurados. Un documento es una fila en una tabla o un registro JSON que sigue un esquema en particular. Puedes proporcionar este esquema tú mismo o puedes dejar que Vertex AI Agent Builder derive el esquema del archivo de datos no estructurados.

  • Datos estructurados para contenido multimedia. Un documento es una fila en una tabla o un registro JSON que sigue un esquema específico para el contenido multimedia. Los documentos son registros relacionados con el contenido multimedia, como videos, artículos de noticias, archivos de música y podcasts. Un documento contiene información que describe el elemento multimedia, como mínimo, el título, el URI a la ubicación del contenido, las categorías, la duración y la fecha de disponibilidad.

  • Datos estructurados para fuentes de datos de terceros (versión preliminar con lista de entidades permitidas). Un documento es una entidad específica de la fuente de datos de terceros, como un problema de Jira o un espacio de Confluence.

  • Datos no estructurados: Un documento es un archivo en formato HTML, PDF con texto incorporado o TXT. Los formatos PPTX y DOCX están disponibles en versión preliminar.

  • Datos de FHIR de atención médica Un documento es un FHIR R4 compatible. recurso. Para obtener una lista de los recursos FHIR R4 que Vertex AI Search admite, consulta Referencia de esquema de datos de FHIR R4 de Healthcare.

Almacenes de datos y apps

En Vertex AI Agent Builder, existen varios tipos de almacenes de datos. Un almacén de datos solo puede contener un tipo de datos.

Datos del sitio web

Un almacén de datos con datos de sitios web usa datos indexados de sitios web públicos. Puedes Proporcionar un conjunto de dominios y configurar la búsqueda o las recomendaciones en los datos rastreados de los dominios. Estos datos incluyen texto, imágenes etiquetadas con metadatos y datos estructurados.

Por ejemplo, puedes proporcionar dominios como yourexamplewebsite.com/faq y yourexamplewebsite.com/events, y habilitar la búsqueda o las recomendaciones en el contenido de esos dominios.

Hay dos tipos de almacenes de datos de sitios web:

  • Búsqueda básica del sitio web:

    • Proporciona capacidades de búsqueda a través del índice de la Búsqueda de Google existente para los sitios web incluidos.
    • No requiere verificación del dominio.
  • Indexación avanzada de sitios web:

    • Proporciona capacidades de búsqueda avanzada en un índice que se genera a partir de en el índice existente de la Búsqueda de Google para los sitios web incluidos. Luego, los propietarios de apps de Vertex AI Agent Builder pueden expandir la cobertura del índice mediante el rastreo de los sitios web cuando sea necesario, lo que lo mantiene actualizado. Para obtener más información, consulta Cómo actualizar páginas web. Las funciones avanzadas de la indexación de sitios web avanzada se enumeran en Indexación avanzada de sitios web.
    • Se requiere la verificación del dominio. Para obtener más información, consulta Cómo verificar los dominios de sitios web.
    • Proporciona la capacidad de agregar datos estructurados al esquema del almacén de datos. Un sitio web contiene datos no estructurados, pero puedes agregar datos estructurados formato de etiquetas meta, atributos de PageMap y datos de schema.org a tu páginas web. Luego, puedes usar estos datos estructurados para editar el esquema del almacén de datos, como se explica en Cómo usar datos estructurados para la indexación avanzada de sitios web.

¿Qué sigue?

Para la búsqueda en sitios web, sigue estos pasos:

Para obtener recomendaciones, haz lo siguiente:

Datos estructurados

Un almacén de datos con datos estructurados habilita la búsqueda semántica o las recomendaciones sobre datos estructurados. Puedes importar datos desde BigQuery o Cloud Storage. También puedes subir datos JSON estructurados de forma manual a través de la API.

Por ejemplo, puedes habilitar la búsqueda o las recomendaciones en un catálogo de productos para tu experiencia de comercio electrónico o un directorio de médicos para buscar proveedores recomendaciones.

Vertex AI Agent Builder detecta automáticamente el esquema a partir de los datos que importas. De manera opcional, puedes proporcionar un esquema para tus datos. Proporciona un esquema de tus datos, por lo general, mejora la calidad de los resultados.

¿Qué sigue?

Para la búsqueda genérica:

Para recomendaciones genéricas:

Datos estructurados para contenido multimedia

Las apps de música solo se pueden conectar a almacenes de datos multimedia. Datos multimedia son almacenes de datos estructurados con un esquema definido por Google o con tu propio un esquema personalizado que contenga un conjunto específico de cinco campos relacionados con el contenido multimedia. Para más información sobre el esquema, consulta Acerca de los documentos y datos multimedia tiendas.

Por ejemplo, para habilitar las recomendaciones, crea recomendaciones de contenido multimedia una app para un catálogo de películas o un sitio de noticias, de modo que los usuarios tengan acceso y las sugerencias personalizadas.

Además de los documentos multimedia, los almacenes de datos multimedia también contienen la información de eventos de usuario que permite a Vertex AI Search personalizar las recomendaciones y buscar a tus usuarios. Los eventos del usuario son obligatorios para las apps de recomendaciones de contenido multimedia y se recomiendan para las apps de búsqueda de contenido multimedia. Para obtener información sobre los eventos de usuario, consulta Registra eventos de usuario en tiempo real.

¿Qué sigue?

Datos estructurados para almacenes de datos de terceros

Los siguientes conectores de fuente de datos de terceros están disponibles en versión preliminar con lista de entidades permitidas:

  • Confluence
  • Jira
  • Salesforce
  • Sharepoint en línea
  • Slack

Los datos de estos terceros se consideran datos estructurados.

Cuando configuras un conector nuevo, seleccionas una frecuencia de sincronización. Tú y seleccionar qué entidades sincronizar. Las entidades varían según la fuente, como como problemas para Jira, y contenido y espacios para Confluence. Un almacén de datos único es crear para cada entidad. Los almacenes de datos de entidades se agrupan por instancia del conector.

¿Qué sigue?

Para la Búsqueda:

Para obtener recomendaciones, haz lo siguiente:

Datos no estructurados

Un almacén de datos no estructurados permite búsquedas semánticas o recomendaciones sobre los datos como imágenes y documentos.

Los almacenes de datos no estructurados admiten documentos en formato HTML, PDF con texto incorporado y TXT. Los formatos PPTX y DOCX están disponibles en versión preliminar.

La Búsqueda proporciona resultados en forma de 10 URLs y respuestas resumidas para las consultas en lenguaje natural. Los documentos se deben subir a un bucket de Cloud Storage con los permisos de acceso adecuados. Por ejemplo, una institución financiera puede habilitar la búsqueda o las recomendaciones en su corpus privado de recursos publicaciones de investigación, o bien una empresa de biotecnología puede habilitar sobre su repositorio privado de investigación médica.

¿Qué sigue?

Para la Búsqueda:

En el caso de las recomendaciones genéricas:

Datos de FHIR de atención médica

Una aplicación de búsqueda de atención médica usa datos FHIR R4 importados de un FHIR de la API de Cloud Healthcare en una tienda física. Para obtener una lista de los recursos FHIR R4 que Vertex AI Search consulta la Referencia de esquema de datos de Healthcare FHIR R4. Un almacén de datos de FHIR R4 debe cumplir con algunos requisitos para poder usarse como fuente de datos para el almacén de datos de Vertex AI Search. Para obtener más información, consulta cómo preparar datos de FHIR de atención médica para la transferencia.

¿Qué sigue?

Acerca de la búsqueda combinada

Puedes crear una app de búsqueda combinada, en la que se puedan conectar varios almacenes de datos a una única aplicación de búsqueda genérica. Esta función te permite usar una app para realizar búsquedas entre múltiples fuentes y tipos de datos.

Para crear una app de búsqueda combinada, selecciona varios almacenes de datos cuando crees una app de búsqueda genérica nueva. Si no seleccionas varios almacenes de datos durante la creación, no podrás agregar almacenes de datos adicionales más adelante.

Cuando obtienes resultados de la búsqueda, puedes buscar en todos los almacenes de datos o filtrar los resultados de un solo almacén de datos.

Se aplica la siguiente limitación:

  • Agrega y quita almacenes de datos:
    • Para activar la búsqueda combinada para una app, debes conectar al menos dos datos almacena en él durante la creación de la app.
    • Puedes agregar o quitar almacenes de datos de una app de búsqueda combinada, pero la app no puede tener menos de dos almacenes de datos conectados en ningún momento.
    • Si conectas un solo almacén de datos a una app de búsqueda durante su creación, no podrás agregar ni quitar ese almacén de datos.
  • Los almacenes de datos de sitios web deben tener activada la indexación avanzada de sitios web para usarlas en la búsqueda combinada. Para obtener más información, consulta Indexación avanzada de sitios web.
  • No se admiten los almacenes de datos que contienen datos no estructurados importados con BigQuery.
  • La búsqueda combinada permite los siguientes campos en las solicitudes de búsqueda:
    • query
    • pageSize
    • offset
    • dataStoreSpec
    • pageToken
    • filter
    • spellCorrectionSpec
    • session
    • contentSearchSpec:
      • summarySpec
      • extractiveContentSpec
      • searchResultMode
      • chunkSpec
  • Además de los campos mencionados anteriormente, los siguientes campos solo son compatibles con las apps de búsqueda combinada cuando se filtran las solicitudes de búsqueda para obtener resultados de un solo almacén de datos. No se admiten cuando se obtienen resultados de más de un almacén de datos:
    • facetSpec
  • La búsqueda combinada permite los siguientes campos en dataStoreSpec:
    • filter: Si hay filtros especificados para SearchRequest y dataStoreSpec, ambos filtros se aplican a los resultados de la búsqueda
  • Las operaciones de creación, lectura, actualización y eliminación (CRUD) en las configuraciones de entrega son compatibles con las apps combinadas. Solo se pueden agregar o actualizar los siguientes campos en una configuración de entrega:
    • name
    • displayName
    • solutionType
    • genericConfig:
      • contentSearchSpec:
        • summarySpec
        • extractiveContentSpec
        • searchResultMode
        • chunkSpec
    • boostControlIds
    • synonymsControlIds
    • onewaySynonymsControlIds
  • Las operaciones de CRUD en los siguientes controles son compatibles con las apps de búsqueda combinada:
    • boostAction
    • synonymACtion
  • Las apps de búsqueda combinada no admiten las siguientes funciones:
    • Filtrar, redireccionar, ignorar, reemplazar y disociar controles de publicación
    • Fragmentos que usan contentSearchSpec.snippetSpec en solicitudes de búsqueda o configuraciones de publicación
    • Búsqueda con seguimientos