Acerca de las aplicaciones y los almacenes de datos

En esta página se describen las aplicaciones y los almacenes de datos de Vertex AI Search.

Con Vertex AI Search, puedes crear una aplicación de búsqueda o de recomendaciones y conectarla a un almacén de datos. Un Google Cloud proyecto puede contener varias aplicaciones.

Relación entre las aplicaciones y los almacenes de datos

La relación entre las aplicaciones y los almacenes de datos depende del tipo de aplicación:

  • Las aplicaciones de búsqueda personalizada tienen una relación de muchos a muchos con los almacenes de datos. Cuando se conectan varios almacenes de datos a una sola aplicación de búsqueda personalizada, se habla de búsqueda combinada. Para obtener información sobre las limitaciones de conectar una aplicación de búsqueda a más de un almacén de datos, consulta el artículo Acerca de la búsqueda combinada.

  • Una aplicación de recomendaciones personalizadas tiene una conexión individual con su almacén de datos.

  • Una aplicación multimedia tiene una relación de muchos a uno con su almacén de datos. Una aplicación solo puede conectarse a un almacén de datos, mientras que un almacén de datos determinado puede conectarse a varias aplicaciones. Por ejemplo, una aplicación de búsqueda de contenido multimedia y una aplicación de recomendaciones de contenido multimedia pueden compartir un almacén de datos.

  • Una aplicación de búsqueda de información sanitaria tiene una relación de muchos a uno con su almacén de datos. Una aplicación solo puede conectarse a un almacén de datos, mientras que un almacén de datos determinado puede conectarse a varias aplicaciones. Por ejemplo, una aplicación orientada a los pacientes y otra orientada a los proveedores pueden conectarse al mismo almacén de datos.

    Para importar datos sanitarios por lotes, los datos se importan en un almacén de datos que se encuentra en una aplicación. Para importar datos sanitarios en streaming (vista previa), los datos se importan en una entidad, que es un tipo de almacén de datos que se encuentra en un conector de datos. Un conector de datos también es un tipo de almacén de datos que se encuentra en una aplicación.

Una vez que se ha conectado un almacén de datos a una aplicación, no se puede desconectar.

Método de creación de aplicaciones e ingestión de datos

La forma de crear una aplicación e ingerir datos depende del tipo de datos que tengas:

  • En el caso de los datos de sitios web, puede usar la Google Cloud consola o la API. Para usar los datos de un sitio web creados con la API, debes asociarlos a una aplicación que tenga las funciones Enterprise habilitadas en la Google Cloud consola.

  • Para los datos estructurados o no estructurados, puedes usar laGoogle Cloud consola o la API.

  • En el caso de los datos sanitarios, puedes usar la Google Cloud consola o la API.

Redactar documentos

Cada almacén de datos tiene uno o varios registros de datos, denominados documentos. Lo que representa un documento varía en función del tipo de datos del almacén de datos:

  • Sitio web Un documento es una página web.

  • Datos estructurados. Un documento es una fila de una tabla o un registro JSON que sigue un esquema concreto. Puedes proporcionar este esquema tú mismo o dejar que las aplicaciones de IA lo obtengan a partir de los datos ingeridos.

  • Datos estructurados para contenido multimedia. Un documento es una fila de una tabla o un registro JSON que sigue un esquema específico de contenido multimedia. Los documentos son registros relacionados con contenido multimedia, como vídeos, artículos de noticias, archivos de música y pódcasts. Un documento contiene información que describe el elemento multimedia, como mínimo: título, URI de la ubicación del contenido, categorías, duración y fecha de disponibilidad.

  • Datos no estructurados. Un documento es un archivo en formato HTML, PDF con texto insertado o TXT. Los formatos PPTX y DOCX están disponibles en la vista previa.

  • Datos FHIR de Healthcare. Un documento es un recurso FHIR R4 admitido. Para ver una lista de los recursos FHIR R4 que admite Vertex AI Search, consulta la referencia del esquema de datos FHIR R4 de Healthcare.

Almacenes de datos y aplicaciones

En las aplicaciones de IA, hay varios tipos de almacenes de datos. Un almacén de datos solo puede contener un tipo de datos.

Datos de sitios web

Un almacén de datos con datos de sitios web usa datos indexados de sitios web públicos. Puede proporcionar un conjunto de patrones de URL que quiera incluir en su almacén de datos. Las páginas web que se ajustan a los patrones de URL se denominan páginas web incluidas. Después, puede configurar la búsqueda en los datos rastreados de las páginas web incluidas.

Por ejemplo, puedes proporcionar patrones de URL como example.com/faq/* y example.com/events/* y habilitar la búsqueda en los datos rastreados de las páginas web que se ajusten al patrón. Estos datos incluyen texto, imágenes etiquetadas con metadatos y otros datos estructurados, como etiquetas meta, atributos PageMap y datos de schema.org.

También puede proporcionar patrones de URL de partes de sitios web que quiera excluir, como example.com/events/members-only/* o example.com/events/past-*. Las URLs excluidas tienen prioridad sobre las incluidas.

Hay dos tipos de almacenes de datos de sitios web:

  • Búsqueda básica en sitios web:

    • Ofrece funciones de búsqueda en el índice de la Búsqueda de Google de los sitios web incluidos.
    • No requiere verificación de dominio.
  • Indexación avanzada de sitios web:

    • Ofrece funciones de búsqueda avanzada en un índice generado a partir de una de las siguientes opciones:
      • Los propietarios de la aplicación Vertex AI Search pueden controlar qué páginas web se indexan enviando sitemaps y manteniéndolos. Para obtener más información, consulta Indexar y actualizar páginas web con sitemaps. Este proceso mantiene el índice actualizado sin necesidad de intervención manual.
      • Los propietarios de la aplicación Vertex AI Search pueden realizar una indexación inicial que refleje el índice de la Búsqueda de Google y, a continuación, ampliar la cobertura del índice volviendo a rastrear los sitios web cuando sea necesario para mantenerlo actualizado. Para obtener más información, consulta Actualizar páginas web. Las funciones avanzadas de la indexación avanzada de sitios web se indican en el artículo Indexación avanzada de sitios web.
    • Requiere que los propietarios de los almacenes de datos de Vertex AI Search verifiquen los dominios a los que pertenecen los sitios web incluidos. Para obtener más información, consulta Verificar dominios de sitios web.
    • Proporciona la capacidad de añadir datos estructurados al esquema del almacén de datos. Un sitio web contiene datos no estructurados, pero puede añadir datos estructurados en forma de etiquetas meta, atributos PageMap y datos de schema.org a sus páginas web. Después, puede usar estos datos estructurados para editar el esquema del almacén de datos, tal como se explica en el artículo Usar datos estructurados para indexar sitios web avanzados.

Siguientes pasos

Para la búsqueda en sitios web:

Datos estructurados

Un almacén de datos con datos estructurados permite realizar búsquedas semánticas o recomendaciones sobre datos estructurados. Puede importar datos de BigQuery o de Cloud Storage. También puede subir manualmente datos JSON estructurados a través de la API.

Por ejemplo, puedes habilitar la búsqueda o las recomendaciones en un catálogo de productos para tu experiencia de comercio electrónico o en un directorio de médicos para la búsqueda o las recomendaciones de proveedores.

Aplicaciones de IA detecta automáticamente el esquema de los datos que importas. También puede proporcionar un esquema para sus datos. Si proporciona un esquema para sus datos, suele mejorar la calidad de los resultados.

Siguientes pasos

Para la búsqueda personalizada:

Para obtener recomendaciones personalizadas, sigue estos pasos:

Datos estructurados para contenido multimedia

Las aplicaciones multimedia solo se pueden conectar a almacenes de datos multimedia. Los almacenes de datos multimedia son almacenes de datos estructurados con un esquema definido por Google o con tu propio esquema personalizado que contiene un conjunto específico de cinco campos relacionados con los medios. Para obtener más información sobre el esquema, consulta Acerca de los documentos multimedia y los almacenes de datos.

Por ejemplo, puedes habilitar las recomendaciones creando una aplicación de recomendaciones de contenido multimedia para un catálogo de películas o un sitio de noticias, de forma que tus usuarios reciban sugerencias adecuadas y personalizadas.

Además de documentos multimedia, los almacenes de datos multimedia también contienen la información de eventos de usuario que permite a Vertex AI Search personalizar las recomendaciones y las búsquedas para tus usuarios. Los eventos de usuario son obligatorios para las aplicaciones multimedia. Para obtener información sobre los eventos de usuario, consulte Registrar eventos de usuario en tiempo real.

Siguientes pasos

Datos sin estructurar

Un almacén de datos no estructurados permite realizar búsquedas semánticas en datos como documentos e imágenes.

Los almacenes de datos no estructurados admiten documentos en formato HTML, PDF con texto insertado y TXT. Los formatos PPTX y DOCX están disponibles en la vista previa.

La Búsqueda ofrece resultados en forma de 10 URLs y respuestas resumidas a consultas en lenguaje natural. Los documentos deben subirse a un segmento de Cloud Storage con los permisos de acceso adecuados. Por ejemplo, una institución financiera puede habilitar la búsqueda en su corpus privado de publicaciones de investigación financiera, o una empresa biotecnológica puede habilitar la búsqueda o las recomendaciones en su repositorio privado de investigación médica.

Siguientes pasos

Para la búsqueda:

Datos FHIR de Healthcare

Una aplicación de búsqueda de datos sanitarios usa datos de FHIR R4 importados de un almacén FHIR de la API Cloud Healthcare. Para ver una lista de los recursos FHIR R4 que admite Vertex AI Search, consulta la referencia del esquema de datos FHIR R4 de Healthcare. Un almacén de datos FHIR R4 debe cumplir algunos requisitos para poder usarse como fuente de datos de un almacén de datos de búsqueda de Vertex AI. Para obtener más información, consulta cómo preparar datos FHIR sanitarios para la ingestión.

Siguientes pasos

Acerca de la búsqueda combinada

Puedes crear una aplicación de búsqueda combinada, en la que se pueden conectar varios almacenes de datos a una sola aplicación de búsqueda personalizada. Esta función te permite usar una aplicación para buscar en varias fuentes y tipos de datos.

Para crear una aplicación de búsqueda combinada, selecciona varios almacenes de datos al crear una aplicación de búsqueda personalizada. Si no seleccionas varios almacenes de datos durante la creación, no podrás añadir más más adelante.

Cuando obtienes resultados de búsqueda, puedes buscar en todos los almacenes de datos o filtrar los resultados de un solo almacén de datos.

Se aplican las siguientes limitaciones:

  • Añadir y quitar almacenes de datos:
    • Para activar la búsqueda combinada en una aplicación, debes conectar al menos dos almacenes de datos a la aplicación durante el proceso de creación.
    • Puedes añadir o quitar almacenes de datos de una aplicación de búsqueda combinada, pero la aplicación no puede tener menos de dos almacenes de datos conectados en ningún momento.
    • Si conectas un único almacén de datos a una aplicación de búsqueda durante la creación de la aplicación, no podrás añadir ni quitar ese almacén de datos.
  • Los almacenes de datos de sitios web deben tener activada la indexación avanzada de sitios web para poder usarse en la búsqueda combinada. Consulta más información en el artículo Indexación avanzada de sitios web.
  • No se admiten los almacenes de datos que contengan datos no estructurados importados mediante BigQuery.
  • La búsqueda combinada permite usar los siguientes campos en las solicitudes de búsqueda:
    • boostSpec
    • contentSearchSpec
    • dataStoreSpecs
    • facetSpecs
    • filter
    • languageCode
    • offset
    • oneBoxPageSize
    • orderBy
    • query
    • pageSize
    • pageToken
    • relevanceScoreSpec
    • relevanceThreshold
    • session
    • sessionSpec
    • spellCorrectionSpec
    • userInfo
    • userPseudoId
  • La búsqueda combinada permite usar los siguientes campos en dataStoreSpecs:
    • dataStore
    • boostSpec: si se especifican especificaciones de impulso para SearchRequest y dataStoreSpecs, ambas se aplican a los resultados de búsqueda.
    • filter: si se especifican filtros para SearchRequest y dataStoreSpecs, ambos se aplican a los resultados de búsqueda.
  • Las operaciones de creación, lectura, actualización y eliminación (CRUD) en las configuraciones de servicio se admiten en las aplicaciones combinadas. Solo se pueden añadir o actualizar los siguientes campos en una configuración de servicio:
    • boostControlIds
    • displayName
    • filterControlIds
    • genericConfig:
      • contentSearchSpec
    • name
    • solutionType
    • synonymsControlIds
  • Las aplicaciones de búsqueda combinada admiten operaciones CRUD en los siguientes controles:
    • boostAction
    • synonymAction
    • filterAction
  • Hay un límite de 50 almacenes de datos por aplicación de búsqueda.
  • Si un almacén de datos usa una configuración de CMEK, todos los demás almacenes de datos también deben usar la misma configuración de CMEK.