Almacenes de datos

Los almacenes de datos son utilizados por los controladores de almacenes de datos y las herramientas de almacén de datos de la guía de referencia para encontrar respuestas a las preguntas de los usuarios finales a partir de tus datos. Los repositorios de datos son una colección de sitios web y documentos, cada uno de los cuales hace referencia a tus datos.

Cuando un usuario final le hace una pregunta al agente, este busca una respuesta en el contenido de la fuente determinado y resume los resultados en una respuesta coherente. También se proporcionan vínculos de apoyo a las fuentes de la respuesta para que el usuario final pueda obtener más información. El agente puede proporcionar hasta cinco fragmentos de respuesta para una pregunta determinada.

Fuentes del almacén de datos

Existen diferentes fuentes que puedes proporcionar para tus datos:

Contenido de sitios web

Cuando agregas contenido de sitios web como fuente, puedes agregar y excluir varios sitios. Cuando especificas un sitio, puedes usar páginas individuales o * como comodín para un patrón. Se procesará todo el contenido HTML y PDF.

Debes verificar tu dominio cuando uses el contenido de un sitio web como fuente.

Limitaciones:

  • Para que los archivos de las URLs públicas existan en el índice de búsqueda, el indexador de la Búsqueda de Google debe haberlos rastreado. Puedes verificar esto con Google Search Console.
  • Se indexan un máximo de 200,000 páginas. Si el almacén de datos contiene más páginas, la indexación falla y permanece el último contenido indexado.

Importar datos

Puedes importar tus datos desde BigQuery o Cloud Storage. Estos datos pueden ser estructurados o no estructurados, y pueden ser con metadatos o sin metadatos.

Las siguientes opciones de importación de datos están disponibles:

  • Agregar o actualizar datos: Los documentos proporcionados se agregan al almacén de datos. Si un documento nuevo tiene el mismo ID que uno anterior, el nuevo reemplaza al anterior.
  • Anular datos existentes: Se borran todos los datos anteriores y, luego, se suben los nuevos. Esta acción es irreversible.

Almacén de datos estructurados

Los almacenes de datos estructurados pueden contener respuestas a preguntas frecuentes (FAQ). Cuando las preguntas del usuario coinciden con una pregunta subida con alta confianza, el agente muestra la respuesta a esa pregunta sin ninguna modificación. Puedes proporcionar un título y una URL para cada par de pregunta y respuesta que muestre el agente.

Cuando subas datos al almacén de datos, debes usar el formato CSV. Cada archivo debe tener una fila de encabezado que describa las columnas.

Por ejemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Las columnas title y url son opcionales y se pueden omitir:

"answer","question"
"42","What is the meaning of life?"

Durante el proceso de carga, se puede seleccionar una carpeta en la que cada archivo se trate como un archivo CSV, independientemente de la extensión.

Limitaciones:

  • El carácter de espacio adicional después de , genera un error.
  • Las líneas en blanco (incluso al final del archivo) generan un error.

Almacén de datos no estructurados

Los almacenes de datos no estructurados pueden contener contenido en los siguientes formatos:

  • HTML
  • PDF
  • TXT
  • CSV

Limitaciones:

  • El tamaño máximo del archivo es de 2.5 MB para los formatos basados en texto y de 100 MB para otros formatos.

Almacén de datos con metadatos

Se pueden proporcionar un título y una URL como metadatos. Cuando el agente está en una conversación con un usuario, puede proporcionarle esta información. Esto puede ayudar a los usuarios a vincular rápidamente páginas web internas a las que el indexador de la Búsqueda de Google no puede acceder.

Para importar contenido con metadatos, proporciona uno o más archivos de líneas JSON. Cada línea de este archivo describe un documento. No subes directamente los documentos reales; los URIs que vinculan a las rutas de acceso de Cloud Storage se proporcionan en el archivo de líneas JSON.

Cuando proporcionas tus archivos de líneas JSON, debes proporcionar una carpeta de Cloud Storage que los contenga. No coloques ningún otro archivo en esta carpeta.

Descripciones de los campos:

Campo Tipo Descripción
id string Es el identificador único del documento.
content.mimeType string Es el tipo de MIME del documento. Se admiten "application/pdf" y "text/html".
content.uri string Es el URI del documento en Cloud Storage.
structData string Objeto JSON de una sola línea con campos title y url opcionales.

Por ejemplo:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Almacén de datos sin metadatos

Este tipo de contenido no tiene metadatos. Solo proporciona los documentos que deseas importar. El tipo de contenido se determina según la extensión del archivo.

Cómo analizar y dividir la configuración

Según la fuente de datos, es posible que puedas configurar la configuración de análisis y división como la define Vertex AI Search.

Crea un almacén de datos

Sigue estos pasos para crear un almacén de datos:

  1. Ve a la consola de Agent Builder:

    Consola de Agent Builder

  2. Selecciona tu proyecto en el menú desplegable de la consola.

  3. Lee y acepta las Condiciones del Servicio y, luego, haz clic en Continuar y activar la API.

  4. Haz clic en Almacenes de datos en el panel de navegación izquierdo.

  5. Haz clic en Nuevo almacén de datos.

  6. Elige una fuente de datos.

  7. Habilita la indexación avanzada de sitios web. Esto es obligatorio para los agentes de almacén de datos.

  8. Proporciona datos y configuración para la fuente del almacén de datos que seleccionaste. La ubicación del almacén de datos debe corresponder a la ubicación del agente.

  9. Haz clic en Crear para crear el almacén de datos.

  10. De manera opcional, establece el idioma del almacén de datos:

    1. En la lista de almacenes de datos, haz clic en el que acabas de crear.
    2. Haz clic en el botón Editar para la configuración de idioma.
    3. Selecciona un idioma y haz clic en la marca de verificación para aplicarlo.
  11. Verifica el dominio de tu sitio web.

Usa Cloud Storage para un documento de almacén de datos

Si el contenido no es público, se recomienda almacenarlo en Cloud Storage. Cuando creas documentos de almacén de datos, proporcionas las URLs de tus objetos de Cloud Storage en el formato: gs://bucket-name/folder-name. Cada documento de la carpeta se agrega al almacén de datos.

Haz lo siguiente cuando crees un bucket de Cloud Storage:

Sigue las instrucciones de la guía de inicio rápido de Cloud Storage para crear un depósito y subir archivos.

Idiomas

Para conocer los idiomas admitidos, consulta la columna del almacén de datos en la referencia de idiomas.

Para obtener un mejor rendimiento, se recomienda que los almacenes de datos se creen en un solo idioma.

Después de crear un almacén de datos, puedes especificar el idioma del almacén de datos de forma opcional. Si configuras el idioma del almacén de datos, puedes conectarlo a un agente configurado para otro idioma. Por ejemplo, puedes crear un almacén de datos en francés que esté conectado a un agente en inglés.

Regiones admitidas

Para conocer las regiones compatibles, consulta la referencia de regiones.