Almacenes de datos

Los agentes de almacenes de datos usan los almacenes de datos para encontrar respuestas a las preguntas del usuario final a partir de los datos. Los almacenes de datos son un conjunto de sitios web y documentos, y cada uno de ellos hace referencia a tus datos.

Cuando un usuario final le hace una pregunta al agente, este busca una respuesta del contenido de la fuente dado y resume los resultados en una respuesta coherente. También proporciona vínculos de respaldo a las fuentes de la respuesta para que el usuario final pueda obtener más información. El agente puede proporcionar hasta cinco fragmentos de respuesta para una pregunta determinada.

Fuentes de almacenes de datos

Existen diferentes fuentes que puedes proporcionar para tus datos:

Contenido de sitios web

Cuando agregas contenido de sitios web como fuente, puedes agregar y excluir varios sitios. Cuando especificas un sitio, puedes usar páginas individuales o * como comodín para un patrón. Se procesará todo el contenido HTML y PDF.

Debes verificar tu dominio cuando uses contenido del sitio web como fuente.

Limitaciones:

  • Para que los archivos de las URL públicas existan en el índice de búsqueda, el indexador de la Búsqueda de Google debe haberlos rastreado. Puedes verificar esto con Google Search Console.
  • Se indexa un máximo de 200,000 páginas. Si el almacén de datos contiene más páginas, la indexación falla y queda el último contenido indexado.

Importar datos

Puedes importar tus datos desde BigQuery o Cloud Storage. Estos datos pueden ser estructurados o no estructurados, y pueden estar con metadatos o sin metadatos.

Están disponibles las siguientes opciones de importación de datos:

  • Agregar o actualizar datos: Se agregan los documentos proporcionados al almacén de datos. Si un documento nuevo tiene el mismo ID que un documento antiguo, el documento nuevo reemplazará al antiguo.
  • Anular los datos existentes: Se borran todos los datos antiguos y, luego, se suben los nuevos. Esta acción es irreversible.

Almacén de datos estructurados

Los almacenes de datos estructurados pueden contener respuestas a las preguntas frecuentes. Cuando las preguntas del usuario coinciden con un alto nivel de confianza con una pregunta subida, el agente muestra la respuesta a esa pregunta sin ninguna modificación. Puedes proporcionar un título y una URL para cada par de pregunta y respuesta que muestra el agente.

Cuando se suben datos al almacén de datos, se debe usar el formato CSV. Cada archivo debe tener una fila de encabezado que describa las columnas.

Por ejemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Las columnas title y url son opcionales y se pueden omitir:

"answer","question"
"42","What is the meaning of life?"

Durante el proceso de carga, se puede seleccionar una carpeta en la que cada archivo se trate como un archivo CSV, sin importar la extensión.

Limitaciones:

  • Un carácter de espacio adicional después de , genera un error.
  • Las líneas en blanco (incluso al final del archivo) generan un error.

Almacén de datos no estructurados

Los almacenes de datos no estructurados pueden incluir contenido en los siguientes formatos:

  • HTML
  • PDF
  • TXT
  • CSV

Limitaciones:

  • El tamaño máximo del archivo es de 2.5 MB para los formatos basados en texto y de 100 MB para otros formatos.

Almacén de datos con metadatos

Puedes proporcionar un título y una URL como metadatos. Cuando el agente está en una conversación con un usuario, puede proporcionarle esta información. Esto puede ayudar a los usuarios a vincular rápidamente páginas web internas a las que no puede acceder el indexador de la Búsqueda de Google.

Para importar contenido con metadatos, proporciona uno o más archivos de líneas JSON. Cada línea de este archivo describe un documento. No debes subir los documentos directamente, ya que los URI que se vinculan con las rutas de acceso de Cloud Storage se proporcionan en el archivo de líneas JSON.

Cuando proporcionas los archivos de líneas JSON, proporcionas una carpeta de Cloud Storage que contiene estos archivos. No coloques ningún otro archivo en esta carpeta.

Descripciones de los campos:

Campo Tipo Descripción
id string Es el identificador único del documento.
content.mimeType string Es el tipo de MIME del documento. Se admiten "application/pdf" y "text/html".
content.uri string Es el URI del documento en Cloud Storage.
content.structData string Objeto JSON de una sola línea con los campos opcionales title y url.

Por ejemplo:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Almacén de datos sin metadatos

Este tipo de contenido no tiene metadatos. Solo proporciona los documentos que deseas importar. La extensión del archivo determina el tipo de contenido.

Configuración de análisis y fragmentación

Según la fuente de datos, es posible que puedas establecer la configuración de análisis y fragmento según lo que define Vertex AI Search.

Crea un almacén de datos

Para crear un almacén de datos, sigue estos pasos:

  1. Ve a la consola de Agent Builder:

    Consola de Agent Builder

  2. Selecciona tu proyecto en el menú desplegable de la consola.

  3. Lee y acepta las Condiciones del Servicio y, luego, haz clic en Continuar y activar la API.

  4. Haz clic en almacenes de datos en la barra de navegación izquierda.

  5. Haz clic en New Data Store.

  6. Elige una fuente de datos.

  7. Habilita la Indexación avanzada de sitios web. Esto es obligatorio para los agentes de almacén de datos.

  8. Proporciona los datos y la configuración de la fuente del almacén de datos que seleccionaste. La ubicación del almacén de datos debe corresponder a la ubicación del agente.

  9. Haz clic en Crear para crear el almacén de datos.

  10. De manera opcional, configura el idioma del almacén de datos:

    1. En la lista de almacenes de datos, haz clic en el almacén de datos que acabas de crear.
    2. Haz clic en el botón Editar de la configuración de idioma.
    3. Selecciona un idioma y haz clic en la marca de verificación para aplicarlo.
  11. Verifica el dominio de tu sitio web.

Cómo usar Cloud Storage para un documento de almacén de datos

Si el contenido no es público, se recomienda almacenarlo en Cloud Storage. Cuando creas documentos del almacén de datos, proporcionas las URL para tus objetos de Cloud Storage en el formato: gs://bucket-name/folder-name. Cada documento dentro de la carpeta se agrega al almacén de datos.

Haz lo siguiente cuando crees un bucket de Cloud Storage:

Sigue las instrucciones de la guía de inicio rápido de Cloud Storage para crear un bucket y subir archivos.

Idiomas

Para conocer los idiomas compatibles, consulta la columna del almacén de datos en la referencia del lenguaje de Dialogflow.

Para obtener el mejor rendimiento, se recomienda que los almacenes de datos se creen en un solo idioma.

Después de crear un almacén de datos, puedes especificar su idioma. Si configuras el idioma del almacén de datos, puedes conectarlo a un agente del almacén de datos que esté configurado para otro idioma. Por ejemplo, puedes crear un almacén de datos en francés que esté conectado a un agente en inglés.

Regiones admitidas

Para ver las regiones compatibles, consulta la referencia de la región de Dialogflow.