Almacenes de datos

Los agentes de almacenes de datos usan los almacenes de datos para encontrar respuestas a las preguntas de los usuarios finales sobre los datos. Los almacenes de datos son una colección de sitios web y documentos, cada uno de los cuales hace referencia a tus datos.

Cuando un usuario final le hace una pregunta al agente, este busca una respuesta en el contenido de la fuente dado y resume los resultados en una respuesta coherente. También se proporcionan vínculos de apoyo a las fuentes de la respuesta para que el usuario final pueda obtener más información. El agente puede proporcionar hasta cinco fragmentos de respuesta para una pregunta determinada.

Fuentes del almacén de datos

Existen diferentes fuentes que puedes proporcionar para tus datos:

Contenido de sitios web

Al agregar contenido de sitios web como fuente, puedes agregar y excluir varios sitios. Cuando especificas un sitio, puedes usar páginas individuales o * como comodín para un patrón. Se procesará todo el contenido HTML y PDF.

Debes verificar tu dominio cuando uses contenido de un sitio web como fuente.

Limitaciones:

  • Para que los archivos de las URL públicas existan en el índice de búsqueda, el indexador de la Búsqueda de Google debe haberlos rastreado. Puedes verificar esto con Google Search Console.
  • Se indexa un máximo de 200,000 páginas. Si el almacén de datos contiene más páginas, la indexación falla y el último contenido indexado se conserva.

Importar datos

Puedes importar tus datos desde BigQuery o Cloud Storage. Estos datos pueden ser estructurados o no estructurados, y pueden ser con metadatos o sin metadatos.

Se encuentran disponibles las siguientes opciones de importación de datos:

  • Agregar o actualizar datos: Los documentos proporcionados se agregan al almacén de datos. Si un documento nuevo tiene el mismo ID que uno anterior, este reemplazará al anterior.
  • Anular datos existentes: Se borran todos los datos anteriores y, luego, se suben los nuevos. Esta acción es irreversible.

Almacén de datos estructurados

Los almacenes de datos estructurados pueden contener respuestas a las preguntas frecuentes. Cuando las preguntas de los usuarios se hacen coincidir de forma muy confiable con una pregunta subida, el agente devuelve la respuesta a esa pregunta sin ninguna modificación. Puedes proporcionar un título y una URL para cada par de preguntas y respuestas que muestre el agente.

Cuando se suben datos al almacén de datos, se debe usar el formato CSV. Cada archivo debe tener una fila de encabezado que describa las columnas.

Por ejemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Las columnas title y url son opcionales y se pueden omitir:

"answer","question"
"42","What is the meaning of life?"

Durante el proceso de carga, se puede seleccionar una carpeta en la que cada archivo se trate como un archivo CSV, sin importar la extensión.

Limitaciones:

  • El carácter de espacio adicional después de , genera un error.
  • Las líneas en blanco (incluso al final del archivo) causan un error.

Almacén de datos no estructurados

Los almacenes de datos no estructurados pueden tener contenido en los siguientes formatos:

  • HTML
  • PDF
  • TXT
  • CSV

Limitaciones:

  • El tamaño máximo del archivo es de 2.5 MB para los formatos de texto y de 100 MB para otros formatos.

Almacén de datos con metadatos

Se pueden proporcionar un título y una URL como metadatos. Cuando el agente está en una conversación con un usuario, puede proporcionar esta información al usuario. Esto puede ayudar a los usuarios a vincular rápidamente a páginas web internas a las que no puede acceder el indexador de la Búsqueda de Google.

Para importar contenido con metadatos, proporciona uno o más archivos de líneas JSON. Cada línea de este archivo describe un documento. No subes directamente los documentos reales; los URI que vinculan a las rutas de Cloud Storage se proporcionan en el archivo de líneas JSON.

Cuando proporcionas los archivos de líneas JSON, debes proporcionar una carpeta de Cloud Storage que contenga estos archivos. No coloques ningún otro archivo en esta carpeta.

Descripciones de los campos:

Campo Tipo Descripción
id string Es el identificador único del documento.
content.mimeType string Es el tipo de MIME del documento. Se admiten "application/pdf" y "text/html".
content.uri string El URI del documento en Cloud Storage.
content.structData string Objeto JSON de una sola línea con campos opcionales title y url.

Por ejemplo:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Almacén de datos sin metadatos

Este tipo de contenido no tiene metadatos. Solo debes proporcionar los documentos que deseas importar. La extensión de archivo determina el tipo de contenido.

Configuración de análisis y fragmentos

Según la fuente de datos, es posible que puedas establecer la configuración de análisis y de fragmentos como lo define Vertex AI Search.

Crea un almacén de datos

Sigue estos pasos para crear un almacén de datos:

  1. Ve a la consola de Vertex AI Conversation:

    Consola de Vertex AI Conversation

  2. Selecciona tu proyecto en el menú desplegable de la consola.

  3. Lee y acepta las Condiciones del Servicio y, luego, haz clic en Continuar y activar la API.

  4. Haz clic en Almacenes de datos en la barra de navegación izquierda.

  5. Haz clic en Nuevo almacén de datos.

  6. Elige una fuente de datos.

  7. Habilita Indexación avanzada de sitios web. Esto es obligatorio para los agentes de almacén de datos.

  8. Proporciona los datos y la configuración de la fuente de almacén de datos que seleccionaste. La ubicación del almacén de datos debe corresponder a la ubicación del agente.

  9. Haz clic en Crear para crear el almacén de datos.

  10. De manera opcional, establece el idioma del almacén de datos:

    1. En la lista de almacenes de datos, haz clic en el que acabas de crear.
    2. Haz clic en el botón Editar de la configuración de idioma.
    3. Selecciona un idioma y haz clic en la marca de verificación para aplicarlo.
  11. Verifica el dominio de tu sitio web.

Usa Cloud Storage para un documento de almacén de datos

Si el contenido no es público, se recomienda almacenarlo en Cloud Storage. Cuando creas documentos de almacén de datos, debes proporcionar las URL para tus objetos de Cloud Storage con el formato gs://bucket-name/folder-name. Cada documento dentro de la carpeta se agrega al almacén de datos.

Haz lo siguiente cuando crees un bucket de Cloud Storage:

Sigue las instrucciones de la guía de inicio rápido de Cloud Storage para crear un bucket y subir archivos.

Idiomas

Para ver los idiomas compatibles, consulta la columna del almacén de datos en la referencia del lenguaje de Dialogflow.

Para obtener el mejor rendimiento, se recomienda que los almacenes de datos se creen en un solo idioma.

Después de crear un almacén de datos, tienes la opción de especificar su idioma. Si configuras el idioma del almacén de datos, puedes conectarlo a un agente de almacén de datos que esté configurado para un idioma diferente. Por ejemplo, puedes crear un almacén de datos en francés que esté conectado a un agente de inglés.

Regiones admitidas

Para conocer las regiones compatibles, consulta la referencia de regiones de Dialogflow.