Almacenes de datos

Los almacenes de datos que usan agentes del almacén de datos para encontrar respuestas a las preguntas del usuario final a partir de tus datos. Los almacenes de datos son un conjunto de sitios web y documentos, cada uno de los cuales hace referencia a tus datos.

Cuando un usuario final le hace una pregunta al agente, el agente busca una respuesta a partir del contenido de la fuente especificada y resume los hallazgos en una respuesta coherente del agente. También proporciona vínculos de respaldo a las fuentes de la respuesta para que el usuario final obtenga más información. El agente puede proporcionar hasta cinco fragmentos de respuesta para una pregunta determinada.

Fuentes de almacenes de datos

Existen diferentes fuentes que puedes proporcionar para tus datos:

Contenido de sitios web

Cuando agregues contenido de un sitio web como fuente, puede agregar y excluir varios sitios. Cuando especificas un sitio, puedes usar páginas individuales o * como comodín para un patrón. Se procesará todo el contenido HTML y PDF.

Debes verificar tu dominio cuando uses contenido de sitios web como fuente.

Limitaciones:

  • Los archivos de las URLs públicas los debe haber rastreado el indexador de la Búsqueda de Google para que aparezcan en el índice de búsqueda. Puedes verificar esto con Google Search Console.
  • Se indexa un máximo de 200,000 páginas. Si el almacén de datos contiene más páginas, fallará la indexación y se mantendrá el último contenido indexado.

Importar datos

Puedes importar tus datos desde BigQuery o Cloud Storage. Estos datos pueden ser estructurados o no estructurados, y puede ser con metadatos o sin metadatos.

Están disponibles las siguientes opciones de importación de datos:

  • Agregar o actualizar datos: Los documentos proporcionados se agregan al almacén de datos. Si un documento nuevo tiene el mismo ID que un documento anterior, el documento nuevo reemplazará al antiguo.
  • Anular los datos existentes: Se borran todos los datos antiguos luego, se suben nuevos datos. Esta acción es irreversible.

Almacén de datos estructurados

Los almacenes de datos estructurados pueden contener respuestas a las preguntas frecuentes. Cuando las preguntas de los usuarios coinciden con un alto nivel de confianza con una pregunta subida, el agente devuelve la respuesta a esa pregunta sin ninguna modificación. Puedes proporcionar un título y una URL para cada par de pregunta y respuesta. que muestra el agente.

Cuando se suben datos al almacén de datos, se debe usar el formato CSV. Cada archivo debe tener una fila de encabezado que describa las columnas.

Por ejemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Las columnas title y url son opcionales y se pueden omitir:

"answer","question"
"42","What is the meaning of life?"

Durante el proceso de carga, se puede seleccionar una carpeta donde cada archivo será tratado un archivo CSV, independientemente de la extensión.

Limitaciones:

  • Un carácter de espacio adicional después de , genera un error.
  • Las líneas en blanco (incluso al final del archivo) generan un error.

Almacén de datos no estructurados

Los almacenes de datos no estructurados pueden incluir contenido en los siguientes formatos:

  • HTML
  • PDF
  • TXT
  • CSV

Limitaciones:

  • El tamaño máximo del archivo es de 2.5 MB para los formatos basados en texto, 100 MB para otros formatos

Almacén de datos con metadatos

Puedes proporcionar un título y una URL como metadatos. Cuando el agente está en una conversación con un usuario, el agente puede proporcionar esta información al usuario. Esto puede ayudar a los usuarios para incluir vínculos rápidos a páginas web internas a las que no se puede acceder con la Búsqueda de Google indexador.

Para importar contenido con metadatos, sigue estos pasos: debes proporcionar uno o más Archivos de líneas JSON. Cada línea de este archivo describe un documento. No subes los documentos directamente. Los URI que se vinculan con las rutas de acceso de Cloud Storage se proporcionan en el archivo de líneas JSON.

Cuando proporciones los archivos de líneas JSON, proporciona una carpeta de Cloud Storage que contiene estos archivos. No coloques ningún otro archivo en esta carpeta.

Descripciones de los campos:

Campo Tipo Descripción
id string Es el identificador único del documento.
content.mimeType string Es el tipo de MIME del documento. "application/pdf" y "texto/html" compatibles.
content.uri string Es el URI del documento en Cloud Storage.
content.structData string Objeto JSON de una sola línea con los campos opcionales title y url.

Por ejemplo:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Almacén de datos sin metadatos

Este tipo de contenido no tiene metadatos. Solo proporciona los documentos que deseas importar. La extensión del archivo determina el tipo de contenido.

Configuración de análisis y fragmentación

Según la fuente de datos, quizás puedas configurar configuración de análisis y fragmentación según se define en Vertex AI Search.

Crea un almacén de datos

Para crear un almacén de datos, sigue estos pasos:

  1. Ve a la consola de Agent Builder:

    Consola de Agent Builder

  2. Selecciona tu proyecto en el menú desplegable de la consola.

  3. Lee y acepta las Condiciones del Servicio y, luego, haz clic en Continuar y activar la API.

  4. Haz clic en almacenes de datos en la barra de navegación izquierda.

  5. Haz clic en New Data Store.

  6. Elige una fuente de datos.

  7. Habilitar Indexación avanzada de sitios web. Esto es obligatorio para los agentes de almacén de datos.

  8. Proporciona datos y configuración para la fuente de almacén de datos que seleccionaste. La ubicación de tu almacén de datos debe corresponder a ubicación del agente.

  9. Haz clic en Crear para crear el almacén de datos.

  10. De manera opcional, configura el idioma del almacén de datos:

    1. En la lista de almacenes de datos, haz clic en el almacén de datos que acabas de crear.
    2. Haz clic en el botón Editar para la configuración de idioma.
    3. Selecciona un idioma y haz clic en la marca de verificación para aplicarlo.
  11. Verifica el dominio de tu sitio web.

Cómo usar Cloud Storage para un documento de almacén de datos

Si el contenido no es público, se recomienda almacenarlo en Cloud Storage. Al crear documentos de almacén de datos, Debes proporcionar las URL para tus objetos de Cloud Storage de la siguiente forma: gs://bucket-name/folder-name. Cada documento dentro de la carpeta se agrega al almacén de datos.

Haz lo siguiente cuando crees un bucket de Cloud Storage:

Sigue las instrucciones de la guía de inicio rápido de Cloud Storage para crear un depósito y subir archivos.

Idiomas

Para ver los idiomas compatibles, consulta la columna de almacén de datos en la Referencia del lenguaje de Dialogflow.

Para obtener el mejor rendimiento, se recomienda que los almacenes de datos se creen en un solo idioma.

Después de crear un almacén de datos, de manera opcional, puedes especificar el idioma del almacén de datos. Si configuras el idioma del almacén de datos, puedes conectar el almacén de datos a un agente del almacén de datos configurada para un idioma diferente. Por ejemplo: puedes crear un almacén de datos francés que está conectado con un agente inglés.

Regiones admitidas

Para regiones admitidas, consulta la Referencia de la región de Dialogflow.