Los agentes de almacenes de datos usan los almacenes de datos para encontrar respuestas a las preguntas del usuario final a partir de los datos. Los almacenes de datos son un conjunto de sitios web y documentos, y cada uno de ellos hace referencia a tus datos.
Cuando un usuario final le hace una pregunta al agente, este busca una respuesta del contenido de la fuente dado y resume los resultados en una respuesta coherente. También proporciona vínculos de respaldo a las fuentes de la respuesta para que el usuario final pueda obtener más información. El agente puede proporcionar hasta cinco fragmentos de respuesta para una pregunta determinada.
Fuentes de almacenes de datos
Existen diferentes fuentes que puedes proporcionar para tus datos:
- URLs de sitios web: Rastrea automáticamente el contenido de sitios web desde una lista de dominios o páginas web.
- BigQuery: Importa datos desde tu tabla de BigQuery.
- Cloud Storage: Importa datos desde tu bucket de Cloud Storage.
Contenido de sitios web
Cuando agregas contenido de sitios web como fuente,
puedes agregar y excluir varios sitios.
Cuando especificas un sitio, puedes usar páginas individuales o *
como comodín para un patrón.
Se procesará todo el contenido HTML y PDF.
Debes verificar tu dominio cuando uses contenido del sitio web como fuente.
Limitaciones:
- Para que los archivos de las URL públicas existan en el índice de búsqueda, el indexador de la Búsqueda de Google debe haberlos rastreado. Puedes verificar esto con Google Search Console.
- Se indexa un máximo de 200,000 páginas. Si el almacén de datos contiene más páginas, la indexación falla y queda el último contenido indexado.
Importar datos
Puedes importar tus datos desde BigQuery o Cloud Storage. Estos datos pueden ser estructurados o no estructurados, y pueden estar con metadatos o sin metadatos.
Están disponibles las siguientes opciones de importación de datos:
- Agregar o actualizar datos: Se agregan los documentos proporcionados al almacén de datos. Si un documento nuevo tiene el mismo ID que un documento antiguo, el documento nuevo reemplazará al antiguo.
- Anular los datos existentes: Se borran todos los datos antiguos y, luego, se suben los nuevos. Esta acción es irreversible.
Almacén de datos estructurados
Los almacenes de datos estructurados pueden contener respuestas a las preguntas frecuentes. Cuando las preguntas del usuario coinciden con un alto nivel de confianza con una pregunta subida, el agente muestra la respuesta a esa pregunta sin ninguna modificación. Puedes proporcionar un título y una URL para cada par de pregunta y respuesta que muestra el agente.
Cuando se suben datos al almacén de datos, se debe usar el formato CSV. Cada archivo debe tener una fila de encabezado que describa las columnas.
Por ejemplo:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
Las columnas title
y url
son opcionales y se pueden omitir:
"answer","question"
"42","What is the meaning of life?"
Durante el proceso de carga, se puede seleccionar una carpeta en la que cada archivo se trate como un archivo CSV, sin importar la extensión.
Limitaciones:
- Un carácter de espacio adicional después de
,
genera un error. - Las líneas en blanco (incluso al final del archivo) generan un error.
Almacén de datos no estructurados
Los almacenes de datos no estructurados pueden incluir contenido en los siguientes formatos:
- HTML
- TXT
- CSV
Limitaciones:
- El tamaño máximo del archivo es de 2.5 MB para los formatos basados en texto y de 100 MB para otros formatos.
Almacén de datos con metadatos
Puedes proporcionar un título y una URL como metadatos. Cuando el agente está en una conversación con un usuario, puede proporcionarle esta información. Esto puede ayudar a los usuarios a vincular rápidamente páginas web internas a las que no puede acceder el indexador de la Búsqueda de Google.
Para importar contenido con metadatos, proporciona uno o más archivos de líneas JSON. Cada línea de este archivo describe un documento. No debes subir los documentos directamente, ya que los URI que se vinculan con las rutas de acceso de Cloud Storage se proporcionan en el archivo de líneas JSON.
Cuando proporcionas los archivos de líneas JSON, proporcionas una carpeta de Cloud Storage que contiene estos archivos. No coloques ningún otro archivo en esta carpeta.
Descripciones de los campos:
Campo | Tipo | Descripción |
---|---|---|
id | string | Es el identificador único del documento. |
content.mimeType | string | Es el tipo de MIME del documento. Se admiten "application/pdf" y "text/html". |
content.uri | string | Es el URI del documento en Cloud Storage. |
content.structData | string | Objeto JSON de una sola línea con los campos opcionales title y url . |
Por ejemplo:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Almacén de datos sin metadatos
Este tipo de contenido no tiene metadatos. Solo proporciona los documentos que deseas importar. La extensión del archivo determina el tipo de contenido.
Configuración de análisis y fragmentación
Según la fuente de datos, es posible que puedas establecer la configuración de análisis y fragmento según lo que define Vertex AI Search.
Crea un almacén de datos
Para crear un almacén de datos, sigue estos pasos:
Ve a la consola de Agent Builder:
Selecciona tu proyecto en el menú desplegable de la consola.
Lee y acepta las Condiciones del Servicio y, luego, haz clic en Continuar y activar la API.
Haz clic en almacenes de datos en la barra de navegación izquierda.
Haz clic en New Data Store.
Elige una fuente de datos.
Habilita la Indexación avanzada de sitios web. Esto es obligatorio para los agentes de almacén de datos.
Proporciona los datos y la configuración de la fuente del almacén de datos que seleccionaste. La ubicación del almacén de datos debe corresponder a la ubicación del agente.
Haz clic en Crear para crear el almacén de datos.
De manera opcional, configura el idioma del almacén de datos:
- En la lista de almacenes de datos, haz clic en el almacén de datos que acabas de crear.
- Haz clic en el botón Editar de la configuración de idioma.
- Selecciona un idioma y haz clic en la marca de verificación para aplicarlo.
Cómo usar Cloud Storage para un documento de almacén de datos
Si el contenido no es público, se recomienda almacenarlo en Cloud Storage.
Cuando creas documentos del almacén de datos, proporcionas las URL para tus objetos de Cloud Storage en el formato: gs://bucket-name/folder-name
.
Cada documento dentro de la carpeta se agrega al almacén de datos.
Haz lo siguiente cuando crees un bucket de Cloud Storage:
- Asegúrate de haber seleccionado el proyecto que usas para el agente.
- Usa la clase Standard Storage.
- Establece la ubicación de bucket en la misma ubicación que tu agente.
Sigue las instrucciones de la guía de inicio rápido de Cloud Storage para crear un bucket y subir archivos.
Idiomas
Para conocer los idiomas compatibles, consulta la columna del almacén de datos en la referencia del lenguaje de Dialogflow.
Para obtener el mejor rendimiento, se recomienda que los almacenes de datos se creen en un solo idioma.
Después de crear un almacén de datos, puedes especificar su idioma. Si configuras el idioma del almacén de datos, puedes conectarlo a un agente del almacén de datos que esté configurado para otro idioma. Por ejemplo, puedes crear un almacén de datos en francés que esté conectado a un agente en inglés.
Regiones admitidas
Para ver las regiones compatibles, consulta la referencia de la región de Dialogflow.