Las bases de datos se usan en las herramientas de bases de datos para encontrar respuestas a las preguntas de los usuarios finales a partir de tus datos. Los almacenes de datos son conjuntos de sitios web, documentos o datos de sistemas de terceros, y cada uno de ellos hace referencia a sus datos.
Cuando un usuario final hace una pregunta al agente, este busca una respuesta en el contenido de origen proporcionado y resume los resultados en una respuesta coherente. También proporciona enlaces a las fuentes de la respuesta para que el usuario final pueda obtener más información. El agente puede proporcionar hasta cinco fragmentos de respuesta para una pregunta determinada.
Fuentes de almacén de datos
Puede proporcionar datos de diferentes fuentes:
- URLs de sitios web: rastrea automáticamente el contenido de sitios web a partir de una lista de dominios o páginas web.
- BigQuery Importa datos de tu tabla de BigQuery.
- Cloud Storage: Importa datos desde tu segmento de Cloud Storage.
- AlloyDB importa datos de tu clúster de AlloyDB.
- Bigtable:Importa datos de una tabla de Bigtable.
- Firestore: Importa datos de tu colección de Firestore.
- Cloud SQL: importa datos de una tabla de Cloud SQL.
- Spanner: importa datos de una tabla de Spanner.
Fuentes de almacén de datos con acceso restringido
Google ofrece muchas fuentes de almacenamiento de datos propios y de terceros adicionales como función de acceso restringido. Para ver una lista de las fuentes disponibles y solicitar acceso, consulta la sección Fuentes de datos de tienda adicionales de esta página.
Contenido del sitio web
Cuando añada contenido de un sitio web como fuente, podrá añadir y excluir varios sitios.
Cuando especifiques un sitio, puedes usar páginas concretas o *
como comodín para un patrón.
Se procesará todo el contenido HTML y PDF.
Debes verificar tu dominio cuando utilices contenido de un sitio web como fuente.
Limitaciones:
- El indexador de la Búsqueda de Google debe haber rastreado los archivos de las URLs públicas para que estén en el índice de búsqueda. Puede comprobarlo con Google Search Console.
- Se indexan un máximo de 200.000 páginas. Si el almacén de datos contiene más páginas, la indexación fallará en ese punto. Se conservará el contenido que ya esté indexado.
Importación de datos
Puede importar sus datos desde BigQuery o Cloud Storage. Estos datos pueden estar en formato de preguntas frecuentes o sin estructurar, y pueden tener metadatos o no tenerlos.
Estas son las opciones de importación de datos disponibles:
- Añadir o actualizar datos: los documentos proporcionados se añaden al almacén de datos. Si un documento nuevo tiene el mismo ID que uno antiguo, el nuevo sustituirá al antiguo.
- Sobrescribir datos: se eliminan todos los datos antiguos y, a continuación, se suben los nuevos. Esta acción es irreversible.
Almacén de datos de preguntas frecuentes
Los almacenes de datos de preguntas frecuentes pueden contener respuestas a preguntas frecuentes. Cuando las preguntas de los usuarios se corresponden con un alto nivel de confianza con una pregunta subida, el agente devuelve la respuesta a esa pregunta sin ninguna modificación. Puede proporcionar un título y una URL para cada par de pregunta y respuesta que muestre el agente.
Los datos deben subirse al almacén de datos en formato CSV
. Cada archivo debe tener una fila de encabezado que describa las columnas.
Por ejemplo:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
Las columnas title
y url
son opcionales y se pueden omitir:
"answer","question"
"42","What is the meaning of life?"
Durante el proceso de subida, puedes seleccionar una carpeta en la que cada archivo se trate como un archivo CSV
, independientemente de su extensión.
Limitaciones:
- Si se añade un espacio adicional después de
,
, se produce un error. - Las líneas en blanco (incluso al final del archivo) provocan un error.
Almacén de datos sin estructurar
Los almacenes de datos no estructurados pueden contener contenido en los siguientes formatos:
HTML
PDF
TXT
CSV
Es posible (aunque poco habitual) importar archivos del segmento de Cloud Storage de otro proyecto. Para ello, debes conceder acceso explícito al proceso de importación. Sigue las instrucciones del mensaje de error, que contendrá el nombre del usuario que necesita acceso de lectura al contenedor para realizar la importación.
Limitaciones:
- El tamaño máximo de archivo es de 2,5 MB para los formatos basados en texto y de 100 MB para otros formatos.
Almacén de datos con metadatos
Se pueden proporcionar un título y un URL
como metadatos.
Cuando el agente esté en una conversación con un usuario, podrá proporcionarle esta información.
De esta forma, los usuarios pueden acceder rápidamente a páginas web internas a las que no puede acceder el indexador de la Búsqueda de Google.
Para importar contenido con metadatos, debe proporcionar uno o varios archivos JSON Lines. Cada línea de este archivo describe un documento. No subes directamente los documentos, sino que URIs
que enlazan con las rutas de Cloud Storage se proporcionan en el archivo JSON Lines.
Para proporcionar los archivos JSON Lines, debes indicar una carpeta de Cloud Storage que los contenga. No incluyas ningún otro archivo en esta carpeta.
Descripciones de los campos:
Campo | Tipo | Descripción |
---|---|---|
id | cadena | Identificador único del documento. |
content.mimeType | cadena | Tipo MIME del documento. Se admiten "application/pdf" y "text/html". |
content.uri | cadena | URI del documento en Cloud Storage. |
structData | cadena | Objeto JSON de una sola línea con los campos title y url opcionales. |
Por ejemplo:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Almacén de datos sin metadatos
Este tipo de contenido no tiene metadatos. En su lugar, proporciona enlaces URI a los documentos individuales. El tipo de contenido se determina en función de la extensión del archivo.
Configuración de análisis y fragmentación
En función de la fuente de datos, puede configurar los ajustes de análisis y fragmentación definidos por Vertex AI Search.
Usar Cloud Storage para un documento de almacén de datos
Si tu contenido no es público, te recomendamos que lo almacenes en Cloud Storage.
Cuando creas documentos de almacén de datos, proporcionas las URLs de tus objetos de Cloud Storage con el siguiente formato:
gs://bucket-name/folder-name
.
Cada documento de la carpeta se añade al almacén de datos.
Cuando crees el segmento de Cloud Storage:
- Asegúrate de que has seleccionado el proyecto que usas para el agente.
- Usa la clase de almacenamiento estándar.
- Define la ubicación del segmento en la misma ubicación que tu agente.
Sigue las instrucciones de la guía de inicio rápido de Cloud Storage para crear un segmento y subir archivos.
Idiomas
Para ver los idiomas admitidos, consulta la columna de almacén de datos en la referencia de idiomas.
Para obtener el mejor rendimiento, se recomienda que los almacenes de datos se creen en un solo idioma.
Después de crear un almacén de datos, puedes especificar su idioma. Si defines el idioma del almacén de datos, puedes conectarlo a un agente configurado en otro idioma. Por ejemplo, puedes crear un almacén de datos en francés que esté conectado a un agente en inglés.
Regiones disponibles
Para ver las regiones admitidas, consulta la referencia de regiones.
(Acceso restringido) Fuentes de almacenamiento de datos adicionales
En la siguiente tabla se indican otros tipos de almacén de datos. Están disponibles como funciones de acceso restringido. Puedes rellenar el formulario de inclusión en lista de permitidas para solicitar acceso. Una vez aprobadas, podrá ver estas opciones cuando cree un nuevo almacén de datos en Aplicaciones de IA.
Fuentes de almacén de datos de Google
Fuente del almacén de datos | Descripción |
---|---|
Google Drive | Enlace a la unidad de tu organización. |
(Vista previa) Google Gmail | Vincular a la cuenta de Gmail de tu organización. |
(Vista previa) Google Sites | Enlaza a los sitios de tu organización. |
(Vista previa) Google Calendar | Enlace al calendario de tu organización. |
(Vista previa) Grupos de Google | Enlace a los grupos de tu organización. |
Fuentes de almacenamiento de datos de terceros
Fuente del almacén de datos | Descripción |
---|---|
(Vista previa) AODocs | Importar datos de tu sistema de gestión de documentos de AODocs. |
Box | Importa datos del sitio de Box de tu organización. |
Confluence Cloud | Importa datos de tu espacio de trabajo de Confluence Cloud. |
(Vista previa) Confluence Data Center | Importa datos de tu espacio de trabajo de Confluence Data Center. |
Dropbox | Importa datos desde tu almacenamiento de Dropbox. |
EntraID | Importar datos del sistema EntraID de tu organización. |
(Vista previa) HubSpot | Importa datos del sitio de HubSpot de tu organización. |
Jira Cloud | Importa datos de tu sistema de gestión de tareas de Jira. |
(Vista previa) Jira Data Center | Importa datos de tu sitio de Jira Data Center. |
(Vista previa) Marketo | Importa datos del sistema de marketing de Marketo de tu organización. |
(Vista previa) Notion | Importa datos del espacio de trabajo de Notion de tu organización. |
OneDrive | Importa datos del almacenamiento de OneDrive de tu organización. |
Microsoft Outlook | Importar datos de Microsoft Outlook. |
Salesforce | Importar datos de Salesforce. |
ServiceNow | Importar datos de ServiceNow. |
SharePoint | Importa datos del sistema SharePoint de tu organización. |
(Vista previa) Shopify | Importa datos del sistema de Shopify de tu organización. |
Slack | Importar datos de Slack. |
Microsoft Teams | Importar datos de Microsoft Teams. |
(Vista previa) WordPress | Importa datos del sitio de WordPress de tu organización. |
Configurar un almacén de datos de terceros mediante un conector
En esta sección se describe el proceso de configuración de un almacén de datos mediante datos de terceros. Puedes consultar las instrucciones específicas de cada fuente de datos de terceros en la documentación sobre IA generativa.
Proveedores de identidades
Los proveedores de identidades te permiten gestionar usuarios, grupos y autenticación. Cuando configuras un almacén de datos de terceros, puedes usar un proveedor de identidades de Google o un proveedor de identidades de terceros.
Proveedor de identidades de Google:
- Todos los usuarios del agente deben iniciar sesión con sus credenciales de Google. Puede ser cualquier dirección de correo
@gmail.com
o cualquier cuenta que use Google como proveedor de identidad (por ejemplo, Google Workspace). Este paso se omite si los usuarios hablan con el agente directamente mediante Google Cloud , ya que la identidad de Google se integra automáticamente en el sistema. - Puedes asignar acceso a cuentas de Google mediante IAM.
Proveedor de identidades de terceros:
- Los usuarios del agente inician sesión con credenciales que no son de Google, como una dirección de correo de Microsoft.
- Debes crear un grupo de empleados con Google Cloud los proveedores de identidades ajenos a Google. Después, puedes usar IAM para conceder acceso a todo el grupo o a usuarios concretos del grupo.
- Este método no se puede usar con ningún proyecto de Google Cloud configurado en la organización
@google.com
.
Conectores
Los almacenes de datos de terceros se implementan mediante un conector. Cada conector puede contener varios almacenes de datos, que se almacenan como entidades en el sistema de agentes conversacionales (Dialogflow CX).
Antes de crear un almacén de datos, debes configurar cada región con un único proveedor de identidades en Google Cloud -> Creador de agentes -> Configuración. Todos los almacenes de datos de esa región usarán el mismo proveedor de identidades. Puedes elegir una identidad de Google o una identidad de terceros en un grupo de Workforce. La misma credencial de Google se considera una identidad diferente si está en un grupo de usuarios. Por ejemplo,
test@gmail.com
se considera una identidad diferente aworkforcePools/test-pool/subject/test@gmail.com
.- Crea un grupo de trabajadores (si es necesario).
- Ve a Agent Builder (Creador de agentes) Settings (Configuración) y selecciona Google Identity (Identidad de Google) o 3rd Party Identity (Identidad de terceros). Haz clic en GUARDAR para guardar la identidad en la región.
- Ahora puedes crear un almacén de datos en la región.
Cada almacén de datos guarda los datos de la lista de control de acceso (LCA) con cada documento. Se trata de un registro de los usuarios o grupos que tienen acceso de lectura a las entidades. Durante el tiempo de ejecución, un usuario o miembro de un grupo solo recibirá respuestas del agente que procedan de entidades a las que tenga acceso de lectura. Si un usuario no tiene acceso de lectura a ninguna entidad del almacén de datos, el agente devolverá una respuesta vacía.
Como los datos del almacén de datos son una copia de la instancia de terceros, deben actualizarse periódicamente. Puedes configurar los intervalos de actualización en una escala de tiempo de horas o días.
Después de configurar el almacén de datos y hacer clic en Crear, puede tardar hasta una hora en aparecer en la lista de almacenes de datos.
Registro de seguimiento de almacenes de datos
Esta función consta de dos partes:
- Muestra las trazas de ejecución internas del almacén de datos y las latencias de los pasos en el simulador de agentes.
- Exportación de datos de latencia y de trazas a Cloud Logging y BigQuery.
Ver datos en el simulador
Para mostrar los datos de seguimiento y ejecución en los datos del agente, despliega los detalles de una conversación haciendo clic en el icono de la flecha hacia abajo situado a la derecha de la respuesta del agente.
En la pestaña Ejecución se muestran los seguimientos de ejecución del almacén de datos interno, incluida la siguiente información:
- La entrada original del usuario.
- La consulta tal como la ha reescrito el motor del almacén de datos.
- Las señales de calidad durante varios pasos de ejecución, incluido el estado de la comprobación de seguridad, el estado de la comprobación de estabilidad, el resultado de la comprobación de grounding y el estado de la comprobación de seguridad.
- Buscar fragmentos de la búsqueda del almacén de datos.
- La lista de documentos de los que se han extraído los fragmentos.
La pestaña Latencia muestra un gráfico cronológico de los distintos pasos de ejecución del almacén de datos. La lista de pasos puede variar en función de cómo se haya configurado el almacén de datos y del flujo de ejecución. Los datos que se muestran pueden incluir lo siguiente:
- Coincidencia de preguntas frecuentes: el almacén de datos ha realizado un paso de coincidencia de preguntas frecuentes.
- Reescritura de consultas: el almacén de datos ha reescrito la consulta original del usuario.
- Búsqueda: el almacén de datos ha realizado una búsqueda de fragmentos.
- Resumen: el almacén de datos ha resumido la respuesta.
- Comprobaciones de seguridad: el almacén de datos ha realizado los pasos de comprobación de seguridad.
Ver datos de seguimiento en otras ubicaciones
Si el agente conversacional está configurado con el registro del historial de conversaciones, también puedes ver el seguimiento del almacén de datos en Historial de conversaciones.
Si el agente conversacional está configurado con Cloud Logging, también puedes ver las trazas y las latencias en el Explorador de registros de Cloud.
Si el agente conversacional está configurado con BigQuery Export, también puedes ver las trazas y las latencias en una tabla de BigQuery exportada.
Siguientes pasos
Para obtener instrucciones sobre cómo crear un almacén de datos y usarlo con un agente, consulta la documentación sobre las herramientas de almacén de datos.