En este documento, se describen los conceptos clave para usar la API de Conversational Analytics (geminidataanalytics.googleapis.com
), que te permite crear agentes de datos y, luego, interactuar con ellos. Estos agentes usan el lenguaje natural para responder preguntas sobre tus datos estructurados. En este documento, se describe cómo funcionan los agentes, los flujos de trabajo típicos, los modos de conversación, los roles de Identity and Access Management (IAM) y cómo diseñar sistemas con varios agentes.
Cómo funcionan los agentes de datos
Los agentes de datos de la API de Conversational Analytics usan el contexto que proporcionas (información y datos de la empresa) y herramientas (como SQL y Python) para interpretar preguntas en lenguaje natural y generar respuestas a partir de tus datos estructurados.
En el siguiente diagrama, se ilustran las etapas del flujo de trabajo de un agente cuando un usuario hace una pregunta:
Como se muestra en el diagrama, cuando un usuario hace una pregunta, el agente procesa la solicitud en las siguientes etapas:
- Entrada del usuario: El usuario envía una pregunta en lenguaje natural, junto con cualquier contexto adicional que proporciones.
- Fuentes de datos: El agente se conecta a tus datos en Looker, BigQuery y Looker Studio para recuperar la información necesaria.
- Motor de razonamiento: El núcleo del agente procesa la pregunta del usuario con las herramientas disponibles para generar una respuesta.
- Salida del agente: El agente genera una respuesta, que puede incluir texto, tablas de datos o especificaciones para gráficos.
Workflows para diseñar y usar agentes
La API de Conversational Analytics admite flujos de trabajo para los creadores de agentes (que compilan y configuran agentes) y para los consumidores de agentes (que interactúan con los agentes).
En el siguiente diagrama, se ilustra el proceso de extremo a extremo, desde la configuración inicial por parte de un creador de agentes hasta las interacciones finales de un consumidor de agentes:
En las siguientes secciones, se describen los flujos de trabajo para los creadores y los usuarios de agentes con más detalle.
Flujo de trabajo del creador de agentes
El creador del agente es responsable de configurar los agentes. Este flujo de trabajo implica los siguientes pasos:
- Crear agente: El creador comienza por crear un agente nuevo y proporcionar el contexto necesario, incluidas las instrucciones del sistema y las conexiones a las fuentes de datos. Este paso es fundamental para que el agente comprenda y responda las preguntas de los usuarios de manera eficaz.
- Compartir el agente: Una vez que se configura el agente, el creador lo comparte con otros usuarios y establece los controles de acceso basados en roles adecuados para administrar los permisos.
Flujo de trabajo del consumidor del agente
Por lo general, el consumidor del agente es un usuario empresarial que necesita obtener respuestas de un agente configurado. Este flujo de trabajo implica los siguientes pasos:
- Buscar un agente: El usuario comienza por buscar un agente que se haya compartido con él.
- Hacer una pregunta: El usuario hace una pregunta en lenguaje natural. Esta pregunta puede ser una sola consulta o parte de una conversación de varios turnos.
- El agente "piensa": El motor de razonamiento del agente procesa la pregunta. El motor de razonamiento usa el conocimiento predefinido del agente y las herramientas disponibles (como SQL, Python y gráficos) en un "bucle de razonamiento" para determinar la mejor manera de responder la pregunta.
- El agente responde: El agente devuelve una respuesta, que puede incluir texto, tablas de datos o gráficos.
Modos de conversación
Los agentes de la API de Conversational Analytics admiten diferentes modos de conversación que determinan cómo un agente maneja el historial de conversaciones y la persistencia del contexto en las interacciones. Están disponibles los siguientes modos de conversación:
- Modo sin estado: El agente no almacena el historial de conversaciones. Cada interacción se trata de forma independiente. Este modo es útil para aplicaciones en las que no necesitas mantener el contexto en varios turnos.
- Modo con estado: El agente retiene el contexto y el historial de conversaciones, lo que permite interacciones más contextualizadas. Este modo es útil para las aplicaciones en las que necesitas mantener el contexto en varios turnos. Se recomienda usar el modo con estado para obtener una mayor precisión y respuestas personalizadas.
Elige un modo de conversación según los requisitos de tu aplicación para el historial de conversaciones y la persistencia del contexto.
Funciones de IAM
Los roles de IAM controlan quién puede crear, administrar, compartir e interactuar con los agentes de la API de Conversational Analytics. En la siguiente tabla, se describen los roles de IAM clave para la API de Conversational Analytics:
Rol | Alcance típico | Qué permite el rol | Quiénes pueden usar este rol |
---|---|---|---|
Creador de agentes de datos de análisis de datos de Gemini (roles/geminidataanalytics.dataAgentCreator ) |
Proyecto | Crear agentes y heredar permisos de propietario en el agente | Cualquier analista de datos |
Propietario del agente de datos de análisis de datos de Gemini (roles/geminidataanalytics.dataAgentOwner ) |
Proyecto, agente | Editar, compartir o borrar agentes con otros usuarios | Analista de datos sénior |
Editor de agentes de análisis de datos de Gemini (roles/geminidataanalytics.dataAgentEditor ) |
Agente, Proyecto | Actualiza la configuración o el contexto de un agente. | Analista de datos júnior |
Usuario del agente de análisis de datos de Gemini (roles/geminidataanalytics.dataAgentUser ) |
Agente, Proyecto | Chatea con un agente. | Especialista en marketing y propietario de la tienda |
Visualizador de agentes de análisis de datos de Gemini (roles/geminidataanalytics.dataAgentViewer ) |
Proyecto, agente | Enumera los agentes y obtén sus detalles. | Cualquier usuario |
Usuario sin estado del agente de análisis de datos de Gemini (roles/geminidataanalytics.dataAgentStatelessUser ) |
Proyecto | Chatea con un agente sin almacenar el contexto ni el historial de conversaciones. | Cualquier usuario |
Sistemas con varios agentes
Puedes diseñar sistemas complejos integrando varios agentes de la API de Conversational Analytics. Un patrón común es usar un agente "orquestador" principal que delega tareas a uno o más agentes especializados que manejan dominios específicos, como datos de ventas o marketing. Este enfoque te permite crear un sistema que puede manejar una amplia variedad de preguntas combinando las fortalezas de varios agentes.
En el siguiente diagrama, se ilustra este patrón de varios agentes y se muestra cómo un agente principal puede delegar una pregunta sobre datos a un agente especializado de Conversational Analytics:
El flujo de trabajo típico de un sistema multiagente incluye los siguientes pasos:
- Un usuario empresarial o un analista de datos hace una pregunta en lenguaje natural, como "Muéstrame las tres principales tiendas por ingresos".
- Un agente "orquestador" principal delega la solicitud al agente especializado adecuado.
- Un agente especializado recibe la solicitud delegada, se conecta a las fuentes de datos pertinentes, usa sus herramientas para generar las consultas y los gráficos de SQL necesarios, y genera una respuesta.
- Se le devuelve al usuario la respuesta del agente especializado, como "Las tiendas 4, 9 y 3 tienen los ingresos más altos. Aquí tienes un gráfico".
¿Qué sigue?
Después de comprender los conceptos básicos de la API de Conversational Analytics, explora cómo implementar estas funciones:
- Explora cómo autenticarte en una fuente de datos y conectarte a ella.
- Obtén más información para crear y configurar un agente con HTTP.
- Aprende a crear y configurar un agente con Python.
- Obtén más información para guiar el comportamiento de un agente con contexto creado.
- Comprende el control de acceso con IAM para la API de Conversational Analytics.