Architettura e concetti chiave dell'API Conversational Analytics

Questo documento descrive i concetti chiave per l'utilizzo dell'API Conversational Analytics (geminidataanalytics.googleapis.com), che consente di creare e interagire con agenti di dati che utilizzano il linguaggio naturale per rispondere a domande sui dati strutturati. Questo documento descrive il funzionamento degli agenti, i workflow tipici, le modalità di conversazione, i ruoli Identity and Access Management (IAM) e come progettare sistemi con più agenti.

Come funzionano gli agenti dei dati

Gli agenti di dati dell'API Conversational Analytics utilizzano il contesto che fornisci (informazioni e dati aziendali) e strumenti (come SQL e Python) per interpretare le domande in linguaggio naturale e generare risposte dai tuoi dati strutturati.

Il seguente diagramma illustra le fasi del flusso di lavoro di un agente quando un utente pone una domanda:

Diagramma dell'architettura dell'API Conversational Analytics, che mostra il flusso dall'input utente'utente a un motore di ragionamento fino all'output finale.

Come mostrato nel diagramma, quando un utente pone una domanda, l'agente elabora la richiesta nelle seguenti fasi:

  1. Input dell'utente: l'utente invia una domanda in linguaggio naturale, insieme a qualsiasi contesto aggiuntivo che fornisci.
  2. Origini dati: l'agente si connette ai tuoi dati in Looker, BigQuery e Looker Studio per recuperare le informazioni necessarie.
  3. Motore di ragionamento: il cuore dell'agente elabora la domanda dell'utente utilizzando gli strumenti disponibili per generare una risposta.
  4. Output dell'agente: l'agente genera una risposta, che può includere testo, tabelle di dati o specifiche per i grafici.

Workflows per la progettazione e l'utilizzo degli agenti

L'API Conversational Analytics supporta i flussi di lavoro per i creatori di agenti (che creano e configurano gli agenti) e per i consumatori di agenti (che interagiscono con gli agenti).

Il seguente diagramma illustra la procedura end-to-end, dalla configurazione iniziale da parte di un creatore di agenti alle interazioni finali da parte di un consumatore di agenti:

Il flusso di lavoro end-to-end per la progettazione e l'utilizzo degli agenti, dalle attività del creator come la creazione e la condivisione alle attività dell'utente dei dati come l'interazione con un agente.

Le sezioni seguenti descrivono in modo più dettagliato i flussi di lavoro per i creatori e i consumatori di agenti.

Il flusso di lavoro di creazione degli agenti

Il creatore dell'agente è responsabile della configurazione degli agenti. Questo flusso di lavoro prevede i seguenti passaggi:

  1. Crea agente: il creator inizia creando un nuovo agente e fornendo il contesto necessario, incluse le istruzioni di sistema e le connessioni alle origini dati. Questo passaggio è fondamentale per consentire all'agente di comprendere e rispondere in modo efficace alle domande degli utenti.
  2. Condividere l'agente: una volta configurato l'agente, il creatore lo condivide con altri utenti e imposta i controlli di accesso basati sui ruoli appropriati per gestire le autorizzazioni.

Il workflow del consumatore dell'agente

Il consumatore dell'agente è in genere un utente aziendale che deve ricevere risposte da un agente configurato. Questo flusso di lavoro prevede i seguenti passaggi:

  1. Trova un agente: l'utente inizia cercando un agente che è stato condiviso con lui.
  2. Poni una domanda: l'utente pone una domanda in linguaggio naturale. Questa domanda può essere una singola query o parte di una conversazione in più turni.
  3. L'agente "riflette": il motore di ragionamento dell'agente elabora la domanda. Il motore di ragionamento utilizza le conoscenze predefinite dell'agente e gli strumenti disponibili (come SQL, Python e grafici) in un "ciclo di ragionamento" per determinare il modo migliore per rispondere alla domanda.
  4. Risposta dell'agente: l'agente restituisce una risposta, che può includere testo, tabelle di dati o grafici.

Modalità di conversazione

Gli agenti dell'API Conversational Analytics supportano diverse modalità di conversazione che determinano il modo in cui un agente gestisce la cronologia delle conversazioni e la persistenza del contesto nelle interazioni. Sono disponibili le seguenti modalità di conversazione:

  • Modalità stateless: l'agente non memorizza la cronologia delle conversazioni. Ogni interazione viene trattata in modo indipendente. Questa modalità è utile per le applicazioni in cui non è necessario mantenere il contesto in più turni.
  • Modalità con stato: l'agente conserva il contesto e la cronologia delle conversazioni, consentendo interazioni più contestualizzate. Questa modalità è utile per le applicazioni in cui devi mantenere il contesto in più turni. L'utilizzo della modalità con stato è consigliato per una maggiore precisione e risposte personalizzate.

Scegli una modalità di conversazione in base ai requisiti della tua applicazione per la cronologia delle conversazioni e la persistenza del contesto.

Le diverse modalità di chat per un agente API Conversational Analytics.

Ruoli IAM

I ruoli IAM controllano chi può creare, gestire, condividere e interagire con gli agenti dell'API Conversational Analytics. La seguente tabella descrive i ruoli IAM chiave per l'API Conversational Analytics:

Ruolo Ambito tipico Cosa consente il ruolo Chi potrebbe utilizzare questo ruolo
Gemini Data Analytics Data Agent Creator (roles/geminidataanalytics.dataAgentCreator) Progetto Crea agenti ed eredita le autorizzazioni del proprietario sull'agente. Qualsiasi analista di dati
Gemini Data Analytics Data Agent Owner (roles/geminidataanalytics.dataAgentOwner) Progetto, Agente Modificare, condividere o eliminare agenti con altri utenti. Senior data analyst
Gemini Data Analytics Data Agent Editor (roles/geminidataanalytics.dataAgentEditor) Agente, Progetto Aggiorna la configurazione o il contesto di un agente. Junior data analyst
Gemini Data Analytics Data Agent User (roles/geminidataanalytics.dataAgentUser) Agente, Progetto Chatta con un operatore. Professionista del marketing, proprietario del negozio
Gemini Data Analytics Data Agent Viewer (roles/geminidataanalytics.dataAgentViewer) Progetto, Agente Elenca gli agenti e ottieni i loro dettagli. Qualsiasi utente
Gemini Data Analytics Data Agent Stateless User (roles/geminidataanalytics.dataAgentStatelessUser) Progetto Chatta con un agente senza memorizzare il contesto o la cronologia delle conversazioni. Qualsiasi utente

Sistemi con più agenti

Puoi progettare sistemi complessi integrando più agenti dell'API Conversational Analytics. Un pattern comune è utilizzare un agente "orchestratore" principale che delega le attività a uno o più agenti specializzati che gestiscono domini specifici, come i dati di vendita o di marketing. Questo approccio ti consente di creare un sistema in grado di gestire un'ampia gamma di domande combinando i punti di forza di più agenti.

Il seguente diagramma illustra questo pattern multi-agente e mostra come un agente principale può delegare una domanda sui dati a un agente specializzato di Conversational Analytics:

Un agente orchestratore principale delega una domanda sui dati a un agente di vendita specializzato, che poi restituisce una risposta all'utente.

Il workflow tipico per un sistema multi-agente prevede i seguenti passaggi:

  1. Un utente aziendale o un analista di dati pone una domanda in linguaggio naturale, ad esempio "Mostrami i primi tre negozi per entrate".
  2. Un agente "orchestratore" principale delega la richiesta all'agente specializzato appropriato.
  3. Un agente specializzato riceve la richiesta delegata, si connette alle origini dati pertinenti, utilizza i suoi strumenti per generare le query SQL e i grafici necessari e genera una risposta.
  4. La risposta dell'agente specializzato viene restituita all'utente, ad esempio "I negozi 4, 9 e 3 hanno il fatturato più alto. Ecco un grafico."

Passaggi successivi

Dopo aver compreso i concetti di base dell'API Conversational Analytics, scopri come implementare queste funzionalità: