Architektur und wichtige Konzepte der Conversational Analytics API

In diesem Dokument werden die wichtigsten Konzepte für die Verwendung der Conversational Analytics API (geminidataanalytics.googleapis.com) beschrieben. Mit dieser API können Sie Daten-Agents erstellen und mit ihnen interagieren, die Fragen zu Ihren strukturierten Daten in natürlicher Sprache beantworten. In diesem Dokument wird beschrieben, wie Agents funktionieren, typische Arbeitsabläufe, Konversationsmodi, IAM-Rollen (Identity and Access Management) und wie Sie Systeme mit mehreren Agents entwerfen.

Funktionsweise von Data Agents

KI-Datenagenten der Conversational Analytics API verwenden Kontext, den Sie bereitstellen (Geschäftsinformationen und -daten), sowie Tools wie SQL und Python, um Fragen in natürlicher Sprache zu interpretieren und Antworten aus Ihren strukturierten Daten zu generieren.

Das folgende Diagramm veranschaulicht die Phasen des Agent-Workflows, wenn ein Nutzer eine Frage stellt:

Architekturdiagramm der Conversational Analytics API, das den Ablauf von der Nutzereingabe über eine Reasoning Engine bis zur endgültigen Ausgabe zeigt.

Wie im Diagramm dargestellt, verarbeitet der Agent die Anfrage eines Nutzers in den folgenden Phasen:

  1. Nutzereingabe: Der Nutzer stellt eine Frage in natürlicher Sprache und gibt gegebenenfalls zusätzlichen Kontext an.
  2. Datenquellen: Der Agent stellt eine Verbindung zu Ihren Daten in Looker, BigQuery und Looker Studio her, um die erforderlichen Informationen abzurufen.
  3. Reasoning Engine: Der Kern des Agenten verarbeitet die Frage des Nutzers mithilfe der verfügbaren Tools, um eine Antwort zu generieren.
  4. Agent-Ausgabe: Der Agent generiert eine Antwort, die Text, Datentabellen oder Spezifikationen für Diagramme enthalten kann.

Workflows zum Entwerfen und Verwenden von Agents

Die Conversational Analytics API unterstützt Workflows für Agent-Ersteller (die Agents erstellen und konfigurieren) und für Agent-Nutzer (die mit Agents interagieren).

Das folgende Diagramm veranschaulicht den End-to-End-Prozess von der ersten Einrichtung durch einen Agent-Ersteller bis zu den endgültigen Interaktionen eines Agent-Nutzers:

Der End-to-End-Workflow für das Design und die Verwendung von Agents, von Creator-Aufgaben wie dem Erstellen und Teilen bis hin zu Aufgaben für Datennutzer wie der Interaktion mit einem Agent.

In den folgenden Abschnitten werden die Workflows für Agent-Ersteller und Agent-Nutzer genauer beschrieben.

Workflow für die Erstellung von Kundenservicemitarbeitern

Der Agent-Ersteller ist für das Einrichten und Konfigurieren von Agents verantwortlich. Dieser Workflow umfasst die folgenden Schritte:

  1. Agent erstellen: Der Creator beginnt mit dem Erstellen eines neuen Agents und gibt den erforderlichen Kontext an, einschließlich Systemanweisungen und Verbindungen zu Datenquellen. Dieser Schritt ist entscheidend, damit der Kundenservicemitarbeiter Nutzerfragen effektiv verstehen und beantworten kann.
  2. Agent freigeben: Nachdem der Agent konfiguriert wurde, gibt der Ersteller ihn für andere Nutzer frei und legt die entsprechenden rollenbasierten Zugriffssteuerungen fest, um Berechtigungen zu verwalten.

Workflow für Kundenservicemitarbeiter

Der Agent-Nutzer ist in der Regel ein Geschäftsanwender, der Antworten von einem konfigurierten Agenten benötigt. Dieser Workflow umfasst die folgenden Schritte:

  1. Agent suchen: Der Nutzer sucht zuerst nach einem Agent, der für ihn freigegeben wurde.
  2. Frage stellen: Der Nutzer stellt eine Frage in natürlicher Sprache. Diese Frage kann eine einzelne Anfrage oder Teil einer Konversation mit mehreren Anfragen sein.
  3. Agent „denkt“: Die Reasoning Engine des Agenten verarbeitet die Frage. Die Reasoning Engine verwendet das vordefinierte Wissen des Agents und die verfügbaren Agent-Tools (z. B. SQL, Python und Diagramme) in einem „Reasoning-Loop“, um die beste Art und Weise zu ermitteln, die Frage zu beantworten.
  4. Agent antwortet: Der Agent gibt eine Antwort zurück, die Text, Datentabellen oder Diagramme enthalten kann.

Unterhaltungsmodi

Agents für die Conversational Analytics API unterstützen verschiedene Unterhaltungsmodi, die bestimmen, wie ein Agent den Unterhaltungsverlauf und die Persistenz des Kontexts über Interaktionen hinweg verarbeitet. Die folgenden Konversationsmodi sind verfügbar:

  • Zustandsloser Modus: Der Agent speichert keinen Unterhaltungsverlauf. Jede Interaktion wird unabhängig behandelt. Dieser Modus ist nützlich für Anwendungen, bei denen der Kontext nicht über mehrere Durchgänge hinweg beibehalten werden muss.
  • Zustandsorientierter Modus: Der Agent behält den Kontext und den Unterhaltungsverlauf bei, was zu kontextbezogeneren Interaktionen führt. Dieser Modus ist nützlich für Anwendungen, bei denen der Kontext über mehrere Durchgänge hinweg beibehalten werden muss. Die Verwendung des zustandsbehafteten Modus wird empfohlen, um die Genauigkeit und die personalisierten Antworten zu verbessern.

Wählen Sie einen Unterhaltungsmodus basierend auf den Anforderungen Ihrer Anwendung an den Unterhaltungsverlauf und die Kontextpersistenz aus.

Die verschiedenen Chatmodi für einen Agenten der Conversational Analytics API.

IAM-Rollen

IAM-Rollen steuern, wer Agents für die Conversational Analytics API erstellen, verwalten, freigeben und mit ihnen interagieren kann. In der folgenden Tabelle werden die wichtigsten IAM-Rollen für die Conversational Analytics API beschrieben:

Rolle Typischer Umfang Was die Rolle ermöglicht Wer könnte diese Rolle verwenden?
Gemini Data Analytics Data Agent Creator (roles/geminidataanalytics.dataAgentCreator) Projekt Agents erstellen und Inhaberberechtigungen für den Agent übernehmen Jeder Datenanalyst
Gemini Data Analytics Data Agent Owner (roles/geminidataanalytics.dataAgentOwner) Projekt, Agent Sie können Agents mit anderen Nutzern bearbeiten, teilen oder löschen. Senior Data Analyst
Gemini Data Analytics Data Agent Editor (roles/geminidataanalytics.dataAgentEditor) Agent, Projekt Konfiguration oder Kontext eines Agents aktualisieren Junior Data Analyst
Gemini Data Analytics Data Agent User (roles/geminidataanalytics.dataAgentUser) Agent, Projekt Mit einem Kundenservicemitarbeiter chatten Werbetreibender, Geschäftsinhaber
Gemini Data Analytics Data Agent Viewer (roles/geminidataanalytics.dataAgentViewer) Projekt, Agent Agents auflisten und Details dazu abrufen. Alle Nutzer
Gemini Data Analytics Data Agent Stateless User (roles/geminidataanalytics.dataAgentStatelessUser) Projekt Mit einem Kundenservicemitarbeiter chatten, ohne dass Kontext oder Unterhaltungsverlauf gespeichert werden. Alle Nutzer

Systeme mit mehreren Agents

Sie können komplexe Systeme entwerfen, indem Sie mehrere Conversational Analytics API-Agents einbinden. Ein gängiges Muster ist die Verwendung eines primären „Orchestrator“-Agents, der Aufgaben an einen oder mehrere spezialisierte Agents delegiert, die sich um bestimmte Bereiche wie Verkaufs- oder Marketingdaten kümmern. Mit diesem Ansatz können Sie ein System erstellen, das eine Vielzahl von Fragen beantworten kann, indem Sie die Stärken mehrerer Agents kombinieren.

Das folgende Diagramm veranschaulicht dieses Multi-Agent-Muster und zeigt, wie ein primärer Agent eine Datenfrage an einen spezialisierten Conversational Analytics-Agenten delegieren kann:

Ein primärer Orchestrator-Agent delegiert eine Datenfrage an einen spezialisierten Vertriebsagenten, der dann eine Antwort an den Nutzer zurückgibt.

Der typische Workflow für ein Multi-Agent-System umfasst die folgenden Schritte:

  1. Ein Unternehmensnutzer oder Datenanalyst stellt eine Frage in natürlicher Sprache, z. B. „Show me the top three stores by revenue.“ (Zeige mir die drei umsatzstärksten Geschäfte.)
  2. Ein primärer „Orchestrator“-Agent leitet die Anfrage an den entsprechenden spezialisierten Agenten weiter.
  3. Ein spezialisierter Agent empfängt die delegierte Anfrage, stellt eine Verbindung zu den relevanten Datenquellen her, verwendet seine Tools, um die erforderlichen SQL-Abfragen und Diagramme zu generieren, und erstellt eine Antwort.
  4. Die Antwort des spezialisierten Agents wird an den Nutzer zurückgegeben, z. B. „Die Geschäfte 4, 9 und 3 haben den höchsten Umsatz. Hier ist ein Diagramm.“

Nächste Schritte

Nachdem Sie die wichtigsten Konzepte der Conversational Analytics API kennengelernt haben, können Sie sich ansehen, wie Sie diese Funktionen implementieren: