Diese Seite wurde von der Cloud Translation API übersetzt.

KI-System mit mehreren Agents in Google Cloud

Last reviewed 2025-09-16 UTC

Dieses Dokument enthält eine Referenzarchitektur, die Sie beim Entwerfen robuster KI-Systeme mit mehreren Agents in Google Cloudunterstützt. Ein Multi-Agent-KI-System optimiert komplexe und dynamische Prozesse, indem es sie in einzelne Aufgaben unterteilt, die von mehreren spezialisierten KI-Agenten gemeinsam ausgeführt werden.

Die Zielgruppe für dieses Dokument umfasst Architekten, Entwickler und Administratoren, die KI-Infrastruktur und ‑Anwendungen in der Cloud erstellen und verwalten. In diesem Dokument wird ein grundlegendes Verständnis von KI-Agents und ‑Modellen vorausgesetzt. Das Dokument enthält keine spezifischen Anleitungen zum Entwerfen und Programmieren von KI-Agents.

Architektur

Das folgende Diagramm zeigt eine Architektur für ein Beispiel für ein KI-System mit mehreren Agents, das in Google Cloudbereitgestellt wird.

Architektur für ein KI-System mit mehreren Agenten in Google Cloud.

Architekturkomponenten

Die Beispielarchitektur im vorherigen Abschnitt enthält die folgenden Komponenten:

Komponente	Beschreibung
Frontend	Nutzer interagieren mit dem Multi-Agent-System über ein Frontend, z. B. eine Chat-Oberfläche, die als serverloser Cloud Run-Dienst ausgeführt wird.
Agents	In diesem Beispiel steuert ein Coordinator-Agent das agentische KI-System. Der Coordinator-Agent ruft einen geeigneten Subagent auf, um den Agentenfluss auszulösen. Die Agents können über das Agent2Agent-Protokoll (A2A) miteinander kommunizieren. Dieses Protokoll ermöglicht die Interoperabilität zwischen Agents unabhängig von ihrer Programmiersprache und Laufzeit. Die Beispielarchitektur zeigt Agents in einem sequenziellen Muster und einem iterativen Verfeinerungsmuster. Weitere Informationen zu den untergeordneten Agents in diesem Beispiel finden Sie im Abschnitt Agentic Flow.
Laufzeit von KI-Agenten	KI-Agents können als serverlose Cloud Run-Dienste, als containerisierte Apps in der Google Kubernetes Engine (GKE) oder in der Vertex AI Agent Engine bereitgestellt werden.
ADK	Das Agent Development Kit (ADK) bietet Tools und ein Framework zum Entwickeln, Testen und Bereitstellen von Agenten. Das ADK abstrahiert die Komplexität der Agentenerstellung und ermöglicht es KI-Entwicklern, sich auf die Logik und die Funktionen des Agenten zu konzentrieren.
KI-Modell und Laufzeiten von Modellen	Für die Bereitstellung von Inferenzen verwenden die Agents in dieser Beispielarchitektur ein KI-Modell in Vertex AI. Die Architektur zeigt Cloud Run und GKE als alternative Runtimes für das KI-Modell, das Sie verwenden möchten.
Model Armor	Mit Model Armor können Eingaben und Antworten für Modelle, die in Vertex AI und GKE bereitgestellt werden, geprüft und bereinigt werden. Weitere Informationen finden Sie unter Model Armor-Integration in Google Cloud -Dienste.
MCP-Clients, ‑Server und ‑Tools	Das Model Context Protocol (MCP) erleichtert den Zugriff auf Tools, indem die Interaktion zwischen Agents und Tools standardisiert wird. Für jedes Agent-Tool-Paar sendet ein MCP-Client Anfragen an einen MCP-Server, über den der Agent auf ein Tool wie eine Datenbank, ein Dateisystem oder eine API zugreift.

Agentischer Ablauf

Das Beispiel für ein Multi-Agent-System in der vorherigen Architektur hat den folgenden Ablauf:

Ein Nutzer gibt einen Prompt über ein Frontend ein, z. B. eine Chat-Oberfläche, die als serverloser Cloud Run-Dienst ausgeführt wird.
Das Frontend leitet den Prompt an einen Coordinator-Agent weiter.
Der Coordinator-Agent startet einen der folgenden agentenbasierten Abläufe, je nach Intention, die im Prompt ausgedrückt wird.
- Sequenziell:
  1. Der untergeordnete Agent für die Aufgabe führt eine Aufgabe aus.
  2. Der Unter-Agent für Aufgabe A ruft den Unter-Agent für Aufgabe A.1 auf.
- Iterative Optimierung:
  1. Der Unter-Agent für Aufgabe B führt eine Aufgabe aus.
  2. Der Unter-Agent zur Qualitätsbewertung prüft die Ausgabe des Unter-Agents für Aufgabe B.
  3. Wenn die Ausgabe nicht zufriedenstellend ist, ruft der Qualitätsprüfer den Unteragenten „Prompt-Optimierung“ auf, um den Prompt zu optimieren.
  4. Der Unter-Agent für Aufgabe B führt seine Aufgabe noch einmal mit dem optimierten Prompt aus.
  Dieser Zyklus wird fortgesetzt, bis die Ausgabe zufriedenstellend ist oder die maximale Anzahl von Iterationen erreicht ist.
Die Beispielarchitektur enthält einen human-in-the-loop-Pfad, damit menschliche Nutzer bei Bedarf in den Agentenfluss eingreifen können.
Der Unter-Agent für Aufgabe A.1 und der Unter-Agent für die Qualitätsbewertung rufen den Unter-Agent für die Antwortgenerierung unabhängig voneinander auf.
Der Unteragent „Antwortgenerator“ generiert eine Antwort, führt Validierungs- und Fundierungsprüfungen durch und sendet die endgültige Antwort dann über den Coordinator-Agent an den Nutzer.

Verwendete Produkte und Tools

In dieser Referenzarchitektur werden die folgenden Google Cloud und Drittanbieterprodukte und ‑tools verwendet:

Cloud Run ist eine serverlose Computing-Plattform, mit der Sie Container direkt auf der skalierbaren Infrastruktur von Google ausführen können.
Vertex AI: Eine ML-Plattform, mit der Sie ML-Modelle und KI-Anwendungen trainieren und bereitstellen und LLMs für die Verwendung in KI-basierten Anwendungen anpassen können.
Google Kubernetes Engine (GKE): Ein Kubernetes-Dienst, mit dem Sie Containeranwendungen in großem Maßstab mithilfe der Infrastruktur von Google bereitstellen und betreiben können.
Model Armor: Ein Dienst, der Ihre generativen und agentenbasierten KI-Ressourcen vor Prompt Injections, Datenlecks und schädlichen Inhalten schützt.
Agent Development Kit (ADK): Eine Reihe von Tools und Bibliotheken zum Entwickeln, Testen und Bereitstellen von KI-Agenten.
Agent2Agent-Protokoll (A2A): Ein offenes Protokoll, das die Kommunikation und Interoperabilität zwischen Agenten unabhängig von ihrer Programmiersprache und Laufzeit ermöglicht.
Model Context Protocol (MCP): Ein Open-Source-Standard zum Verbinden von KI-Anwendungen mit externen Systemen.

Anwendungsfälle

Multi-Agenten-KI-Systeme eignen sich für komplexe Anwendungsfälle, die Zusammenarbeit und Koordination über mehrere spezialisierte Fähigkeiten hinweg erfordern, um ein Geschäftsziel zu erreichen. Um Anwendungsfälle zu identifizieren, für die sich KI-Systeme mit mehreren Agenten eignen, analysieren Sie Ihre Geschäftsprozesse und ermitteln Sie bestimmte Aufgaben, die durch KI unterstützt werden können. Konzentrieren Sie sich auf konkrete Geschäftsergebnisse wie Kostensenkung und schnellere Verarbeitung. So können Sie Ihre Investitionen in KI mit dem Geschäftswert in Einklang bringen.

Im Folgenden finden Sie Beispiele für Anwendungsfälle für KI-Systeme mit mehreren Agents.

Finanzberater

Personalisierte Empfehlungen für den Aktienhandel geben und Trades ausführen Das folgende Diagramm zeigt ein Beispiel für einen Agent-basierten Ablauf für diesen Anwendungsfall. In diesem Beispiel wird ein sequenzielles Muster verwendet.

Anwendungsfall für einen Finanzberater in einem Multi-Agent-System.

Das Diagramm zeigt den folgenden Ablauf:

Ein Data Retriever-Agent ruft Echtzeit- und Verlaufsdaten zu Aktienkursen, Finanzberichte von Unternehmen und andere relevante Daten aus zuverlässigen Quellen ab.
Ein Finanzanalysten-Agent wendet geeignete Analyse- und Diagrammtechniken auf die Daten an, identifiziert Muster bei Preisbewegungen und trifft Vorhersagen.
Ein Aktienempfehlungs-Agent verwendet die Analyse und die Diagramme, um personalisierte Empfehlungen zum Kauf und Verkauf bestimmter Aktien basierend auf dem Risikoprofil und den Anlagezielen des Nutzers zu generieren.
Ein Trade Executor-Agent kauft und verkauft Aktien im Namen des Nutzers.

Recherche-Assistent

Erstellen Sie einen Rechercheplan, sammeln Sie Informationen, werten Sie die Recherche aus und verfeinern Sie sie und verfassen Sie dann einen Bericht. Das folgende Diagramm zeigt ein Beispiel für einen Agent-basierten Ablauf für diesen Anwendungsfall. Im Hauptablauf dieses Beispiels wird ein sequenzielles Muster verwendet. Das Beispiel enthält auch ein Muster für die iterative Verfeinerung.

Anwendungsfall für einen Forschungsassistenten für ein Multi-Agent-System.

Das Diagramm zeigt den folgenden Ablauf:

Ein Planer-Agent erstellt einen detaillierten Forschungsplan.
Ein Recherche-Agent führt die folgenden Aufgaben aus:
1. Verwendet den Forschungsplan, um geeignete interne und externe Datenquellen zu ermitteln.
2. Sammelt und analysiert die erforderlichen Daten.
3. Erstellt eine Zusammenfassung der Recherche und stellt sie einem Prüfer-Agent zur Verfügung.
Der Researcher-Agent wiederholt diese Aufgaben, bis der Evaluator-Agent die Recherche genehmigt.
Ein Agent zum Erstellen von Berichten erstellt den endgültigen Recherchebericht.

Tool zur Optimierung der Lieferkette

Bestände optimieren, Sendungen verfolgen und mit Partnern in der Lieferkette kommunizieren Das folgende Diagramm zeigt ein Beispiel für einen Agent-basierten Ablauf für diesen Anwendungsfall. In diesem Beispiel wird ein sequenzielles Muster verwendet.

Anwendungsfall für die Optimierung der Lieferkette für ein Multi-Agent-System.

Ein Agent für die Lagerverwaltung sorgt für optimale Lagerbestände, indem er Nachbestellungen auf Grundlage von Inventar, Bedarfsprognosen und Vorlaufzeiten von Lieferanten erstellt.
- Der Agent interagiert mit dem Agent für die Sendungsverfolgung, um Lieferungen zu verfolgen.
- Der Agent interagiert mit dem Kommunikations-Agent für Lieferanten, um Lieferanten über Änderungen an Bestellungen zu informieren.
Ein Shipment Tracker-Agent sorgt für die rechtzeitige und effiziente Ausführung von Bestellungen, indem er in die Logistikplattformen und Transportsysteme der Lieferanten integriert wird.
Ein Supplier Communicator-Agent kommuniziert im Namen der anderen Agents im System mit externen Lieferanten.

Designaspekte

In diesem Abschnitt werden Designfaktoren, Best Practices und Empfehlungen beschrieben, die Sie berücksichtigen sollten, wenn Sie diese Referenzarchitektur verwenden, um eine Topologie zu entwickeln, die Ihren spezifischen Anforderungen an Sicherheit, Zuverlässigkeit, Kosten und Leistung entspricht.

Die Anleitung in diesem Abschnitt ist nicht vollständig. Je nach den Anforderungen Ihrer Arbeitslast und den von Ihnen verwendeten Google Cloud und Drittanbieterprodukten und ‑funktionen müssen möglicherweise zusätzliche Designfaktoren und Vor- und Nachteile berücksichtigt werden.

Systemdesign

Dieser Abschnitt enthält eine Anleitung zur Auswahl von Google Cloud Regionen für Ihre Bereitstellung und zur Auswahl geeigneter Google Cloud Produkte und Tools.

Auswahl der Region

Berücksichtigen Sie bei der Auswahl von Google Cloud Regionen für Ihre KI-Anwendungen die folgenden Faktoren:

Verfügbarkeit von Google Cloud -Diensten in jeder Region.
Latenzanforderungen für den Endnutzer.
Kosten für Google Cloud Ressourcen.
Gesetzliche Anforderungen.

Mit den folgenden Tools können Sie geeignete Google Cloud Standorte für Ihre Anwendungen auswählen:

Google Cloud Region Picker: Ein interaktives webbasiertes Tool zur Auswahl der optimalen Google Cloud-Region für Ihre Anwendungen und Daten basierend auf Faktoren wie CO2-Bilanz, Kosten und Latenz.
Cloud Location Finder API: Eine öffentliche API, mit der Sie programmatisch Bereitstellungsorte in Google Cloud, Google Distributed Cloud und anderen Cloud-Anbietern finden können.

Agent-Design

Dieser Abschnitt enthält allgemeine Empfehlungen für das Design von KI-Agents. Eine detaillierte Anleitung zum Schreiben von Agent-Code und ‑Logik geht über den Rahmen dieses Dokuments hinaus.

Designschwerpunkt	Empfehlungen
Agent-Definition und -Design	Definieren Sie das Geschäftsziel des Agentic AI-Systems und die Aufgabe, die jeder Agent ausführt, klar. Wählen Sie ein Agent-Designmuster aus, das Ihren Anforderungen am besten entspricht. Mit dem ADK können Sie Ihre agentenbasierte Architektur effizient erstellen, bereitstellen und verwalten.
Interaktionen mit dem Kundenservicemitarbeiter	Entwerfen Sie die Agenten, die mit Menschen interagieren, so, dass sie Interaktionen in natürlicher Sprache unterstützen. Jeder Agent muss seine Aktionen und seinen Status klar an seine abhängigen Clients kommunizieren. Entwerfen Sie die Agents so, dass sie mehrdeutige Anfragen und differenzierte Interaktionen erkennen und verarbeiten können.
Kontext, Tools und Daten	Achten Sie darauf, dass die Agents genügend Kontext haben, um Interaktionen mit mehreren Schritten und Sitzungsparameter zu erfassen. Beschreiben Sie klar den Zweck, die Argumente und die Verwendung der Tools, die die Agenten verwenden können. Sorgen Sie dafür, dass die Antworten der Agents auf zuverlässigen Datenquellen basieren, um Halluzinationen zu reduzieren. Implementieren Sie eine Logik für Situationen, in denen keine Übereinstimmung gefunden wird, z. B. wenn ein Prompt nicht relevant ist.

Sicherheit

In diesem Abschnitt werden Designüberlegungen und Empfehlungen beschrieben, mit denen Sie eine Topologie in Google Cloud entwerfen können, die die Sicherheitsanforderungen Ihrer Arbeitslast erfüllt.

Komponente	Designüberlegungen und ‑empfehlungen
Agents	KI-Agents bergen bestimmte einzigartige und kritische Sicherheitsrisiken, die mit herkömmlichen, deterministischen Sicherheitsverfahren möglicherweise nicht ausreichend gemindert werden können. Google empfiehlt einen Ansatz, der die Stärken deterministischer Sicherheitskontrollen mit dynamischen, auf Schlussfolgerungen basierenden Schutzmaßnahmen kombiniert. Dieser Ansatz basiert auf drei Grundprinzipien: menschliche Aufsicht, sorgfältig definierte Agentenautonomie und Beobachtbarkeit. Im Folgenden finden Sie konkrete Empfehlungen, die mit diesen Grundsätzen übereinstimmen. Aufsicht durch Menschen: Ein agentisches KI-System kann manchmal fehlschlagen oder nicht wie erwartet funktionieren. Das Modell kann beispielsweise ungenaue Inhalte generieren oder ein Agent kann unangemessene Tools auswählen. In geschäftskritischen agentischen KI-Systemen sollten Sie einen Human-in-the-Loop-Ablauf einbauen, damit menschliche Aufsichtspersonen Agents überwachen, außer Kraft setzen und pausieren können. So können menschliche Nutzer beispielsweise die Ausgabe von Agents überprüfen, genehmigen oder ablehnen und weitere Anleitungen geben, um Fehler zu korrigieren oder strategische Entscheidungen zu treffen. Dieser Ansatz kombiniert die Effizienz von agentischen KI-Systemen mit dem kritischen Denken und der Fachkompetenz menschlicher Nutzer. Zugriffssteuerung für Agents: Konfigurieren Sie Agent-Berechtigungen mithilfe von IAM-Steuerelementen (Identity and Access Management). Gewähren Sie jedem Agenten nur die Berechtigungen, die er für die Ausführung seiner Aufgaben und die Kommunikation mit Tools und anderen Agenten benötigt. Dieser Ansatz trägt dazu bei, die potenziellen Auswirkungen einer Sicherheitsverletzung zu minimieren, da ein manipulierter Agent nur eingeschränkten Zugriff auf andere Teile des Systems hätte. Weitere Informationen finden Sie unter Identität und Berechtigungen für Ihren Agent festlegen und Zugriff für bereitgestellte Agents verwalten. Monitoring: Überwachen Sie das Verhalten von Agenten mithilfe umfassender Trace-Funktionen, die Ihnen Einblick in jede Aktion eines Agenten geben, einschließlich des Begründungsprozesses, der Toolauswahl und der Ausführungspfade. Weitere Informationen finden Sie unter Logging eines Agenten in Vertex AI Agent Engine und Logging im ADK. Weitere Informationen zum Sichern von KI-Agents finden Sie unter Sicherheit für KI-Agents.
Vertex AI	Geteilte Verantwortung: Sicherheit ist eine geteilte Verantwortung. Vertex AI sichert die zugrunde liegende Infrastruktur und bietet Tools und Sicherheitskontrollen, mit denen Sie Ihre Daten, Ihren Code und Ihre Modelle schützen können. Sie sind für die ordnungsgemäße Konfiguration Ihrer Dienste, die Verwaltung der Zugriffssteuerung und die Sicherung Ihrer Anwendungen verantwortlich. Weitere Informationen finden Sie unter Gemeinsame Verantwortung von Vertex AI. Sicherheitskontrollen: Vertex AI unterstützt Google Cloud Sicherheitskontrollen, mit denen Sie Ihre Anforderungen an Datenstandort, vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK), Netzwerksicherheit mit VPC Service Controls und Access Transparency erfüllen können. Weitere Informationen finden Sie in der folgenden Dokumentation: Sicherheitseinstellungen für Vertex AI Sicherheitseinstellungen für generative KI Generative KI und keine Datenaufbewahrung Sicherheit: KI-Modelle können schädliche Antworten generieren, manchmal als Reaktion auf bösartige Prompts. Um die Sicherheit zu erhöhen und potenziellen Missbrauch des agentenbasierten KI-Systems zu minimieren, können Sie Inhaltsfilter konfigurieren, die als Barrieren für schädliche Eingaben und Antworten dienen. Weitere Informationen finden Sie unter Sicherheits- und Inhaltsfilter. Mit Model Armor können Sie Inferenzanfragen und ‑antworten auf Bedrohungen wie Prompt Injection und schädliche Inhalte prüfen und bereinigen. Mit Model Armor können Sie schädliche Eingaben verhindern, die Sicherheit von Inhalten überprüfen, sensible Daten schützen, die Compliance aufrechterhalten und Sicherheitsrichtlinien einheitlich durchsetzen. Modellzugriff: Sie können Organisationsrichtlinien einrichten, um den Typ und die Versionen von KI-Modellen zu beschränken, die in einem Google Cloud -Projekt verwendet werden können. Weitere Informationen finden Sie unter Zugriff auf Model Garden-Modelle steuern. Datenschutz: Mit der Cloud Data Loss Prevention API können Sie sensible Daten in den Prompts und Antworten sowie in den Logdaten erkennen und de-identifizieren. Weitere Informationen finden Sie in diesem Video: Protecting sensitive data in AI apps.
MCP	Weitere Informationen finden Sie unter MCP und Sicherheit.
A2A	Transportsicherheit: Das A2A-Protokoll schreibt HTTPS für die gesamte A2A-Kommunikation in Produktionsumgebungen vor und empfiehlt Transport Layer Security (TLS)-Versionen 1.2 oder höher. Authentifizierung: Das A2A-Protokoll delegiert die Authentifizierung an Standard-Webmechanismen wie HTTP-Header und an Standards wie OAuth2 und OpenID Connect. Jeder Agent gibt die Authentifizierungsanforderungen auf seiner Agent-Karte an. Weitere Informationen finden Sie unter A2A-Authentifizierung.
Cloud Run	Sicherheit für eingehenden Traffic (für den Frontend-Dienst): Um den Zugriff auf die Anwendung zu steuern, deaktivieren Sie die standardmäßige `run.app`-URL des Frontend-Cloud Run-Dienstes und richten Sie einen regionalen externen Application Load Balancer ein. Der Load-Balancer führt nicht nur das Load-Balancing für eingehenden Traffic zur Anwendung durch, sondern verwaltet auch SSL-Zertifikate. Für zusätzlichen Schutz können Sie Google Cloud Armor-Sicherheitsrichtlinien verwenden, um Anfragen für den Dienst zu filtern, DDoS-Schutz zu bieten und die Raten zu begrenzen. Nutzerauthentifizierung: Verwenden Sie Identity-Aware Proxy (IAP), um den Nutzerzugriff auf den Frontend-Cloud Run-Dienst zu authentifizieren. Versucht ein Nutzer, auf eine mit IAP gesicherte Ressource zuzugreifen, führt IAP Authentifizierungs- und Autorisierungsprüfungen aus. Weitere Informationen finden Sie unter IAP für Cloud Run aktivieren. Sicherheit von Container-Images: Damit nur autorisierte Container-Images in Cloud Run bereitgestellt werden, können Sie die Binärautorisierung verwenden. Um Sicherheitsrisiken in den Container-Images zu erkennen und zu minimieren, können Sie die Artefaktanalyse verwenden, um automatisch Scans auf Sicherheitslücken auszuführen. Weitere Informationen finden Sie unter Übersicht zum Scannen von Containern. Datenstandort: Cloud Run unterstützt Sie dabei, die Anforderungen an den Datenstandort zu erfüllen. Ihre Cloud Run-Funktionen werden in der ausgewählten Region ausgeführt. Weitere Informationen zur Containersicherheit finden Sie unter Allgemeine Entwicklungstipps für Cloud Run.
Alle Produkte in der Architektur	Datenverschlüsselung: Standardmäßig verschlüsselt Google Cloudruhende Daten mit Google-owned and Google-managed encryption keys. Zum Schutz der Daten Ihrer Agents mit Verschlüsselungsschlüsseln, die Sie kontrollieren, können Sie CMEKs verwenden, die Sie in Cloud KMS erstellen und verwalten. Informationen zu Google Cloud Diensten, die mit Cloud KMS kompatibel sind, finden Sie unter Kompatible Dienste. Risiko einer Daten-Exfiltration minimieren: Um das Risiko einer Daten-Exfiltration zu verringern, erstellen Sie einen VPC Service Controls-Perimeter um die Infrastruktur. VPC Service Controls unterstützt alle Google Cloud -Dienste, die in dieser Referenzarchitektur verwendet werden. Zugriffssteuerung: Wenn Sie Berechtigungen für die Ressourcen in Ihrer Topologie konfigurieren, sollten Sie das Prinzip der geringsten Berechtigung anwenden. Sicherheit der Cloud-Umgebung: Mit den Tools im Security Command Center können Sie Sicherheitslücken erkennen, Bedrohungen identifizieren und abwehren, eine Sicherheitskonfiguration definieren und bereitstellen sowie Daten zur weiteren Analyse exportieren. Optimierung nach der Bereitstellung: Nachdem Sie Ihre Anwendung in Google Cloudbereitgestellt haben, erhalten Sie mit Active Assist Empfehlungen zur weiteren Optimierung der Sicherheit. Prüfen Sie die Empfehlungen und wenden Sie sie entsprechend Ihrer Umgebung an. Weitere Informationen finden Sie unter Empfehlungen in Active Assist finden.

Weitere Sicherheitsempfehlungen

Zuverlässigkeit

In diesem Abschnitt werden Designüberlegungen und Empfehlungen zum Erstellen und Betreiben einer zuverlässigen Infrastruktur für Ihre Bereitstellung in Google Cloudbeschrieben.

Komponente	Designüberlegungen und ‑empfehlungen
Agents	Fehlertoleranz: Entwickeln Sie das agentische System so, dass es Fehler auf Agentenebene toleriert oder verarbeitet. Verwenden Sie nach Möglichkeit einen dezentralen Ansatz, bei dem Agents unabhängig voneinander agieren können. Fehler simulieren: Bevor Sie das System mit agentenbasierter KI in der Produktion bereitstellen, sollten Sie es validieren, indem Sie eine Produktionsumgebung simulieren. Probleme bei der Koordination zwischen Agents und unerwartetes Verhalten erkennen und beheben. Fehlerbehandlung: Implementieren Sie Protokollierungs-, Ausnahmebehandlungs- und Wiederholungsmechanismen, um Fehler zu diagnostizieren und zu beheben.
Vertex AI	Kontingentverwaltung: Vertex AI unterstützt dynamische gemeinsame Kontingente (Dynamic Shared Quota, DSQ) für Gemini-Modelle. Mit DSQ lassen sich Pay-as-you-go-Anfragen flexibel verwalten. Außerdem müssen Sie das Kontingent nicht mehr manuell verwalten oder Kontingenterhöhungen anfordern. DSQ weist die verfügbaren Ressourcen für ein bestimmtes Modell und eine bestimmte Region dynamisch auf aktive Kunden auf. Bei DSQ gibt es keine vordefinierten Kontingentlimits für einzelne Kunden. Kapazitätsplanung: Wenn die Anzahl der Anfragen an das Modell die zugewiesene Kapazität überschreitet, wird der Fehlercode 429 zurückgegeben. Für geschäftskritische Arbeitslasten, die einen konstant hohen Durchsatz erfordern, können Sie den Durchsatz mit bereitgestelltem Durchsatz reservieren. Verfügbarkeit von Modellendpunkten: Wenn Daten in mehreren Regionen oder Ländern freigegeben werden können, können Sie einen globalen Endpunkt für das Modell verwenden.
Cloud Run	Robustheit bei Infrastrukturausfällen: Cloud Run ist ein regionaler Dienst. Die Daten werden synchron über mehrere Zonen innerhalb einer Region hinweg gespeichert und der Traffic wird automatisch auf die Zonen verteilt. Wenn ein Zonenausfall auftritt, wird Cloud Run weiterhin ausgeführt und es gehen keine Daten verloren. Wenn ein regionaler Ausfall auftritt, wird der Dienst so lange ausgeführt, bis Google den Ausfall behoben hat.
Alle Produkte in der Architektur	Optimierung nach der Bereitstellung: Nachdem Sie Ihre Anwendung in Google Cloudbereitgestellt haben, können Sie mit Active Assist Empfehlungen zur weiteren Optimierung der Zuverlässigkeit erhalten. Prüfen Sie die Empfehlungen und wenden Sie sie entsprechend Ihrer Umgebung an. Weitere Informationen finden Sie unter Empfehlungen in Active Assist finden.

Zuverlässigkeitsprinzipien und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Zuverlässigkeit.

Vorgänge

In diesem Abschnitt werden die Faktoren beschrieben, die Sie bei der Verwendung dieser Referenzarchitektur zum Entwerfen einer Google Cloud Topologie berücksichtigen sollten, die Sie effizient betreiben können.

Komponente Designüberlegungen und ‑empfehlungen

Vertex AI

Komponente	Designüberlegungen und ‑empfehlungen
Vertex AI	Überwachung mit Logs: Standardmäßig werden Agent-Logs, die in die Streams `stdout` und `stderr` geschrieben werden, an Cloud Logging weitergeleitet. Für ein erweitertes Logging können Sie den Python-Logger in Cloud Logging einbinden. Wenn Sie die volle Kontrolle über das Logging und strukturierte Logs benötigen, verwenden Sie den Cloud Logging-Client. Weitere Informationen finden Sie unter Agent protokollieren und Protokollierung im ADK. Kontinuierliche Evaluierung: Führen Sie regelmäßig eine qualitative Bewertung der Ausgabe der Agents und des Verlaufs oder der Schritte durch, die die Agents zur Erstellung der Ausgabe ausgeführt haben. Zur Implementierung der Agent-Bewertung können Sie den Gen AI Evaluation Service oder die vom ADK unterstützten Bewertungsmethoden verwenden.
MCP	Datenbanktools: Wenn Sie Datenbanktools für Ihre KI-Agents effizient verwalten und dafür sorgen möchten, dass die Agents Komplexitäten wie Connection Pooling und Authentifizierung sicher verarbeiten, verwenden Sie die MCP Toolbox for Databases. Sie bietet einen zentralen Ort zum Speichern und Aktualisieren von Datenbanktools. Sie können die Tools für mehrere Agents freigeben und aktualisieren, ohne Agents neu bereitzustellen. Die Toolbox enthält eine Vielzahl von Tools für Google Cloud-Datenbanken wie AlloyDB for PostgreSQL und für Drittanbieterdatenbanken wie MongoDB. Modelle für generative KI: Damit KI-Agents generative KI-Modelle von Google wie Imagen und Veo verwenden können, können Sie MCP-Server für Google CloudAPIs für generative Medien verwenden. Google-Sicherheitsprodukte und ‑Tools: Wenn Ihre KI-Agents auf Google-Sicherheitsprodukte und ‑Tools wie Google Security Operations, Google Threat Intelligence und Security Command Center zugreifen sollen, verwenden Sie MCP-Server für Google-Sicherheitsprodukte.
Alle Google Cloud -Produkte in der Architektur	Tracing: Mit Cloud Trace kontinuierlich Trace-Daten erfassen und analysieren. Mit Tracedaten können Sie Fehler in komplexen Agent-Workflows schnell identifizieren und diagnostizieren. Mit dem Trace Explorer-Tool können Sie detaillierte Analysen anhand von Visualisierungen durchführen. Weitere Informationen finden Sie unter Agent-Traces erstellen.

Überwachung mit Logs: Standardmäßig werden Agent-Logs, die in die Streams stdout und stderr geschrieben werden, an Cloud Logging weitergeleitet. Für ein erweitertes Logging können Sie den Python-Logger in Cloud Logging einbinden. Wenn Sie die volle Kontrolle über das Logging und strukturierte Logs benötigen, verwenden Sie den Cloud Logging-Client. Weitere Informationen finden Sie unter Agent protokollieren und Protokollierung im ADK.

Kontinuierliche Evaluierung: Führen Sie regelmäßig eine qualitative Bewertung der Ausgabe der Agents und des Verlaufs oder der Schritte durch, die die Agents zur Erstellung der Ausgabe ausgeführt haben. Zur Implementierung der Agent-Bewertung können Sie den Gen AI Evaluation Service oder die vom ADK unterstützten Bewertungsmethoden verwenden.

MCP

Datenbanktools: Wenn Sie Datenbanktools für Ihre KI-Agents effizient verwalten und dafür sorgen möchten, dass die Agents Komplexitäten wie Connection Pooling und Authentifizierung sicher verarbeiten, verwenden Sie die MCP Toolbox for Databases. Sie bietet einen zentralen Ort zum Speichern und Aktualisieren von Datenbanktools. Sie können die Tools für mehrere Agents freigeben und aktualisieren, ohne Agents neu bereitzustellen. Die Toolbox enthält eine Vielzahl von Tools für Google Cloud-Datenbanken wie AlloyDB for PostgreSQL und für Drittanbieterdatenbanken wie MongoDB.

Modelle für generative KI: Damit KI-Agents generative KI-Modelle von Google wie Imagen und Veo verwenden können, können Sie MCP-Server für Google CloudAPIs für generative Medien verwenden.

Google-Sicherheitsprodukte und ‑Tools: Wenn Ihre KI-Agents auf Google-Sicherheitsprodukte und ‑Tools wie Google Security Operations, Google Threat Intelligence und Security Command Center zugreifen sollen, verwenden Sie MCP-Server für Google-Sicherheitsprodukte.

Alle Google Cloud -Produkte in der Architektur Tracing: Mit Cloud Trace kontinuierlich Trace-Daten erfassen und analysieren. Mit Tracedaten können Sie Fehler in komplexen Agent-Workflows schnell identifizieren und diagnostizieren. Mit dem Trace Explorer-Tool können Sie detaillierte Analysen anhand von Visualisierungen durchführen. Weitere Informationen finden Sie unter Agent-Traces erstellen.

Prinzipien und Empfehlungen für operative Exzellenz, die speziell auf KI- und ML-Arbeitslasten zugeschnitten sind, finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Operative Exzellenz.

Kostenoptimierung

Dieser Abschnitt enthält Anleitungen zur Optimierung der Kosten für die Einrichtung und den Betrieb einer Google Cloud Topologie, die Sie mithilfe dieser Referenzarchitektur erstellen.

Komponente	Designüberlegungen und ‑empfehlungen
Vertex AI	Kostenanalyse und ‑verwaltung: Um die Kosten für Vertex AI zu analysieren und zu verwalten, empfehlen wir, Baseline-Messwerte für Anfragen pro Sekunde (QPS) und Tokens pro Sekunde (TPS) zu erstellen. Behalten Sie diese Messwerte nach der Bereitstellung im Blick. Die Baseline hilft auch bei der Kapazitätsplanung. Anhand der Baseline können Sie beispielsweise ermitteln, wann Provisioned Throughput erforderlich ist. Modellauswahl: Das Modell, das Sie für Ihre KI-Anwendung auswählen, wirkt sich direkt auf Kosten und Leistung aus. Um das Modell zu ermitteln, das für Ihren spezifischen Anwendungsfall ein optimales Verhältnis zwischen Leistung und Kosten bietet, testen Sie die Modelle iterativ. Wir empfehlen, mit dem kostengünstigsten Modell zu beginnen und nach und nach leistungsstärkere Optionen zu nutzen. Kostengünstige Prompts: Die Länge Ihrer Prompts (Eingabe) und der generierten Antworten (Ausgabe) wirkt sich direkt auf Leistung und Kosten aus. Formulieren Sie Prompts, die kurz und direkt sind und ausreichend Kontext liefern. Formulieren Sie Ihre Prompts so, dass das Modell prägnante Antworten liefert. Sie können z. B. Formulierungen wie „Fasse in zwei Sätzen zusammen“ oder „Liste drei wichtige Punkte auf“ verwenden. Weitere Informationen finden Sie unter Best Practices für das Prompt-Design. Kontext-Caching: Um die Kosten für Anfragen zu reduzieren, die wiederkehrende Inhalte mit vielen Eingabetokens enthalten, verwenden Sie das Kontext-Caching. Batchanfragen: Erwägen Sie gegebenenfalls Batchvorhersagen. Batchanfragen sind günstiger als Standardanfragen.
Cloud Run	Ressourcenzuweisung: Wenn Sie einen Cloud Run-Dienst erstellen, können Sie die Größe des Arbeitsspeichers und die CPU angeben, die zugewiesen werden sollen. Beginnen Sie mit den standardmäßigen CPU- und Arbeitsspeicherzuweisungen. Beobachten Sie die Ressourcennutzung und die Kosten im Zeitverlauf und passen Sie die Zuweisung bei Bedarf an. Weitere Informationen finden Sie in der folgenden Dokumentation: Speicherlimits für Dienste konfigurieren CPU-Limits für Dienste konfigurieren Ratenoptimierung: Wenn Sie die CPU- und Arbeitsspeicheranforderungen vorhersagen können, können Sie mit Rabatten für zugesicherte Nutzung Geld sparen.
Alle Produkte in der Architektur	Optimierung nach der Bereitstellung: Nachdem Sie Ihre Anwendung in Google Cloudbereitgestellt haben, können Sie mit Active Assist Empfehlungen zur weiteren Kostenoptimierung erhalten. Prüfen Sie die Empfehlungen und wenden Sie sie entsprechend Ihrer Umgebung an. Weitere Informationen finden Sie unter Empfehlungen in Active Assist finden.

Komponente

Designüberlegungen und ‑empfehlungen

Vertex AI

Kostenanalyse und ‑verwaltung: Um die Kosten für Vertex AI zu analysieren und zu verwalten, empfehlen wir, Baseline-Messwerte für Anfragen pro Sekunde (QPS) und Tokens pro Sekunde (TPS) zu erstellen. Behalten Sie diese Messwerte nach der Bereitstellung im Blick. Die Baseline hilft auch bei der Kapazitätsplanung. Anhand der Baseline können Sie beispielsweise ermitteln, wann Provisioned Throughput erforderlich ist.

Modellauswahl: Das Modell, das Sie für Ihre KI-Anwendung auswählen, wirkt sich direkt auf Kosten und Leistung aus. Um das Modell zu ermitteln, das für Ihren spezifischen Anwendungsfall ein optimales Verhältnis zwischen Leistung und Kosten bietet, testen Sie die Modelle iterativ. Wir empfehlen, mit dem kostengünstigsten Modell zu beginnen und nach und nach leistungsstärkere Optionen zu nutzen.

Kostengünstige Prompts: Die Länge Ihrer Prompts (Eingabe) und der generierten Antworten (Ausgabe) wirkt sich direkt auf Leistung und Kosten aus. Formulieren Sie Prompts, die kurz und direkt sind und ausreichend Kontext liefern. Formulieren Sie Ihre Prompts so, dass das Modell prägnante Antworten liefert. Sie können z. B. Formulierungen wie „Fasse in zwei Sätzen zusammen“ oder „Liste drei wichtige Punkte auf“ verwenden. Weitere Informationen finden Sie unter Best Practices für das Prompt-Design.

Kontext-Caching: Um die Kosten für Anfragen zu reduzieren, die wiederkehrende Inhalte mit vielen Eingabetokens enthalten, verwenden Sie das Kontext-Caching.

Batchanfragen: Erwägen Sie gegebenenfalls Batchvorhersagen. Batchanfragen sind günstiger als Standardanfragen.

Cloud Run

Ressourcenzuweisung: Wenn Sie einen Cloud Run-Dienst erstellen, können Sie die Größe des Arbeitsspeichers und die CPU angeben, die zugewiesen werden sollen. Beginnen Sie mit den standardmäßigen CPU- und Arbeitsspeicherzuweisungen. Beobachten Sie die Ressourcennutzung und die Kosten im Zeitverlauf und passen Sie die Zuweisung bei Bedarf an. Weitere Informationen finden Sie in der folgenden Dokumentation:

Ratenoptimierung: Wenn Sie die CPU- und Arbeitsspeicheranforderungen vorhersagen können, können Sie mit Rabatten für zugesicherte Nutzung Geld sparen.

Alle Produkte in der Architektur

Optimierung nach der Bereitstellung: Nachdem Sie Ihre Anwendung in Google Cloudbereitgestellt haben, können Sie mit Active Assist Empfehlungen zur weiteren Kostenoptimierung erhalten. Prüfen Sie die Empfehlungen und wenden Sie sie entsprechend Ihrer Umgebung an. Weitere Informationen finden Sie unter Empfehlungen in Active Assist finden.

Mit dem Google Cloud Preisrechner können Sie die Kosten für Ihre Google Cloud -Ressourcen schätzen.

Kostenoptimierungsgrundsätze und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Kostenoptimierung.

Leistungsoptimierung

In diesem Abschnitt werden Designüberlegungen und Empfehlungen zum Entwerfen einer Topologie in Google Cloud beschrieben, die die Leistungsanforderungen Ihrer Arbeitslasten erfüllt.

Komponente	Designüberlegungen und ‑empfehlungen
Agents	Modellauswahl: Wenn Sie Modelle für Ihr agentisches KI-System auswählen, sollten Sie die Funktionen berücksichtigen, die für die Aufgaben erforderlich sind, die die Agents ausführen müssen. Prompt-Optimierung: Mit dem Vertex AI Prompt Optimizer können Sie die Leistung von Prompts schnell und in großem Umfang verbessern und optimieren, ohne Systemanweisungen oder einzelne Prompts manuell neu schreiben zu müssen. Mit dem Optimierungstool können Sie Prompts effizient an verschiedene Modelle anpassen.
Vertex AI	Modellauswahl: Das Modell, das Sie für Ihre KI-Anwendung auswählen, wirkt sich direkt auf Kosten und Leistung aus. Um das Modell zu ermitteln, das für Ihren spezifischen Anwendungsfall ein optimales Verhältnis zwischen Leistung und Kosten bietet, testen Sie die Modelle iterativ. Wir empfehlen, mit dem kostengünstigsten Modell zu beginnen und nach und nach leistungsstärkere Optionen zu nutzen. Prompt-Engineering: Die Länge Ihrer Prompts (Eingabe) und der generierten Antworten (Ausgabe) wirkt sich direkt auf Leistung und Kosten aus. Formulieren Sie Prompts, die kurz und direkt sind und ausreichend Kontext liefern. Formulieren Sie Ihre Prompts so, dass das Modell prägnante Antworten liefert. Verwenden Sie beispielsweise Formulierungen wie „Fasse in zwei Sätzen zusammen“ oder „Liste drei wichtige Punkte auf“. Weitere Informationen finden Sie unter Best Practices für das Prompt-Design. Kontext-Caching: Um die Latenz für Anfragen zu reduzieren, die wiederkehrende Inhalte mit vielen Eingabetokens enthalten, verwenden Sie das Kontext-Caching.
Cloud Run	Ressourcenzuweisung: Konfigurieren Sie den Arbeitsspeicher und die CPU, die dem Cloud Run-Dienst zugewiesen werden sollen, entsprechend Ihren Leistungsanforderungen. Weitere Informationen finden Sie in der folgenden Dokumentation: Speicherlimits für Dienste konfigurieren CPU-Limits für Dienste konfigurieren Weitere Informationen zur Leistungsoptimierung finden Sie unter Allgemeine Entwicklungstipps für Cloud Run.
Alle Produkte in der Architektur	Optimierung nach der Bereitstellung: Nachdem Sie Ihre Anwendung in Google Cloudbereitgestellt haben, können Sie mit Active Assist Empfehlungen zur weiteren Leistungsoptimierung erhalten. Prüfen Sie die Empfehlungen und wenden Sie sie entsprechend Ihrer Umgebung an. Weitere Informationen finden Sie unter Empfehlungen in Active Assist finden.

Grundsätze und Empfehlungen zur Leistungsoptimierung, die speziell auf KI- und ML-Arbeitslasten zugeschnitten sind, finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Leistungsoptimierung.

Bereitstellung

Die folgenden Codebeispiele zeigen, wie Sie KI-Systeme mit mehreren Agents erstellen und bereitstellen. Diese Codebeispiele sind voll funktionsfähige Ausgangspunkte für das Lernen und Experimentieren. Für einen optimalen Betrieb in Produktionsumgebungen müssen Sie den Code an Ihre spezifischen geschäftlichen und technischen Anforderungen anpassen.

Finanzberater: Aktienmarktdaten analysieren, Handelsstrategien entwickeln, Ausführungspläne definieren und Risiken bewerten.
Forschungsassistent: Planung und Durchführung von Recherchen, Auswertung der Ergebnisse und Verfassen eines Forschungsberichts.
Versicherungsvertreter: Mitgliedschaften erstellen, Pannenhilfe leisten und Versicherungsansprüche bearbeiten.
Suchoptimierung: Such-Keywords finden, Webseiten analysieren und Vorschläge zur Optimierung der Suche machen.
Data Analyzer: Daten abrufen, komplexe Manipulationen durchführen, Visualisierungen erstellen und ML-Aufgaben ausführen.
Webmarketing-Agent: Domainnamen auswählen, Website gestalten, Kampagnen erstellen und Inhalte produzieren.
Airbnb-Planer (mit A2A und MCP): Für einen bestimmten Ort und Zeitraum können Sie Airbnb-Unterkünfte finden und Wetterinformationen abrufen.

Codebeispiele für den Einstieg in die Verwendung des ADK mit MCP-Servern finden Sie unter MCP-Tools.

Nächste Schritte

Designmuster für Ihr agentisches KI-System auswählen
Beispiel-Agents und ‑Tools in Agent Garden ansehen.
Agenten mit dem Agent Development Kit (ADK) erstellen
Agents in Google Cloudbereitstellen
A2A-Agents in Cloud Run hosten
MCP-Server in Cloud Run hosten
Eine Übersicht über Architekturprinzipien und Empfehlungen, die speziell für KI- und ML-Arbeitslasten in Google Cloudgelten, finden Sie im Well-Architected Framework in der KI- und ML-Perspektive.
Weitere Referenzarchitekturen, Diagramme und Best Practices finden Sie im Cloud-Architekturcenter.

Beitragende

Autor: Kumar Dhanagopal | Cross-product Solution Developer

Weitere Beitragende:

Alan Blount | Product Manager
Filipe Gracio, PhD | Customer Engineer, AI/ML Specialist
Holt Skinner | Developer Advocate
Jack Wotherspoon | Developer Advocate
Joe Shirey | Cloud Developer Relations Manager
Megan O'Keefe | Developer Advocate
Samantha He | Technical Writer
Shir Meir Lador | Developer Relations Engineering Manager
Victor Dantas | Gen AI Field Solutions Architect
Vlad Kolesnikov | Developer Relations Engineer