RAG-Infrastruktur für generative KI mit Google Agentspace und Vertex AI

Last reviewed 2025-09-11 UTC

In diesem Dokument wird eine Referenzarchitektur vorgestellt, mit der Sie die Infrastruktur für eine generative KI-Anwendung mit Retrieval Augmented Generation (RAG) mit Google Agentspace und Vertex AI entwerfen können. Diese Referenzarchitektur zeigt, wie Sie verwaltete Dienste verwenden und einen einzelnen KI-Agenten bereitstellen, um einen End-to-End-RAG-Datenfluss zu ermöglichen. Google Agentspace dient als einheitliche Plattform für die Agent-Orchestrierung im gesamten Unternehmen. Vertex AI beschleunigt die Entwicklung und Bereitstellung benutzerdefinierter Agents und bietet verwaltete Datenspeicher, um den effizienten Abruf für RAG zu ermöglichen.

Die Zielgruppe für dieses Dokument umfasst Architekten, Entwickler und Administratoren von generativen KI-Anwendungen. In diesem Dokument werden grundlegende Kenntnisse der Konzepte von KI, maschinellem Lernen (ML) und Large Language Model (LLM) vorausgesetzt. Dieses Dokument bietet keine Anleitung zum Entwerfen und Entwickeln einer generativen KI-Anwendung. Informationen zum Entwerfen einer Anwendung finden Sie unter Generative KI-Anwendung entwickeln.

Architektur

Das folgende Diagramm zeigt einen allgemeinen Überblick über die Architektur, die in diesem Dokument beschrieben wird:

Allgemeine Ansicht der Datenaufnahme- und Bereitstellungsabläufe in der Architektur.

Die Architektur im vorherigen Diagramm besteht aus zwei Subsystemen: Datenaufnahme und Bereitstellung.

  • Das Subsystem für die Datenaufnahme nimmt Daten aus externen Quellen auf und bereitet sie für die Verwendung in RAG vor. Das Subsystem generiert Einbettungen für die aufgenommenen Daten und verwendet sie, um einen durchsuchbaren Vektorindex in einem verwalteten Datenspeicher zu erstellen und zu verwalten.
  • Das Subsystem für die Bereitstellung enthält die Frontend- und Backend-Dienste der generativen KI-Anwendung.
    • Der Frontend-Dienst verarbeitet den Anfrage-Antwort-Fluss mit Anwendungsnutzern und leitet Anfragen an den Backend-Dienst weiter.
    • Der Backend-Dienst verwendet Google Agentspace und Vertex AI, um Ihren KI-Agent zu erstellen und bereitzustellen, um den RAG-Prozess zu orchestrieren. Bei diesem Prozess werden die indexierten Vektordaten verwendet, um Antworten zu generieren, die kontextbezogen sind und den Sicherheitsfiltern für verantwortungsbewusste KI entsprechen.

Im folgenden Diagramm sehen Sie eine detaillierte Ansicht der Architektur:

Eine detaillierte Ansicht der Datenaufnahme- und Bereitstellungsabläufe in der Architektur.

In den folgenden Abschnitten wird der Datenfluss in jedem Subsystem des vorherigen Architekturdiagramms beschrieben.

Subsystem für die Datenaufnahme

Das Subsystem für die Datenaufnahme nimmt Daten aus externen Quellen auf und bereitet sie für RAG vor. Folgende Schritte sind im Ablauf der Datenaufnahme und -vorbereitung erforderlich:

  1. Data Engineers laden Daten aus externen Quellen in einen Cloud Storage-Bucket hoch. Bei den externen Quellen kann es sich um Anwendungen, Datenbanken oder Streamingdienste handeln.
  2. Nach Abschluss veröffentlicht Cloud Storage eine Nachricht in einem Pub/Sub-Thema.
  3. Das Pub/Sub-Thema löst einen Verarbeitungsjob aus, der in Cloud Run Functions ausgeführt wird.
  4. Cloud Run-Funktionen verarbeiten die Rohdaten, indem sie die Metadaten generieren und als JSON Lines-Dateien (JSONL) speichern. Die JSONL-Dateien werden in einem separaten Cloud Storage-Bucket gespeichert.
  5. Nach Abschluss veröffentlicht Cloud Run Functions eine Nachricht in einem Pub/Sub-Thema.
  6. Das Pub/Sub-Thema löst einen Verarbeitungsjob aus, der im verwalteten Datenspeicher in Google Agentspace ausgeführt wird. Der Verarbeitungsjob ruft die aufgenommenen Rohdaten und Metadaten aus den Cloud Storage-Buckets ab und parst und zerlegt die Daten, damit sie beim Bereitstellen effizient abgerufen werden können. In Google Agentspace werden automatisch Vektoreinbettungen generiert, ohne dass eine Konfiguration erforderlich ist.

Subsystem für die Bereitstellung

Das Subsystem für die Bereitstellung verarbeitet den Anfrage-Antwort-Fluss zwischen der generativen KI-Anwendung und ihren Nutzern. Folgende Schritte sind im Bereitstellungsablauf erforderlich:

  1. Ein Anwendungsnutzer sendet eine Anfrage über einen der Cloud Run-Frontend-Dienste. Sie können diese Dienste für verschiedene Anwendungen anpassen, z. B. für eine Chatbot-Benutzeroberfläche, eine Suchseite oder eine mobile Anwendung.
  2. Der Frontend-Dienst empfängt die Anfrage und leitet sie dann an einen zentralen Cloud Run-Backend-Dienst weiter. Dieses Backend bietet einen einzelnen, einheitlichen Endpunkt zur Unterstützung aller verschiedenen Frontend-Clients. Der Backend-Dienst führt auch die erforderliche Vorverarbeitung durch, die das Erstellen von Filtern für die Suchanfrage umfassen kann. So bleibt die Logik für die Frontends transparent.
  3. Der Backend-Dienst sendet die vorbereitete Anfrage über den Google Agentspace API-Endpunkt an Google Agentspace, um den RAG-Workflow zu starten.
  4. Zur Verarbeitung der Anfrage verwendet Google Agentspace die Enterprise-Suche und den benutzerdefinierten Agenten, um die folgenden Aufgaben auszuführen:
    1. Erstellen Sie eine Einbettung der Nutzeranfrage.
    2. Führen Sie eine semantische Suche in den indexierten Daten im verwalteten Datenspeicher durch, um die relevantesten Informationen zu finden.
    3. Die ursprüngliche Anfrage wird mit den abgerufenen Daten aus dem verwalteten Datenspeicher erweitert, um einen detaillierten, kontextbezogenen Prompt zu erstellen.
    4. Generieren Sie eine endgültige Antwort auf Grundlage des angereicherten Prompts.
  5. Google Agentspace sendet die generierte Antwort an den Cloud Run-Backend-Dienst.
  6. Der Backend-Dienst gibt die endgültige Antwort an den Frontend-Dienst zurück, der die ursprüngliche Anfrage gesendet hat. Der Frontend-Dienst präsentiert die Antwort dem Anwendungsnutzer.

Verwendete Produkte

In dieser Referenzarchitektur werden die folgenden Google Cloud Produkte verwendet:

  • Google Agentspace: Eine verwaltete Plattform, die als zentrales Register und Interaktionshub für alle Ihre KI-Agenten in einem Unternehmen dient und eine nahtlose Erkennung, Verwaltung und Nutzung durch Anwendungen ermöglicht.
  • Vertex AI: Eine ML-Plattform, mit der Sie ML-Modelle und KI-Anwendungen trainieren und bereitstellen und LLMs für die Verwendung in KI-basierten Anwendungen anpassen können.
    • Vertex AI Agent Engine: Eine Plattform, mit der Sie KI-Agents in der Produktion ausführen, verwalten und skalieren können.
  • Cloud Run ist eine serverlose Computing-Plattform, mit der Sie Container direkt auf der skalierbaren Infrastruktur von Google ausführen können.
  • Pub/Sub: Ein asynchroner, skalierbarer Messaging-Dienst, der Dienste entkoppelt, die Nachrichten von Diensten erzeugen, die diese Nachrichten verarbeiten.
  • Cloud Storage: Ein kostengünstiger, unbegrenzter Objektspeicher für verschiedene Datentypen. Auf Daten kann von innerhalb und außerhalb von Google Cloudzugegriffen werden. Sie werden zu Redundanzzwecken über Standorte hinweg repliziert.

Anwendungsfälle

Diese Architektur ist für Unternehmensszenarien konzipiert, in denen Ihre generative KI-Anwendung Zugriff auf die aktuellsten Informationen benötigt und ein tiefes, kontextbezogenes Verständnis erforderlich ist, um genaue Antworten zu liefern.

Die Architektur umfasst ein benutzerdefiniertes Subsystem für die Datenerfassung, um zwei wichtige Unternehmensanforderungen zu erfüllen:

  • Echtzeitverfügbarkeit von Daten:Die ereignisgesteuerte Pipeline verarbeitet neue Daten, sobald sie in Ihrer Organisation verfügbar sind, z. B. eine neue Produktanleitung oder einen aktualisierten Bericht. Die Pipeline stellt die Informationen auch in Ihrem verwalteten Datenspeicher zur Verfügung. Dieses Design trägt dazu bei, dass Informationen nicht veralten, da es für eine minimale Verzögerung zwischen Datenverfügbarkeit und ‑nutzung sorgt.
  • Kontextbezogene Suche mit zusätzlichen Informationen:Mit dem benutzerdefinierten Verarbeitungsjob kann Ihre Organisation ihre eigene Geschäftslogik anwenden, um Daten mit wertvollen Metadaten anzureichern. Die Cloud Run-Funktion kann jedes Dokument mit bestimmten Attributen wie Produktlinie, Autor, Standort oder Dokumenttyp taggen. Mithilfe dieser umfangreichen Metadaten kann der Agent seine Suche eingrenzen und genauere, kontextbezogene Antworten liefern.

RAG ist eine effektive Technik, um die Qualität der von einem LLM generierten Ausgabe zu verbessern. In diesem Abschnitt finden Sie Beispiele für Anwendungsfälle, in denen Sie RAG-fähige generative KI-Anwendungen verwenden können.

Personalisierte Produktempfehlungen

Eine Online-Shopping-Website verwendet möglicherweise einen LLM-gestützten Chatbot, um Kunden bei der Suche nach Produkten oder bei der Hilfe beim Einkaufen zu unterstützen. Die Fragen eines Nutzers können mithilfe von Verlaufsdaten zum Kaufverhalten des Nutzers und zu Website-Interaktionsmustern erweitert werden. Die Daten können Nutzerrezensionen und -feedback enthalten, die in einem unstrukturierten Datenspeicher oder suchbezogenen Messwerten, die in einem Webanalyse-Data-Warehouse gespeichert werden. Die erweiterte Frage kann dann vom LLM verarbeitet werden, um personalisierte Antworten zu generieren, die für den Nutzer ansprechender und ansprechender sind.

Klinische Unterstützungssysteme

Ärzte in Krankenhäusern müssen den Gesundheitszustand eines Patienten schnell analysieren und diagnostizieren, um Entscheidungen über eine angemessene Versorgung und Medikamente treffen zu können. Eine generative KI-Anwendung, die ein medizinisches LLM wie Med-PaLM verwendet, kann verwendet werden, um Ärzte bei ihrem klinischen Diagnoseprozess zu unterstützen. Die von der Anwendung generierten Antworten können auf historischen Patientenakten basieren, indem die Aufforderungen der Ärzte mit Daten aus der EHR-Datenbank (Electronic Health Record) des Krankenhauses oder aus einer externen Wissensdatenbank wie PubMed in Beziehung gesetzt werden:

Mit der generativen KI-basierten Rechtsforschung können Anwälte große Mengen von Gesetzen und Fallgesetzen schnell abfragen, um relevante Prädikate zu ermitteln oder komplexe rechtliche Konzepte zusammenzufassen. Das Ergebnis einer solchen Forschungsarbeit kann durch die Erweiterung der Aufforderungen eines Anwalts mit Daten aus dem proprietären Korpus von Verträgen, früheren rechtlichen Mitteilungen und internen Fallaufzeichnungen der Anwaltskanzlei ergänzt werden. Durch diesen Designansatz wird sichergestellt, dass die generierten Antworten für das Fachgebiet relevant sind, auf das der Anwalt spezialisiert ist.

Designalternativen

In diesem Abschnitt werden alternative Designansätze vorgestellt, die Sie für Ihre RAG-fähige generative KI-Anwendung in Google Cloudin Betracht ziehen können.

Alternativen für die KI-Infrastruktur

Wenn Sie eine Architektur benötigen, die ein vollständig verwaltetes Vektorsuchprodukt verwendet, können Sie Vertex AI und die Vektorsuche verwenden. Diese bieten eine optimierte Bereitstellungsinfrastruktur für Vektorsuchen im großen Maßstab. Weitere Informationen finden Sie unter RAG-Infrastruktur für generative KI mit Vertex AI und Vektorsuche.

Wenn Sie die Vektorspeicherfunktionen einer vollständig verwalteten Google Cloud -Datenbank wie AlloyDB for PostgreSQL oder Cloud SQL nutzen möchten, lesen Sie den Abschnitt RAG-Infrastruktur für generative KI mit Vertex AI und AlloyDB for PostgreSQL.

Wenn Sie RAG-fähige generative KI-Anwendungen schnell mit Open-Source-Tools und ‑Modellen wie Ray, Hugging Face und LangChain erstellen und bereitstellen möchten, lesen Sie den Artikel RAG-Infrastruktur für generative KI mit GKE und Cloud SQL.

Optionen für das Anwendungshosting

In der in diesem Dokument dargestellten Architektur ist Cloud Run der Host für die GenAI-Anwendung und die Datenverarbeitung. Cloud Run ist eine auf Entwickler ausgerichtete und vollständig verwaltete Anwendung. Sie können Ihre Anwendung auch in Vertex AI Agent Engine, GKE-Clustern oder auf Compute Engine-VMs bereitstellen.

Berücksichtigen Sie bei der Auswahl eines Anwendungshosts die folgenden Kompromisse zwischen Konfigurationsflexibilität und Verwaltungsaufwand:

  • Mit der serverlosen Cloud Run-Option stellen Sie Ihre benutzerdefinierten Dienste in einer vorkonfigurierten, verwalteten Umgebung bereit. Zum Hosten der Frontend-Dienste und der benutzerdefinierten Backend-Logik für die Vorverarbeitung von Anfragen ist in dieser Architektur die Bereitstellung benutzerdefinierter Anwendungen erforderlich.
  • Mit der Option „Vertex AI Agent Engine“ verwenden Sie eine vollständig verwaltete Plattform, die für die Bereitstellung von Agents konzipiert ist. Vertex AI Agent Engine reduziert den Verwaltungsaufwand und sorgt für eine enge Integration in Google Agentspace.
  • Bei Compute Engine-VMs und GKE-Containern sind Sie für die Verwaltung der zugrunde liegenden Rechenressourcen verantwortlich, haben aber mehr Konfigurationsflexibilität und ‑kontrolle.

Weitere Informationen zur Auswahl eines geeigneten Anwendungshostingdienstes finden Sie in den folgenden Dokumenten:

Weitere Infrastrukturoptionen

Informationen zu anderen Infrastrukturoptionen, unterstützten Modellen und Grounding-Techniken, die Sie für generative KI-Anwendungen inGoogle Cloudverwenden können, finden Sie unter Modelle und Infrastruktur für Ihre generative KI-Anwendung auswählen.

Designaspekte

Dieser Abschnitt enthält eine Anleitung zum Entwickeln einer RAG-fähigen generativen KI-Architektur in Google Cloud , die Ihre spezifischen Anforderungen an Sicherheit und Compliance, Zuverlässigkeit, Kosten und Leistung erfüllt. Die Anleitung in diesem Abschnitt ist nicht vollständig. Abhängig von den spezifischen Anforderungen Ihrer generativen KI-Anwendung und der von Ihnen verwendeten Google Cloud -Produkte und ‑Features müssen Sie möglicherweise zusätzliche Designfaktoren und Kompromisse berücksichtigen.

Eine Übersicht über Architekturprinzipien und Empfehlungen, die speziell für KI- und ML-Arbeitslasten in Google Cloudgelten, finden Sie im Well-Architected Framework in der KI- und ML-Perspektive.

Sicherheit, Datenschutz und Compliance

In diesem Abschnitt werden Designüberlegungen und Empfehlungen beschrieben, mit denen Sie eine Topologie in Google Cloud entwerfen können, die die Sicherheits- und Compliance-Anforderungen Ihrer Arbeitslast erfüllt.


Produkt

Überlegungen und Empfehlungen zum Design

Vertex AI

Vertex AI unterstützt Google Cloud Sicherheitskontrollen, mit denen Sie Ihre Anforderungen an Datenstandort, Datenverschlüsselung, Netzwerksicherheit und Access Transparency erfüllen können. Weitere Informationen finden Sie in der folgenden Dokumentation: In Google Agentspace Enterprise werden von Nutzern angeforderte Daten innerhalb von 60 Tagen gelöscht. Weitere Informationen finden Sie unter Datenlöschung aufGoogle Cloud.

Generative KI-Modelle können schädliche Antworten generieren, insbesondere wenn sie explizit dazu aufgefordert werden. Um die Sicherheit zu erhöhen und potenziellen Missbrauch zu verhindern, können Sie Inhaltsfilter konfigurieren, die als Barrieren für schädliche Antworten dienen. Weitere Informationen finden Sie unter Sicherheits- und Inhaltsfilter.

Cloud Run

Standardmäßig verschlüsselt Cloud Run Daten mit Google-owned and Google-managed encryption keys. Zum Schutz Ihrer Container mit von Ihnen kontrollierten Schlüsseln können Sie vom Kunden verwaltete Verschlüsselungsschlüssel (CMEKs) verwenden. Weitere Informationen finden Sie unter vom Kunden verwaltete Verschlüsselungsschlüssel verwenden.

Damit nur autorisierte Container-Images in Cloud Run bereitgestellt werden, können Sie die Binärautorisierung verwenden.

Cloud Run unterstützt Sie dabei, die Anforderungen an den Datenstandort zu erfüllen. Ihre Cloud Run-Funktionen werden in der ausgewählten Region ausgeführt.

Cloud Storage

Standardmäßig verschlüsselt Cloud Storage die gespeicherten Daten mit Google-owned and Google-managed encryption keys. Bei Bedarf können Sie CMEKs oder Ihre eigenen Schlüssel verwenden, die Sie mithilfe einer externen Verwaltungsmethode wie vom Kunden bereitgestellte Verschlüsselungsschlüssel (Customer-Supplied Encryption Keys, CSEKs) verwalten. Weitere Informationen finden Sie unter Datenverschlüsselungsoptionen.

Cloud Storage bietet zwei Methoden, um Nutzern Zugriff auf Ihre Buckets und Objekte zu gewähren: Identity and Access Management (IAM) und Access Control Lists (ACLs). In den meisten Fällen empfehlen wir die Verwendung von IAM, mit dem Sie Berechtigungen auf Bucket- und Projektebene erteilen können. Weitere Informationen finden Sie unter Zugriffssteuerung.

Die Daten, die Sie über Cloud Storage in das Datenaufnahmesubsystem laden, können sensible Daten enthalten. Mit Sensitive Data Protection können Sie sensible Daten ermitteln, klassifizieren und de-identifizieren. Weitere Informationen finden Sie unter Sensitive Data Protection mit Cloud Storage verwenden.

Cloud Storage unterstützt Sie dabei, die Anforderungen an den Datenstandort zu erfüllen. Cloud Storage speichert oder repliziert Daten in der von Ihnen angegebenen Region.

Pub/Sub

Standardmäßig verschlüsselt Pub/Sub alle Nachrichten, sowohl im inaktiven Zustand als auch bei der Übertragung, mit Google-owned and Google-managed encryption keys. Pub/Sub unterstützt die Verwendung von CMEKs für die Nachrichtenverschlüsselung auf Anwendungsebene. Weitere Informationen finden Sie unter Nachrichtenverschlüsselung konfigurieren.

Wenn Sie Anforderungen an den Datenstandort haben, können Sie Richtlinien für den Nachrichtenspeicher konfigurieren, um sicherzustellen, dass Nachrichtendaten an bestimmten Standorten gespeichert werden.

Sicherheitsgrundsätze und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Sicherheit.

Zuverlässigkeit

In diesem Abschnitt werden Designüberlegungen und Empfehlungen zum Erstellen und Betreiben einer zuverlässigen Infrastruktur für Ihre Bereitstellung in Google Cloudbeschrieben.


Produkt

Überlegungen und Empfehlungen zum Design

Vertex AI

Vertex AI sorgt für den Datenstandort für inaktive Daten. Vertex AI speichert Ihre Quelldaten, einschließlich der Daten für RAG im verwalteten Datenspeicher, am ausgewählten Google Cloud Standort. Diese Trennung von Verarbeitung und Speicherung ist ein grundlegender Aspekt der Plattform, der sowohl für hohe Zuverlässigkeit als auch für Compliance sorgt.

Cloud Run

Cloud Run ist ein regionaler Dienst, der Daten synchron über mehrere Zonen innerhalb einer Region hinweg speichert. Der Dienst verteilt den Traffic automatisch auf die Zonen. Wenn ein Zonenausfall auftritt, werden Cloud Run-Jobs weiterhin ausgeführt und es gehen keine Daten verloren. Wenn ein regionaler Ausfall auftritt, werden die Cloud Run-Jobs so lange ausgeführt, bis Google den Ausfall behoben hat.

Einzelne Cloud Run-Jobs oder -Aufgaben können fehlschlagen. Zur Behebung solcher Fehler können Sie Aufgabenwiederholungen und Prüfpunktausführung verwenden. Weitere Informationen finden Sie unter Best Practices für Wiederholungsversuche und Prüfpunkte.

Cloud Storage

Sie können Cloud Storage-Buckets an einem von drei Standorttypen erstellen: regional, biregional oder multiregional. Bei Daten in regionalen Buckets repliziert Cloud Storage diese Daten synchron über mehrere Zonen innerhalb einer Region hinweg. Für eine höhere Verfügbarkeit können Sie Buckets mit zwei oder mehr Regionen verwenden, bei denen Cloud Storage Daten asynchron über Regionen hinweg repliziert. Achten Sie darauf, dass Ihre Auswahl Ihren Complianceanforderungen entspricht.

Zuverlässigkeitsprinzipien und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Zuverlässigkeit.

Kostenoptimierung

Dieser Abschnitt enthält Anleitungen zur Optimierung der Kosten für die Einrichtung und den Betrieb einer Google Cloud Topologie, die Sie mithilfe dieser Referenzarchitektur erstellen.


Produkt

Überlegungen und Empfehlungen zum Design

Vertex AI

Das zugrunde liegende KI-Modell, das vom Agenten aufgerufen wird, kann sich direkt auf die Kosten für die Nutzung des Agenten auswirken. Die Preise werden anhand der Anzahl der Eingabe- und Ausgabetokens für jede Anfrage berechnet. Weitere Informationen finden Sie unter Kontingente und Systemlimits für generative KI in Vertex AI und im Google Cloud-Preisrechner.

Informationen dazu, wie Sie die Anzahl der Tokens minimieren, um die Kosten zu senken, finden Sie unter Länge von Prompts und Ausgaben optimieren.

Cloud Run Functions

Beim Erstellen von Cloud Run-Jobs geben Sie die Größe des Arbeitsspeichers und die CPU an, die der Containerinstanz zugewiesen werden sollen. Zur Kostenkontrolle beginnen Sie mit den standardmäßigen CPU- und Arbeitsspeicherzuweisungen. Zur Verbesserung der Leistung können Sie die Zuweisung erhöhen, indem Sie das CPU-Limit und das Speicherlimit konfigurieren.

Wenn Sie die CPU- und Arbeitsspeicheranforderungen Ihrer Cloud Run-Jobs vorhersagen können, können Sie mit Rabatten für die zugesicherte Nutzung Geld sparen. Weitere Informationen finden Sie unter Rabatte für zugesicherte Nutzung von Cloud Run.

Cloud Storage

Wählen Sie für den Cloud Storage-Bucket, den Sie zum Laden von Daten in das Datenaufnahme-Subsystem verwenden, eine geeignete Speicherklasse basierend auf den Anforderungen an die Datenaufbewahrung und die Zugriffshäufigkeit Ihrer Arbeitslasten aus. Sie können beispielsweise die Speicherklasse „Standard“ auswählen und die Verwaltung des Objektlebenszyklus verwenden, um die Speicherkosten zu steuern. Mit der Verwaltung des Objektlebenszyklus werden Objekte automatisch auf eine kostengünstigere Speicherklasse herabgestuft oder basierend auf den von Ihnen festgelegten Bedingungen gelöscht.

Kostenoptimierungsgrundsätze und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Kostenoptimierung.

Leistungsoptimierung

In diesem Abschnitt werden Designüberlegungen und Empfehlungen zum Entwerfen einer Topologie in Google Cloud beschrieben, die die Leistungsanforderungen Ihrer Arbeitslasten erfüllt.


Produkt

Überlegungen und Empfehlungen zum Design

Google Agentspace

Um die Latenz während der Bereitstellung zu verringern, können Sie Antworten streamen, indem Sie Modellantworten senden, bevor der Agent die vollständige Ausgabe generiert. Dadurch kann die Ausgabe in Echtzeit verarbeitet werden. Sie können Ihre Benutzeroberfläche sofort aktualisieren und andere gleichzeitige Aufgaben ausführen. Durch Streaming wird die wahrgenommene Reaktionsfähigkeit verbessert und eine interaktivere Nutzererfahrung geschaffen. Weitere Informationen finden Sie unter Antworten streamen.

Cloud Run

Passen Sie die Arbeitsspeicher- und CPU-Zuweisung für die Cloud Run-Instanzen an Ihre Leistungsanforderungen an. Weitere Informationen finden Sie unter CPU-Limits für Jobs konfigurieren und Arbeitsspeicherlimits für Dienste konfigurieren.

Cloud Storage

Zum Hochladen großer Dateien können Sie eine Methode namens parallele zusammengesetzte Uploads verwenden. Bei dieser Strategie wird die große Datei in Blöcke unterteilt. Sie laden die Blöcke parallel in Cloud Storage hoch. Cloud Storage setzt die Daten dann in Google Cloudwieder zusammen. Parallele zusammengesetzte Uploads können schneller sein als reguläre Uploadvorgänge, wenn Sie über ausreichend Netzwerkbandbreite und Laufwerksgeschwindigkeit verfügen. Diese Strategie hat jedoch einige Einschränkungen und Auswirkungen auf die Kosten. Weitere Informationen finden Sie unter Parallele zusammengesetzte Uploads.

Grundsätze und Empfehlungen zur Leistungsoptimierung, die speziell auf KI- und ML-Arbeitslasten zugeschnitten sind, finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Leistungsoptimierung.

Bereitstellung

Verwenden Sie das Terraform-Beispiel, das in GitHub verfügbar ist, um diese Referenzarchitektur bereitzustellen. Weitere Informationen finden Sie unter RAG Infrastructure for Generative AI Applications using Google Agentspace and Vertex AI.

Nächste Schritte

Beitragende

Autorin: Samantha He | Technische Autorin

Weitere Beitragende: