Auf dieser Seite werden einige Anwendungsfälle für die Verwendung von Cloud Run als Hostingplattform für die folgenden KI-Anwendungsfälle beschrieben:
KI-Anwendungen in Cloud Run hosten
KI-Anwendungen verwenden KI-Modelle, um eine bestimmte Aufgabe auszuführen. Eine KI-Anwendung kann beispielsweise ein KI-Modell verwenden, um Dokumente zusammenzufassen, oder eine Chatoberfläche sein, die eine Vektordatenbank nutzt, um mehr Kontext abzurufen.
Cloud Run ist eine der Infrastrukturen für das Anwendungs-Hosting, die eine vollständig verwaltete Umgebung für Ihre KI-Anwendungsarbeitslasten bietet.
Cloud Run lässt sich in KI-Modelle wie die Gemini API, Vertex AI-Endpunkte oder Modelle einbinden, die in einem GPU-fähigen Cloud Run-Dienst gehostet werden.
Cloud Run lässt sich auch in Cloud SQL for PostgreSQL und AlloyDB for PostgreSQL einbinden. Diese beiden Datenbanken bieten die pgvector
-Erweiterung für Retrieval-Augmented Generation (RAG).
KI-Agents in Cloud Run hosten
KI-Agents kombinieren die Intelligenz fortschrittlicher KI-Modelle mit dem Zugriff auf Tools, um Aktionen im Namen des Nutzers und unter seiner Kontrolle auszuführen.
Sie können KI-Agents als Cloud Run-Dienste implementieren, um eine Reihe asynchroner Aufgaben zu orchestrieren und Nutzern Informationen bereitzustellen. Dazu sind mehrere Anfrage-Antwort-Interaktionen erforderlich.
Architektur von KI-Agents in Cloud Run
Eine typische KI-Agent-Architektur, die in Cloud Run bereitgestellt wird, kann mehrere Komponenten aus Google Cloud und außerhalb von Google Cloudumfassen:
Bereitstellung und Orchestrierung:Ein Cloud Run-Dienst fungiert als skalierbarer API-Endpunkt und kann mehrere gleichzeitige Nutzer durch automatische, bedarfsgesteuerte und schnelle Skalierung von Instanzen verarbeiten. In diesem Dienst wird die Kernlogik des Agents ausgeführt, häufig mit einem KI-Orchestrierungs-Framework wie LangGraph oder dem Agent Development Kit (ADK). Diese Ebene koordiniert Aufrufe an andere Komponenten. Cloud Run unterstützt das Streamen von HTTP-Antworten zurück an den Nutzer über WebSockets. Die integrierte Dienstidentität von Cloud Run bietet sichere und automatische Anmeldedaten für den Aufruf von Google Cloud APIs, ohne dass API-Schlüssel verwaltet werden müssen.
KI-Modelle:Die Orchestrierungsebene ruft Modelle für die Reasoning-Funktionen auf. Beispiele:
- Die Gemini API
- Kundenspezifische Modelle oder andere Foundation Models, die auf Vertex AI-Endpunkten bereitgestellt werden
- Ihre eigenen feinabgestimmten Modelle, die über einen separaten GPU-fähigen Cloud Run-Dienst bereitgestellt werden
Speicher:Agents benötigen oft einen Speicher, um den Kontext beizubehalten und aus vergangenen Interaktionen zu lernen.
- Kurzzeitspeicher kann durch Verbinden von Cloud Run mit Memorystore for Redis implementiert werden.
- Langzeitspeicher zum Speichern des Unterhaltungsverlaufs oder zum Speichern der Einstellungen des Nutzers kann implementiert werden, indem Cloud Run mit Firestore verbunden wird, einer skalierbaren, serverlosen NoSQL-Datenbank.
Datenbanken und Abruf:Für Retrieval-Augmented Generation (RAG) oder zum Abrufen strukturierter Daten:
- Mit der
pgvector
-Erweiterung können Sie Cloud Run mit Vektordatenbanken wie Cloud SQL for PostgreSQL oder AlloyDB for PostgreSQL verbinden, um bestimmte Informationen zu Entitäten abzufragen oder Ähnlichkeitssuchen für Einbettungen durchzuführen.
- Mit der
Tools:Der Orchestrator verwendet Tools, um bestimmte Aufgaben auszuführen, für die Modelle nicht geeignet sind, oder um mit externen Diensten, APIs oder Websites zu interagieren. Beispiel:
- Einfache Dienstprogramme: Genaue mathematische Berechnungen, Zeitumrechnungen oder ähnliche Dienstprogramme können im orchestrating Cloud Run-Dienst ausgeführt werden.
- API-Aufrufe: Rufen Sie andere interne oder Drittanbieter-APIs auf (Lese- oder Schreibzugriff).
- Bilder oder Diagramme erstellen: Mit Modellen zur Bildgenerierung oder Diagrammbibliotheken lassen sich schnell und effektiv visuelle Inhalte erstellen.
- Browser- und Betriebssystemautomatisierung: Führen Sie ein Headless- oder ein vollständiges grafisches Betriebssystem in Containerinstanzen aus, damit der Agent im Web surfen, Informationen von Websites extrahieren oder Aktionen durch Klicks und Tastatureingaben ausführen kann. Der Cloud Run-Dienst gibt Pixel von Bildschirmen zurück. Verwenden Sie Bibliotheken wie Puppeteer, um den Browser zu steuern.
- Codeausführung: Cloud Run bietet eine sichere Umgebung mit mehrschichtiger Sandbox und kann mit minimalen oder keinen IAM-Berechtigungen für den Codeausführungsdienst konfiguriert werden. Mit einem Cloud Run-Job kann Code asynchron ausgeführt werden. Ein Cloud Run-Dienst mit einer Nebenläufigkeit von 1 kann für die synchrone Ausführung verwendet werden.
Nächste Schritte
- Video ansehen
- Codelab zum Erstellen und Bereitstellen einer LangChain-App in Cloud Run
- Informationen zum Bereitstellen des Agent Development Kit (ADK) in Cloud Run
- Codelab zum Verwenden eines MCP-Servers in Cloud Run mit einem ADK-Agenten
- Codelab zum Bereitstellen Ihres ADK-Agents in Cloud Run mit GPU
- Gebrauchsfertige Agentenbeispiele finden Sie unter Agent Development Kit (ADK) – Beispiele.
- MCP-Server (Model Context Protocol) in Cloud Run hosten