Browser- und Betriebssystemautomatisierung in Cloud Run

Sie können Automatisierungstools erstellen oder ein vollständiges Desktopbetriebssystem in Ihrem Cloud Run-Container ausführen, damit KI-Agents im Web nach Informationen suchen und diese extrahieren können und Aktionen durch Mausklicks und Tastatureingaben automatisiert werden.

Browser-Tools in Cloud Run erstellen

Wenn Sie ein Browsertool in Cloud Run erstellen möchten, haben Sie folgende Möglichkeiten:

Damit Ihr KI-Agent im Web navigieren kann, installieren Sie Chromium in Ihrem Cloud Run-Container und gewähren Sie dem Agenten die erforderlichen Berechtigungen für den Zugriff auf Chromium. Cloud Run bietet integrierte Streamingunterstützung für das Streamen von Browserdaten zurück an den Agent oder den Endnutzer.

Monitorlose Chrome-Version

Häufige Browseraufgaben mit monitorlosem Chrome programmgesteuert automatisieren. Sie können Headless Chrome für die folgenden Anwendungsfälle verwenden:

  • Web-Scraping und Datenextraktion in großem Umfang
  • Eingereichte Formulare
  • UI-Tests
  • PDFs oder Screenshots von Webseiten erstellen

Implementieren Sie Headless Chrome mit den folgenden Bibliotheken:

  • API-Bibliotheken auf hoher Ebene wie Puppeteer oder Playwright: Mit diesen Bibliotheken können Sie einen Browser steuern, dem Browser Anweisungen geben, eine Website aufzurufen, Inhalte zu extrahieren und an ein KI-Modell zur Zusammenfassung oder Extraktion strukturierter Daten zu übergeben.

  • Chrome-Entwicklertools-Protokoll: Bietet eine stabile API, die von den Chrome-Entwicklertools verwendet wird. Über diese API werden alle Browserfunktionen programmatisch verfügbar gemacht. Der Agent steuert Aktionen wie Mausklicks und ruft die Ergebnisse als Text oder Pixeldaten in Form eines Screenshots ab.

Desktop-Betriebssystem mit VNC-Streaming (Virtual Network Computing)

Implementieren Sie ein vollständiges Desktop-Betriebssystem in Ihrem Cloud Run-Container für komplexe Prozesse wie die folgenden:

  • Datei-Uploads oder ‑Downloads automatisieren
  • Mit Browsererweiterungen oder anderen Desktopanwendungen interagieren
  • Komplexe Nutzeraktionen testen, die Drag-and-drop und andere komplizierte Mausbewegungen umfassen

Mit diesem Ansatz können Sie ein vollständiges Desktop-Betriebssystem in Cloud Run ausführen und die Ergebnisse über Websockets streamen.

Wenn Sie den Standardbrowser Chromium auf diesem Computer installieren, interagiert der Agent mit dem Betriebssystem wie ein Mensch und ruft dann die Pixelkonfiguration des Computers ab.