Créez des outils d'automatisation ou exécutez un système d'exploitation (OS) de bureau complet dans votre conteneur Cloud Run pour permettre aux agents d'IA de parcourir le Web et d'en extraire des informations, et d'automatiser des actions à l'aide de clics de souris et de saisies au clavier.
Créer des outils de navigateur sur Cloud Run
Pour créer un outil de navigateur sur Cloud Run, utilisez l'une des approches suivantes :
- Un navigateur sans interface graphique pour les tâches efficaces et à grande échelle
- Un OS de bureau complet pour les scénarios complexes qui nécessitent une interaction homme-machine
Pour permettre à votre agent d'IA de naviguer sur le Web, installez Chromium dans votre conteneur Cloud Run et accordez les autorisations nécessaires à l'agent pour accéder à Chromium. Cloud Run fournit une compatibilité de streaming intégrée pour renvoyer les données de navigation en streaming à l'agent ou à l'utilisateur final.
Headless Chrome
Automatisez les tâches courantes du navigateur de manière programmatique avec Headless Chrome. Vous pouvez utiliser Chrome sans interface graphique pour les cas d'utilisation suivants :
- Extraction de données et Web scraping à grande échelle
- Envois de formulaires
- Test de l'interface utilisateur
- Créer des PDF ou des captures d'écran de pages Web
Implémentez Chrome sans interface graphique utilisateur à l'aide des bibliothèques suivantes :
Bibliothèques d'API de haut niveau telles que Puppeteer ou Playwright : utilisez ces bibliothèques pour contrôler un navigateur, lui fournir des instructions pour visiter un site Web, extraire du contenu et le transmettre à un modèle d'IA pour la synthèse ou l'extraction de données structurées.
Protocole Chrome DevTools : fournit une API stable utilisée par les outils pour les développeurs Chrome. Cette API expose toutes les fonctionnalités du navigateur de manière programmatique. L'agent contrôle les actions telles que les clics de souris et récupère les résultats sous forme de texte ou de données de pixels sous forme de capture d'écran.
OS de bureau avec streaming VNC (Virtual Network Computing)
Implémentez un OS de bureau complet dans votre conteneur Cloud Run pour les processus complexes, tels que les suivants :
- Automatiser l'importation ou le téléchargement de fichiers
- Interagir avec des extensions de navigateur ou d'autres applications pour ordinateur
- Testez des parcours utilisateur complexes impliquant des opérations de glisser-déposer et d'autres mouvements de souris complexes.
Cette approche vous permet d'exécuter un OS de bureau complet sur Cloud Run et de renvoyer les résultats en streaming via WebSockets.
Lorsque vous installez le navigateur Chromium standard sur ce bureau, l'agent interagit avec l'OS comme le ferait un humain, puis récupère la configuration des pixels du bureau.