Automatización de navegadores y SO en Cloud Run

Compila herramientas de automatización o ejecuta un sistema operativo (SO) de escritorio completo en tu contenedor de Cloud Run para permitir que los agentes de IA naveguen y extraigan información de la Web, y automaticen acciones a través de clics del mouse y entradas del teclado.

Crea herramientas para el navegador en Cloud Run

Para compilar una herramienta del navegador en Cloud Run, usa uno de los siguientes enfoques:

Para permitir que tu agente de IA navegue por la Web, instala Chromium en tu contenedor de Cloud Run y otorga los permisos necesarios para que el agente acceda a Chromium. Cloud Run proporciona compatibilidad integrada con la transmisión para transmitir datos del navegador al agente o al usuario final.

Chrome sin interfaz gráfica

Automatiza tareas comunes del navegador de forma programática con Chrome sin interfaz gráfica. Puedes usar Chrome sin encabezado para los siguientes casos de uso:

  • Extracción de datos y scraping web a gran escala
  • Envíos de formularios
  • Pruebas de IU
  • Crear PDFs o capturas de pantalla de páginas web

Implementa Chrome sin interfaz gráfica con las siguientes bibliotecas:

  • Bibliotecas de API de alto nivel, como Puppeteer o Playwright: Usa estas bibliotecas para controlar un navegador, proporcionarle instrucciones para visitar un sitio web, extraer contenido y pasarlo a un modelo de IA para generar un resumen o extraer datos estructurados.

  • Protocolo de Herramientas para desarrolladores de Chrome: Proporciona una API estable que usan las Herramientas para desarrolladores de Chrome. Esta API expone todas las funciones del navegador de forma programática. El agente controla acciones como los clics del mouse y recupera los resultados como datos de texto o píxeles en forma de captura de pantalla.

SO de escritorio con transmisión de computación de red virtual (VNC)

Implementa un SO de escritorio completo en tu contenedor de Cloud Run para procesos complejos, como los siguientes:

  • Automatizar la carga o descarga de archivos
  • Interactuar con extensiones del navegador o con otras aplicaciones para computadoras
  • Prueba recorridos del usuario complejos que impliquen arrastrar y soltar, y otros movimientos intrincados del mouse

Este enfoque te permite ejecutar un SO de escritorio completo en Cloud Run y transmitir los resultados a través de WebSockets.

Cuando instalas el navegador Chromium estándar en esta computadora, el agente interactúa con el SO como lo haría una persona y, luego, recupera la configuración de píxeles de la computadora.