Crea herramientas de automatización o ejecuta un sistema operativo de escritorio completo en tu contenedor de Cloud Run para permitir que los agentes de IA busquen y extraigan información de la Web, así como para automatizar acciones mediante clics del ratón y entradas de teclado.
Crear herramientas de navegador en Cloud Run
Para crear una herramienta de navegador en Cloud Run, utiliza uno de los siguientes métodos:
- Un navegador sin interfaz gráfica para tareas eficientes y a gran escala
- Un SO de escritorio completo para escenarios complejos que requieren interacción entre personas y ordenadores
Para que tu agente de IA pueda navegar por la Web, instala Chromium en tu contenedor de Cloud Run y concede los permisos necesarios para que el agente pueda acceder a Chromium. Cloud Run ofrece compatibilidad integrada con el streaming para enviar datos de streaming del navegador al agente o al usuario final.
Headless Chrome
Automatiza tareas comunes del navegador de forma programática con Chrome sin interfaz gráfica. Puedes usar Chrome sin interfaz gráfica en los siguientes casos prácticos:
- Web scraping y extracción de datos a gran escala
- Envíos de formularios
- Pruebas de interfaz de usuario
- Crear PDFs o capturas de pantalla de páginas web
Implementa Chrome sin interfaz gráfica con las siguientes bibliotecas:
Bibliotecas de APIs de alto nivel, como Puppeteer o Playwright: usa estas bibliotecas para controlar un navegador, darle instrucciones para que visite un sitio web, extraer contenido y enviarlo a un modelo de IA para que lo resuma o extraiga datos estructurados.
Protocolo Chrome DevTools: proporciona una API estable que usa Chrome DevTools. Esta API expone todas las funciones del navegador de forma programática. El agente controla acciones como los clics del ratón y obtiene los resultados como texto o datos de píxeles en forma de captura de pantalla.
Sistema operativo de escritorio con streaming de computación de red virtual (VNC)
Implementa un SO de escritorio completo en tu contenedor de Cloud Run para procesos complejos, como los siguientes:
- Automatizar la subida o descarga de archivos
- Interactuar con extensiones del navegador u otras aplicaciones de escritorio
- Probar recorridos de usuario complejos que impliquen arrastrar y soltar, así como otros movimientos intrincados del ratón
Este enfoque te permite ejecutar un SO de escritorio completo en Cloud Run y transmitir los resultados a través de WebSockets.
Cuando instalas el navegador Chromium estándar en este ordenador, el agente interactúa con el SO como lo haría una persona y, a continuación, obtiene la configuración de píxeles del ordenador.