¿Qué es la programación con agentes?

La programación con agentes es un enfoque de desarrollo de software en el que agentes de IA autónomos planifican, escriben, prueban y modifican código con una intervención humana mínima. A diferencia de los asistentes de programación con IA tradicionales que esperan a que un usuario escriba código o haga una pregunta, las herramientas de programación con agentes toman una instrucción general y la ejecutan. Estos agentes funcionan más como contratistas expertos que como asesores pasivos. Entienden el objetivo, lo desglosan y ejecutan las acciones necesarias para completar el trabajo.

Si bien las herramientas de IA estándar pueden sugerir fragmentos o completar funciones únicas, las soluciones de código basadas en agentes pueden administrar flujos de trabajo complejos, navegar por sistemas de archivos, administrar dependencias y ejecutar comandos de terminal. Si un agente escribe código que arroja un error, puede leer el mensaje de error, razonar sobre el problema y aplicar una corrección automáticamente. Este cambio de "chatear con la IA" a "asignarle tareas" ayuda a los desarrolladores a enfocarse en la arquitectura y la lógica, mientras que los agentes se encargan de los detalles de la implementación.

Video sobre programar con IA usando Gemini CLI, la herramienta de programación con agentes de Google para la terminal

38:28

Programa con IA usando Gemini CLI, la herramienta de programación con agentes de Google para la terminal

¿Qué es un agente de programación?

Un agente de programación es un programa de software avanzado potenciado por un modelo de lenguaje grande (LLM) que realiza tareas de desarrollo de software de forma autónoma. Estos agentes no solo generan texto, sino que usan un proceso que a menudo se denomina bucle de "razonamiento y acción". Cuando se le da un objetivo, el agente desglosa la solicitud en subtareas más pequeñas y manejables. Luego, usa herramientas específicas para realizar estas tareas, como acceder al sistema de archivos, ejecutar comandos de Bash o interactuar con sistemas de control de versiones.

La característica definitoria de un agente de programación es su ciclo de retroalimentación iterativo. No solo genera código y se detiene, sino que realiza operaciones automatizadas para verificar su trabajo. Por ejemplo, un agente podría escribir un caso de prueba, ejecutar el código, observar una falla y, luego, reescribir el código para que supere la prueba. Esta capacidad de autocorrección permite que los agentes de programación ayuden a manejar instrucciones complejas que, de otro modo, podrían confundir a los modelos de IA estándar basados en texto.

Programación con agentes vs. "vibe coding"

"Vibe coding" es un término que describe una experiencia de programación caracterizada por un estado de flujo altamente fluido, intuitivo y sin distracciones. Se refiere a un método de programación en el que te enfocas por completo en la lógica y la creatividad (el "estilo" de la aplicación) sin preocuparte por errores de sintaxis ni código estándar.

Por el contrario, la programación con agentes es la metodología tecnológica que suele permitir este estado. Es el proceso estructurado y autónomo en el que la IA se encarga de la ejecución. El vibe coding es el objetivo o la sensación, y la programación con agentes es el motor. El "vibe coding con agentes" implica usar estos agentes autónomos para ayudar a manejar el trabajo pesado, lo que permite mantener ese estado de flujo creativo sin interrupciones.

Prácticas recomendadas para flujos de trabajo seguros de programación con agentes

Adoptar la programación con agentes en un entorno empresarial suele requerir medidas de seguridad y administración más estrictas. Dado que los agentes tienen técnicamente la autonomía para editar archivos y ejecutar comandos, las organizaciones deben tratarlos con el mismo escrutinio que aplican a sus propios empleados, contratistas o secuencias de comandos automatizadas.

Administración y control del alcance

Definir el alcance y las barreras de protección: Los administradores deben limitar a qué puede acceder el agente y evitar que ejecute comandos peligrosos, como borrar bases de datos o enviar cambios directamente al entorno de producción en vivo.
Aplicar una administración estricta de dependencias: Los equipos de seguridad deben garantizar que los agentes solo puedan instalar software de fuentes confiables y aprobadas para evitar la introducción de dependencias maliciosas o ataques de "typosquatting".
Exigir pruebas de cumplimiento: Las organizaciones deben configurar agentes para registrar sus acciones y procesos de toma de decisiones, lo que crea un registro de auditoría que demuestra que los cambios de código cumplen con los estándares de cumplimiento.

Supervisión e integración

Agregar verificaciones humanas a los flujos de trabajo: Antes de que cualquier código escrito por un agente de IA se incorpore al proyecto principal, alguien del equipo debe revisarlo según el proceso estándar de solicitud de extracción.
Usar herramientas de visibilidad empresarial: Las empresas pueden usar paneles centralizados para hacer un seguimiento de la actividad de los agentes, las cuotas de uso y las métricas de rendimiento en diferentes equipos de desarrollo.
Supervisar nuevas clases de vulnerabilidades: Los equipos de seguridad deben estar atentos a los ataques de inyección de instrucciones o a las instrucciones de código "alucinadas" que podrían incorporar errores lógicos propios del software generado por IA.

Pruebas y garantía

Ejecutar ejercicios controlados de equipo rojo: Los profesionales de seguridad pueden simular ataques en el flujo de trabajo de los agentes para ver si se puede engañar al agente para que escriba código no seguro o revele datos sensibles.
Realizar pruebas de seguridad en capas: Los desarrolladores deben usar herramientas de pruebas estáticas y dinámicas de seguridad para aplicaciones (SAST y DAST) para analizar automáticamente el código generado por agentes.
Definir mejor los controles de forma continua: Los equipos deben actualizar periódicamente sus políticas de seguridad y las instrucciones (instrucciones del sistema) que se les dan a los agentes de IA, en función de lo que encuentren en las verificaciones y pruebas.

Beneficios de usar la programación con agentes

Aumenta la eficiencia y la escalabilidad

Los agentes pueden encargarse rápidamente de tareas de programación repetitivas, lo que permite a los equipos crear sistemas más grandes sin aumentar la cantidad de empleados.

Automatiza flujos de trabajo complejos de forma autónoma

Un agente puede administrar procesos de varios pasos, como actualizar una biblioteca en varios archivos, sin necesidad de intervención o guía humana constante.

Libera a los desarrolladores para que se enfoquen en tareas de alto valor

Cuando delegan los detalles de la implementación, los ingenieros pueden dedicar energía mental a resolver problemas complejos y a la arquitectura estratégica.

Mejora la calidad del código y las revisiones de seguridad

Los agentes pueden aplicar de manera coherente guías de estilo y prácticas recomendadas de seguridad que los seres humanos podrían pasar por alto en ocasiones.

Entrega más rápida de funciones y corrección de errores automatizada

Los agentes pueden identificar la causa raíz de un error y proponer una solución en minutos, lo que ayuda a acortar el ciclo de vida del desarrollo.

Reduce la carga de trabajo de los desarrolladores y enfócate en el diseño general

Los desarrolladores pueden actuar más como arquitectos, definiendo la estructura, mientras los agentes sientan las bases, lo que reduce el agotamiento.

Programación con agentes en Google Cloud

Google Cloud ofrece herramientas que admiten el flujo de trabajo de programación con agentes, diseñado para brindar autonomía al entorno de desarrollo. El núcleo de esta oferta gira en torno a Gemini CLI, Google Antigravity y Gemini Enterprise, que pueden transformar el modo en que los desarrolladores interactúan con su base de código.

Cómo Gemini CLI implementa la programación de agentes

Gemini CLI cambia la dinámica de pedir ayuda a asignar trabajo. Así es como administra las tareas de los agentes:

Uso de herramientas: El agente puede ejecutar comandos de forma autónoma como ls, grep y cat. También puede escribir directamente en archivos. En vez de sugerirte que ejecutes una prueba, ejecuta npm test y lee los registros por su cuenta.
Memoria y contexto: Admite un archivo GEMINI.md en la raíz de tu proyecto. Este archivo actúa como memoria a largo plazo o una instrucción del sistema en la que defines estándares de programación, reglas de arquitectura o prohibiciones específicas que el agente sigue para cada tarea.
Autocorrección: Si el agente escribe código que no se puede compilar, verá el mensaje de error en la terminal. Luego, razona sobre por qué ocurrió la falla y prueba una solución diferente de forma automática.
Extensibilidad (MCP): Admite el Protocolo de contexto del modelo (MCP), que permite conectar el agente a fuentes de datos externas, como PostgreSQL, GitHub o Slack, para que pueda recuperar el contexto desde fuera del sistema de archivos local.

Casos de uso de Gemini CLI

Gemini CLI se adapta a la etapa del ciclo de vida de desarrollo y ofrece ventajas distintas, ya sea que estés creando una solución desde cero o manteniendo una base de código establecida.

Desarrollo de cero (aplicaciones nuevas)

Cuando se inicia un nuevo proyecto, Gemini CLI puede actuar como un multiplicador de fuerza para la creación rápida de prototipos y la configuración de la arquitectura.

Andamiaje e inicialización: Puedes indicarle al agente que configure una estructura de proyecto completa, incluidos los archivos de configuración, las jerarquías de directorios y las dependencias iniciales. Por ejemplo, una sola instrucción puede generar una aplicación de Python Flask con una base de datos conectada y un enrutamiento básico.
Reducción de código repetitivo: Los desarrolladores pueden asignar al agente la tarea de generar estructuras de código repetitivas, como modelos de datos, extremos de API o lógica de validación de formularios, lo que permite que el líder humano se enfoque en la lógica empresarial única.
Prototipado rápido: Los equipos pueden validar ideas rápidamente describiendo una función en lenguaje natural. El agente puede crear un prototipo funcional, ejecutarlo y realizar iteraciones en él en función de los comentarios, lo que acorta significativamente el tiempo entre el concepto y la demostración.

Modernización de sistemas heredados (aplicaciones existentes)

Para aplicaciones heredadas o establecidas, Gemini CLI ayuda a optimizar el mantenimiento, la refactorización y la transferencia de conocimiento.

Refactorización y optimización: Puedes asignarle al agente la tarea de modernizar módulos específicos, como convertir archivos JavaScript antiguos a TypeScript o actualizar llamadas a APIs obsoletas. El agente puede leer el código existente, aplicar los cambios solicitados y verificar que la lógica siga siendo coherente.
Generación y cobertura de pruebas: Para mejorar la estabilidad, los desarrolladores pueden pedirle al agente que analice un archivo y escriba pruebas de unidades completas. Cuando se hace referencia a un archivo GEMINI.md con tus convenciones de prueba, el agente garantiza que las nuevas pruebas se alineen con los estándares de tu equipo.
Documentación y capacitación: Puede que para los ingenieros nuevos sea difícil navegar por las bases de código grandes. El agente puede analizar directorios para generar documentación actualizada, explicar funciones complejas o crear diagramas de arquitectura, lo que facilita que los equipos comprendan y mantengan el software.

Desarrollo de cero (aplicaciones nuevas)

Cuando se inicia un nuevo proyecto, Gemini CLI puede actuar como un multiplicador de fuerza para la creación rápida de prototipos y la configuración de la arquitectura.

Andamiaje e inicialización: Puedes indicarle al agente que configure una estructura de proyecto completa, incluidos los archivos de configuración, las jerarquías de directorios y las dependencias iniciales. Por ejemplo, una sola instrucción puede generar una aplicación de Python Flask con una base de datos conectada y un enrutamiento básico.
Reducción de código repetitivo: Los desarrolladores pueden asignar al agente la tarea de generar estructuras de código repetitivas, como modelos de datos, extremos de API o lógica de validación de formularios, lo que permite que el líder humano se enfoque en la lógica empresarial única.
Prototipado rápido: Los equipos pueden validar ideas rápidamente describiendo una función en lenguaje natural. El agente puede crear un prototipo funcional, ejecutarlo y realizar iteraciones en él en función de los comentarios, lo que acorta significativamente el tiempo entre el concepto y la demostración.

Modernización de sistemas heredados (aplicaciones existentes)

Para aplicaciones heredadas o establecidas, Gemini CLI ayuda a optimizar el mantenimiento, la refactorización y la transferencia de conocimiento.

Refactorización y optimización: Puedes asignarle al agente la tarea de modernizar módulos específicos, como convertir archivos JavaScript antiguos a TypeScript o actualizar llamadas a APIs obsoletas. El agente puede leer el código existente, aplicar los cambios solicitados y verificar que la lógica siga siendo coherente.
Generación y cobertura de pruebas: Para mejorar la estabilidad, los desarrolladores pueden pedirle al agente que analice un archivo y escriba pruebas de unidades completas. Cuando se hace referencia a un archivo GEMINI.md con tus convenciones de prueba, el agente garantiza que las nuevas pruebas se alineen con los estándares de tu equipo.
Documentación y capacitación: Puede que para los ingenieros nuevos sea difícil navegar por las bases de código grandes. El agente puede analizar directorios para generar documentación actualizada, explicar funciones complejas o crear diagramas de arquitectura, lo que facilita que los equipos comprendan y mantengan el software.

Google Antigravity, la plataforma centrada en los agentes

Google Antigravity representa un cambio de un IDE con un asistente a una plataforma de desarrollo agente dedicada. Con la tecnología de Gemini 3, trata a los agentes de IA como trabajadores principales en lugar de simples ayudantes.

Vista de administrador (control de misión): Los desarrolladores pueden usar un panel centralizado para generar, organizar y observar varios agentes que trabajan en paralelo en diferentes espacios de trabajo. Puedes asignar un agente para que investigue la documentación mientras otro refactoriza una base de código.
Artefactos verificables: En lugar de registros opacos, los agentes de Antigravity generan "artefactos" estructurados, que son registros verificables de sus planes, cambios de código y resultados de pruebas. Esto puede proporcionar transparencia, lo que permite a los desarrolladores auditar el razonamiento del agente y la "prueba de trabajo" rápidamente.
Autonomía del navegador y la terminal: Los agentes de Antigravity pueden controlar el navegador para la verificación visual y ejecutar comandos complejos de la terminal, lo que permite completar tareas de extremo a extremo que incluyen la implementación y las pruebas.

Gemini Enterprise: Escalamiento con seguridad

Para las organizaciones que implementan agentes a gran escala, Gemini Enterprise ayuda a proporcionar la capa necesaria de administración y de integración.

Protecciones centralizadas: Los administradores pueden definir políticas como código que los agentes deben cumplir, lo que garantiza que ningún flujo de trabajo de agentes viole el cumplimiento o los estándares de seguridad de la empresa.
Fundamentación de conocimiento privado: Los agentes pueden fundamentarse en la base de código y la documentación privadas de tu organización, lo que les permite escribir código que respeta las bibliotecas internas y los patrones arquitectónicos sin filtrar datos.
Indemnización y cumplimiento: Gemini Enterprise puede ofrecer indemnización por propiedad intelectual y cumple con certificaciones rigurosas de cumplimiento, lo que hace que para las grandes empresas sea seguro adoptar la programación basada en agentes en entornos de producción.

Usar un chatbot de IA vs. un agente de programación

Para comprender el poder de la programación con agentes, compara una experiencia estándar de chat de IA con el flujo de trabajo de agente de Gemini CLI.

Experiencia de chat estándar con IA:

Tú: "¿Cómo agrego un limitador de frecuencia a mi app de Express?"
IA: "Aquí tienes un fragmento de código que usa express-rate-limit…"
Tú: Copia el código, abre tu editor, pega el código y ejecuta el servidor.
Tú: Ves una falla. Copia el mensaje de error.
Tú: Pega el error en la IA…

Gemini CLI con agentes:

Tú (en la terminal): gemini "Agrega un límite de frecuencia al servidor utilizando express-rate-limit y asegúrate de que pase las pruebas".

Gemini CLI:

Lee package.json para verificar las dependencias.
Ejecuta npm install express-rate-limit.
Edita server.js para importar y configurar el middleware.
Ejecuta npm test.
(Si la prueba falla) Lee el registro de errores, edita el código de nuevo y vuelve a ejecutar la prueba.

Resultado final: "Tarea completada. Instalé el paquete y actualicé server.js. Se superan las pruebas".

Cómo obtener Gemini CLI

Gemini CLI es una herramienta de código abierto que está separada del SDK de Google Cloud estándar.

Instalación: Debes tener instalado Node.js (versión 18 o posterior).

Cargando...

Autenticación: Ejecuta el comando una vez para acceder con tu Cuenta de Google. No se necesita una clave de API para el nivel gratuito.