Conceptos básicos de los agentes de IA

Los agentes de IA han evolucionado de ser bots de chat pasivos a sistemas autónomos capaces de razonar, usar herramientas corporativas y ejecutar flujos de trabajo complejos.

Para aprovechar su enorme potencial y pasar de casos prácticos y prototipos experimentales a sistemas sólidos de nivel empresarial que generen un retorno de la inversión medible, es útil conocer los componentes básicos. Aquí desglosamos los conceptos básicos de los agentes de IA, como:

  • Modelos: el motor de razonamiento que usa el agente para pensar.
  • Fundamentación: la base de conocimientos, que se convierte en el mecanismo para la precisión factual y la recuperación de conocimientos.
  • Herramientas: capacidades definidas para realizar tareas, que determinan lo que puede hacer un agente
  • Arquitectura de datos: dónde almacena el agente su memoria y sus datos
  • Orquestación: cómo planifica el agente y conecta todas las partes de una tarea de varios pasos
  • Entorno de ejecución: dónde vive el agente y se ejecuta a escala

Modelos

Piensa en el modelo como el cerebro de tu agente. Lee y entiende tus peticiones, averigua qué debe ocurrir y genera respuestas inteligentes.

Elegir el modelo adecuado es una cuestión de equilibrio entre capacidad, velocidad y coste para tu caso práctico. El objetivo no es maximizar la potencia bruta, sino optimizar la eficiencia. El error más común es invertir demasiado en una función cuando un caso práctico no la necesita, lo que lleva a un gasto ineficiente y a un rendimiento más lento.

Las arquitecturas cognitivas sólidas emplean varios agentes especializados que seleccionan dinámicamente el modelo más eficiente para su subtarea específica. Es como tener un equipo de especialistas a tu disposición, con trabajos que se asignan de forma inteligente a diferentes especialistas en función de la tarea. Por ejemplo, un modelo potente se reserva para las tareas más complejas de planificación y razonamiento, mientras que las tareas más sencillas y de gran volumen, como clasificar la intención del usuario, se envían a un modelo más rápido y rentable. Este enrutamiento dinámico de modelos es clave para optimizar tanto el rendimiento como el coste.

Al ofrecer un amplio conjunto de modelos entre los que elegir, junto con modos de razonamiento configurables, los desarrolladores obtienen un conjunto dinámico de palancas para una optimización sofisticada. Todo esto les ayuda a calibrar el coste y el rendimiento de todo un sistema multiagente para satisfacer necesidades empresariales y técnicas específicas.

Una vez que selecciones un modelo que se ajuste a tus necesidades de coste, latencia y calidad, es posible que tengas la opción de ajustarlo. De esta forma, se especializa su conocimiento y estilo para las necesidades concretas de tu empresa, y se hace usando un conjunto de datos seleccionados de tus propios ejemplos de alta calidad. Para saber si un modelo permite y admite el afinamiento, consulta su documentación y su contrato de licencia.

Análisis en profundidad: crea agentes empresariales

¿Quieres poner en práctica la selección de modelos? Descubre cómo equilibrar la seguridad, la fiabilidad y la eficiencia en una arquitectura cognitiva sólida.

Consulta la guía técnica para crear sistemas multiagente empresariales.


Consejo avanzado

Usa una plataforma centralizada para descubrir, personalizar y desplegar modelos fundacionales. Busca una que ofrezca una selección muy cuidada de los mejores modelos del mundo, te permita implementarlos con un solo clic y ofrezca seguridad de nivel empresarial desde el principio.

Fundamentación

La credibilidad y la utilidad de un agente dependen de su capacidad para proporcionar respuestas precisas y fiables basadas en hechos verificables. Aquí es donde entra en juego la fundamentación. Transforma a los agentes en verdaderos automatizadores de flujos de trabajo que se basan de forma precisa y exhaustiva en los datos de tu empresa.

En lo que respecta a la fundamentación, hay tres capas que se deben tener en cuenta.

1. RAG: un primer paso fundamental

La credibilidad de un agente está ligada a su capacidad de proporcionar respuestas basadas en hechos verificables. La generación aumentada por recuperación (RAG) conecta un agente con una fuente de datos verificables y en tiempo real, lo que garantiza que el agente se basa en la verdad y no en alucinaciones.

Este sencillo proceso de recuperación y generación se puede aplicar a texto, imágenes y otros tipos de datos. Permite hacer búsquedas ultrarrápidas en conjuntos de datos masivos, lo que lleva a tomar decisiones oportunas y con capacidad de respuesta.

Sin embargo, aunque RAG ayuda a responder preguntas, no es suficiente para las consultas complejas que requieren una comprensión más profunda de las relaciones entre los puntos de datos.

2. GraphRAG: fundamentación más inteligente

GraphRAG enriquece la fundamentación al comprender las relaciones explícitas entre los puntos de datos de un gráfico de conocimiento y recuperar datos contextuales que reflejan mejor sus interconexiones con otras fuentes de datos. De esta forma, en lugar de limitarse a buscar frases similares, tu agente entiende cómo se relacionan los conceptos.

Un punto importante: los gráficos de conocimiento te dan control directo sobre la lógica de tu empresa. Mientras que la RAG estándar se basa en patrones generados por el modelo, un gráfico de conocimiento te permite definir y gestionar las relaciones específicas entre entidades, lo que garantiza que el agente respete la taxonomía y las reglas únicas de tu organización. Para conseguir la máxima fiabilidad, las empresas líderes utilizan un enfoque híbrido que combina la amplia recuperación de la RAG estándar con la precisión y el control de GraphRAG.

Caso práctico

Una vista estructurada de datos de fuentes dispares

Las empresas de servicios financieros usan gráficos de conocimiento para ofrecer a los analistas una vista unificada de los informes de analistas, las llamadas sobre resultados, las evaluaciones de riesgos y más. Esta red de datos interconectada y enriquecida ayuda a los analistas a descubrir información valiosa que antes estaba oculta, como las complejas dependencias de la cadena de suministro, los miembros de los consejos de administración que se repiten en distintas empresas de la competencia y la exposición a riesgos geopolíticos complejos.

3. RAG con agentes: razonamiento y recuperación dinámicos

El enfoque más eficaz para fundamentar es la RAG con agentes, donde el agente ya no es un receptor pasivo de información, sino un participante activo y razonador en el propio proceso de recuperación. Con la RAG de agentes, un agente puede analizar una consulta compleja, formular un plan de varios pasos y ejecutar varias llamadas a herramientas en secuencia para encontrar la mejor información posible. No es un sustituto de la búsqueda tradicional, sino que añade un razonamiento avanzado a tu infraestructura de RAG y de gráficos de conocimiento para resolver consultas de varios saltos.

Esta capacidad de percibir y razonar con diferentes tipos de datos transforma al agente de un procesador de datos en una herramienta de resolución de problemas que entiende e interactúa con el mundo de una forma más completa. Al permitir que el agente sea un participante activo y razonador, los desarrolladores pueden crear sistemas capaces de ejecutar consultas complejas de varios pasos y tareas de largo alcance que definen las capacidades de los agentes de nueva generación.

Consejo avanzado

Usa el enfoque de recuperación y reordenación

Aborda el equilibrio entre la recuperación (encontrar todos los documentos relevantes) y la precisión (asegurarse de que los documentos recuperados son relevantes) utilizando el enfoque de "recuperar y volver a clasificar", que amplía la apertura de recuperación para obtener un conjunto de documentos más grande de lo necesario. Este conjunto más grande se pasa al LLM o a un servicio especializado de reordenación, que identifica los documentos más relevantes y descarta los que no lo son o son semánticamente opuestos.

Nota:

El afinamiento no es fundamentación. Se trata de adaptar el estilo de un modelo y perfeccionar sus conocimientos sobre una tarea específica. La fundamentación conecta el modelo con fuentes de datos verificables y en tiempo real para asegurar que sus respuestas sean precisas.

Herramientas

Las herramientas son funciones definidas que permiten a un agente hacer más cosas que las funciones nativas de su modelo de razonamiento principal. Las herramientas sirven de puente entre el razonamiento del agente y su capacidad de actuar, ya sea para hacer un simple cálculo interno o para interactuar con sistemas externos mediante llamadas a APIs. Como la fundamentación es la principal forma en que un agente obtiene información nueva, técnicamente es la herramienta más fundamental de su kit.

Pueden mostrarse las siguientes herramientas:

  • Funciones y servicios internos: lógica propia o código especializado escrito por tu propio equipo para resolver problemas específicos de la empresa.
  • APIs externas: conexiones seguras a servicios de terceros que permiten a un agente ejecutar tareas en el mundo real.
  • Recuperación y fundamentación de datos: la capacidad de consultar bases de datos de forma dinámica (incluyendo la conversión de lenguaje natural a SQL), buscar en almacenes de vectores o acceder a bases de conocimientos empresariales. Tanto si se trata de una simple búsqueda como de una consulta compleja en una base de datos, estas herramientas garantizan que las acciones del agente se basen en datos verificables.
  • Colaboración entre agentes: en los sistemas más sofisticados, un agente puede colaborar con otro agente especializado para resolver un problema. Aunque un agente puede usarse como una "herramienta" para una tarea específica, los sistemas empresariales más potentes los tratan como colaboradores que coordinan acciones de forma segura en diferentes dominios.

Arquitectura de datos

Los agentes usan diferentes tipos de memoria para diferentes tareas. Una arquitectura de datos empresarial sólida debe abordar tres necesidades distintas: almacenamiento persistente para la recuperación de conocimientos a largo plazo, acceso de baja latencia para el contexto conversacional a corto plazo y un libro de contabilidad duradero para la auditoría transaccional.

1. Base de conocimientos a largo plazo (fundamentación y memoria)

La memoria a largo plazo es la base de la inteligencia, la fundamentación y la personalización de un agente, y se diferencia del contexto rápido y a corto plazo de una conversación en directo. Su arquitectura tiene tres componentes principales:

  • Una base de conocimientos estructurada para la generación aumentada por recuperación (RAG) basada en hechos
  • Un almacén persistente para la memoria de usuario destilada. En lugar de almacenar todas las interacciones históricas, el agente genera y almacena datos relevantes sobre el usuario, el equipo o la tarea para ofrecer una experiencia continua y personalizada.
  • Un lago de datos operativo para material sin procesar, como transcripciones de conversaciones y estados de flujos de trabajo, que permite procesos cognitivos más complejos y analíticas futuras

Caso práctico

Acceder a toda la información pertinente

Un agente legal recupera al instante jurisprudencia, documentos de políticas internas y manuales de formación para generar un primer borrador de un contrato que cumpla la legislación.

2. Memoria de trabajo (contexto de la conversación y estado a corto plazo)

Esta capa gestiona la información transitoria (la ventana de contexto del LLM) necesaria para una tarea o conversación en curso. Para mantener una experiencia de usuario adaptable, debe proporcionar un acceso de latencia extremadamente baja para la secuencia iterativa de acciones y observaciones que se realizan.

Caso práctico

Tener una conversación útil

Un agente del equipo de Asistencia mantiene el estado de un flujo de solución de problemas de varios pasos, recordando los números de serie o los pasos de diagnóstico que el usuario ha proporcionado previamente para evitar la repetición.

3. Memoria transaccional (gestión de estados y auditoría de acciones)

Esta capa se encarga de registrar las acciones y los cambios de estado con una gran coherencia e integridad. Sirve como sistema de registro duradero, lo cual es esencial desde el punto de vista de la seguridad y para ofrecer un registro de auditoría no repudiable de cada acción realizada por los agentes.

Caso práctico

Mantener un libro de contabilidad duradero

Un agente de la cadena de suministro registra la ejecución correcta de una orden de compra compleja entre varias partes, lo que garantiza que la transacción se rastree y se pueda verificar de forma permanente en los sistemas financieros.

Orquestación

La orquestación es el núcleo operativo que guía a un agente a través de una tarea de varios pasos. En cualquier proceso que requiera más de una acción, determina qué herramientas se necesitan, en qué orden y cómo se deben combinar sus resultados para alcanzar un objetivo final.

La orquestación, que es la función ejecutiva del agente, es la clave para crear sistemas sofisticados que automaticen procesos empresariales complejos. Te permite abordar problemas que, anteriormente, no eran técnicamente viables, lo que en última instancia da lugar a una nueva clase de aplicaciones y experiencias de usuario.

Un patrón de orquestación común y eficaz es ReAct (del inglés "Reason + Action", razonamiento y acción). Este framework combina las capacidades de razonamiento y actuación de los modelos de lenguaje extenso, y establece un bucle dinámico de varias interacciones en el que el modelo genera tanto razonamientos (pensamientos) como acciones específicas de la tarea de forma intercalada.

Con ReAct, el razonamiento ayuda al modelo a hacer un seguimiento de los planes de acción y a actualizarlos, mientras que las acciones recopilan información de herramientas externas para fundamentar el proceso de razonamiento. Funciona así:

  1. Razonamiento: el agente evalúa el objetivo y el estado actual, y formula una hipótesis sobre el siguiente paso más adecuado y si se necesita una herramienta.
  2. Acción: el agente selecciona e invoca la herramienta adecuada.
  3. Observación: el agente recibe la salida de la herramienta. Esta nueva información se integra en el contexto del agente y alimenta el siguiente paso de razonamiento del ciclo.

Casos prácticos

Automatización de RR. HH. en varios departamentos

Para incorporar a un nuevo empleado, el agente inicia acciones de forma secuencial en varios sistemas. En primer lugar, crea un registro del empleado en el sistema. Después, activa una llamada a la API del agente de TI para que proporcione el hardware y las credenciales de red. Por último, inscribe al empleado en los módulos de entrenamiento obligatorios sobre cumplimiento normativo territorial.

Solución proactiva de la cadena de suministro

Para detectar y resolver automáticamente las interrupciones en los envíos, se orquesta un agente para que siga los pasos clave. En primer lugar, una alerta de monitorización activa una herramienta para consultar a proveedores alternativos. A continuación, ejecuta una herramienta de simulación para calcular los beneficios económicos de cambiar de proveedor frente a soportar los retrasos en los envíos. Por último, si un humano interviene y da su aprobación, se ejecuta la acción para enviar una nueva orden de compra al agente de logística.

Tiempo de ejecución

Para desplegar un prototipo de agente funcional en un entorno de producción a escala, necesitas una infraestructura de tiempo de ejecución sólida e integrada con un sistema coherente de servicios para fundamentación, herramientas, memoria, sesiones y otros elementos. De esta forma, tus agentes podrán trabajar en un ecosistema seguro y de alto rendimiento, capaz de gestionar las complejas demandas del crecimiento de una empresa mundial.

Un entorno de ejecución de nivel de producción requiere lo siguiente:

Escalabilidad: la infraestructura debe escalarse automáticamente para gestionar cargas variables, desde cero hasta millones de solicitudes. Esto incluye tanto el balanceo de carga basado en solicitudes como el autoescalado basado en recursos para gestionar las demandas computacionales de forma eficiente.

Seguridad y control: la plataforma debe proporcionar un entorno de ejecución seguro, gestionar la identidad de los usuarios y los agentes, las políticas de empresa, los registros de herramientas y agentes, los controles de acceso a la red y los canales de comunicación seguros (como TLS) para proteger al agente y los datos a los que accede.

Fiabilidad y observabilidad: el sistema debe incluir mecanismos para gestionar errores y hacer una monitorización continua. Para depurar errores complejos, el tiempo de ejecución debe captar trazas de ejecución de alta fidelidad, es decir, un registro paso a paso del razonamiento del agente y de las llamadas a herramientas. De esta forma, se expone toda la trayectoria de una decisión, lo que permite a tus equipos entender plenamente los motivos si se produce un fallo inesperado. Para una supervisión de alto nivel, el sistema debe incluir métricas de finalización de tareas y comentarios de usuarios. La automatización con simulaciones y evaluaciones permite tener confianza antes y después del despliegue en producción.

Aprende a crear, escalar y gobernar agentes de IA.

Nuestra guía para empresas sobre sistemas multiagente te muestra cómo crear soluciones eficientes, escalables y seguras basadas en IA sin sacrificar la solidez empresarial.

Google Cloud