Sistema de IA multiagente en Google Cloud

Last reviewed 2025-09-16 UTC

Este documento proporciona una arquitectura de referencia para ayudarte a diseñar sistemas de IA multiagente sólidos en Google Cloud. Un sistema de IA multiagente optimiza los procesos complejos y dinámicos segmentándolos en tareas independientes que ejecutan de forma colaborativa varios agentes de IA especializados.

Este documento está dirigido a arquitectos, desarrolladores y administradores que crean y gestionan infraestructuras y aplicaciones de IA en la nube. En este documento se presupone que el lector tiene conocimientos básicos sobre agentes y modelos de IA. En este documento no se ofrecen directrices específicas para diseñar y programar agentes de IA.

Arquitectura

En el siguiente diagrama se muestra la arquitectura de un ejemplo de sistema de IA multiagente implementado en Google Cloud.

Arquitectura de un sistema de IA multiagente en Google Cloud. Arquitectura de un sistema de IA multiagente en Google Cloud.

Componentes de la arquitectura

La arquitectura de ejemplo de la sección anterior contiene los siguientes componentes:

Componente Descripción
Frontend Los usuarios interactúan con el sistema multiagente a través de un frontend, como una interfaz de chat, que se ejecuta como un servicio de Cloud Run sin servidor.
Agentes En este ejemplo, un agente coordinador controla el sistema de IA agentiva. El agente coordinador invoca a un subagente adecuado para activar el flujo de agentes. Los agentes pueden comunicarse entre sí mediante el protocolo Agent2Agent (A2A), que permite la interoperabilidad entre agentes independientemente de su lenguaje de programación y su tiempo de ejecución. La arquitectura de ejemplo muestra un patrón secuencial y un patrón de refinamiento iterativo. Para obtener más información sobre los subagentes de este ejemplo, consulta la sección Flujo de agente.
Tiempo de ejecución de agentes Los agentes de IA se pueden desplegar como servicios de Cloud Run sin servidor, como aplicaciones en contenedores en Google Kubernetes Engine (GKE) o en Vertex AI Agent Engine.
ADK El Agent Development Kit (ADK) proporciona herramientas y un framework para desarrollar, probar e implementar agentes. El ADK abstrae la complejidad de la creación de agentes y permite que los desarrolladores de IA se centren en la lógica y las funciones del agente.
Modelos de IA y tiempos de ejecución de modelos Para el servicio de inferencias, los agentes de esta arquitectura de ejemplo usan un modelo de IA en Vertex AI. La arquitectura muestra Cloud Run y GKE como entornos de ejecución alternativos para el modelo de IA que elijas usar.
Model Armor Model Armor permite inspeccionar y desinfectar las entradas y respuestas de los modelos que se despliegan en Vertex AI y GKE. Para obtener más información, consulta el artículo sobre la integración de Model Armor con los servicios de Google Cloud .
Clientes, servidores y herramientas de MCP El Model Context Protocol (MCP) facilita el acceso a las herramientas estandarizando la interacción entre agentes y herramientas. En cada par agente-herramienta, un cliente de MCP envía solicitudes a un servidor de MCP a través del cual el agente accede a una herramienta, como una base de datos, un sistema de archivos o una API.

Flujo autónomo

El sistema multiagente de ejemplo de la arquitectura anterior tiene el siguiente flujo:

  1. Un usuario introduce una petición a través de un frontend, como una interfaz de chat, que se ejecuta como un servicio de Cloud Run sin servidor.
  2. El frontend reenvía la petición a un agente coordinador.
  3. El agente coordinador inicia uno de los siguientes flujos de trabajo basados en agentes según la intención que se exprese en la petición.

    • Secuencial:
      1. El subagente de tareas realiza una tarea.
      2. El subagente de la tarea A invoca al subagente de la tarea A.1.
    • Refinamiento iterativo:

      1. El subagente de la tarea B realiza una tarea.
      2. El subagente de evaluación de la calidad revisa el resultado del subagente de la tarea B.
      3. Si el resultado no es satisfactorio, el evaluador de calidad invoca al subagente de mejora de la petición para perfeccionarla.
      4. El subagente de la tarea B vuelve a realizar su tarea con la petición mejorada.

      Este ciclo continúa hasta que el resultado es satisfactorio o se alcanza el número máximo de iteraciones.

    La arquitectura de ejemplo incluye una ruta de intervención humana para que los usuarios puedan intervenir en el flujo de agentes cuando sea necesario.

  4. El subagente de la tarea A.1 y el subagente de evaluación de la calidad invocan de forma independiente al subagente de generación de respuestas.

  5. El subagente de generación de respuestas genera una respuesta, realiza comprobaciones de validación y de grounding, y, a continuación, envía la respuesta final al usuario a través del agente coordinador.

Productos y herramientas utilizados

Esta arquitectura de referencia usa los siguientes productos y herramientas de Google Cloud y terceros:

  • Cloud Run: una plataforma de computación sin servidor que te permite ejecutar contenedores directamente en la infraestructura escalable de Google.
  • Vertex AI: una plataforma de aprendizaje automático que te permite entrenar y desplegar modelos de aprendizaje automático y aplicaciones de IA, así como personalizar LLMs para usarlos con aplicaciones basadas en IA.
  • Google Kubernetes Engine (GKE): un servicio de Kubernetes que puedes usar para desplegar y operar aplicaciones en contenedores a gran escala con la infraestructura de Google.
  • Model Armor: un servicio que protege tus recursos de IA generativa y de agentes frente a la inyección de peticiones, las filtraciones de datos sensibles y el contenido dañino.
  • Agent Development Kit (ADK): un conjunto de herramientas y bibliotecas para desarrollar, probar y desplegar agentes de IA.
  • Protocolo Agent2Agent (A2A): un protocolo abierto que permite la comunicación y la interoperabilidad entre agentes, independientemente de su lenguaje de programación y su tiempo de ejecución.
  • Model Context Protocol (MCP): un estándar de código abierto para conectar aplicaciones de IA a sistemas externos.

Casos prácticos

Los sistemas de IA multiagente son adecuados para casos prácticos complejos que requieren colaboración y coordinación entre varios conjuntos de habilidades especializadas para alcanzar un objetivo empresarial. Para identificar los casos prácticos en los que los sistemas de IA multiagente son adecuados, analiza tus procesos empresariales e identifica las tareas específicas que la IA puede mejorar. Centrarse en resultados empresariales tangibles, como la reducción de costes y la aceleración del procesamiento. Este enfoque te ayuda a alinear tus inversiones en IA con el valor empresarial.

A continuación, se muestran ejemplos de casos prácticos de sistemas de IA multiagente.

Asesor financiero

Proporcionar recomendaciones personalizadas para operar en bolsa y ejecutar operaciones. El siguiente diagrama muestra un ejemplo de flujo de agente para este caso práctico. En este ejemplo se usa un patrón secuencial.

Caso práctico de un asesor financiero para un sistema multiagente.

En el diagrama se muestra el siguiente flujo:

  1. Un agente de recuperación de datos obtiene precios de acciones históricos y en tiempo real, informes financieros de empresas y otros datos relevantes de fuentes fiables.
  2. Un agente de análisis financiero aplica las técnicas de análisis y gráficos adecuadas a los datos, identifica patrones de movimiento de precios y hace predicciones.
  3. Un agente de recomendación de acciones usa los análisis y los gráficos para generar recomendaciones personalizadas de compra y venta de acciones específicas en función del perfil de riesgo y los objetivos de inversión del usuario.
  4. Un agente de ejecución de operaciones compra y vende acciones en nombre del usuario.

Asistente de investigación

Crea un plan de investigación, recopila información, evalúa y perfecciona la investigación y, a continuación, redacta un informe. En el siguiente diagrama se muestra un ejemplo de flujo de trabajo con agentes para este caso práctico. El flujo principal de este ejemplo usa un patrón secuencial. El ejemplo también incluye un patrón de refinamiento iterativo.

Caso práctico de un asistente de investigación para un sistema multiagente.

En el diagrama se muestra el siguiente flujo:

  1. Un agente de planificación crea un plan de investigación detallado.
  2. Un agente de investigación completa las siguientes tareas:

    1. Usa el plan de investigación para identificar las fuentes de datos internas y externas adecuadas.
    2. Recoge y analiza los datos necesarios.
    3. Prepara un resumen de la investigación y lo proporciona a un agente evaluador.

    El agente investigador repite estas tareas hasta que el agente evaluador aprueba la investigación.

  3. Un agente de redacción de informes crea el informe de investigación final.

Optimizador de la cadena de suministro

Optimiza el inventario, haz un seguimiento de los envíos y comunícate con los partners de la cadena de suministro. En el siguiente diagrama se muestra un ejemplo de flujo de trabajo con agentes para este caso práctico. En este ejemplo se usa un patrón secuencial.

Caso práctico de optimizador de la cadena de suministro para un sistema multiagente.

  1. Un agente de gestor de almacén se encarga de que los niveles de stock sean óptimos creando pedidos de reposición en función del inventario, las previsiones de demanda y los plazos de entrega de los proveedores.

    • El agente interactúa con el agente de seguimiento de envíos para hacer un seguimiento de las entregas.
    • El agente interactúa con el agente de comunicación con proveedores para notificar a los proveedores los cambios en los pedidos.
  2. Un agente de seguimiento de envíos asegura la tramitación oportuna y eficiente de los pedidos integrándose con las plataformas logísticas y los sistemas de transporte de los proveedores.

  3. Un agente de comunicación con proveedores se comunica con proveedores externos en nombre de los demás agentes del sistema.

Factores del diseño

En esta sección se describen los factores de diseño, las prácticas recomendadas y las recomendaciones que debes tener en cuenta al usar esta arquitectura de referencia para desarrollar una topología que cumpla tus requisitos específicos de seguridad, fiabilidad, coste y rendimiento.

Las directrices de esta sección no son exhaustivas. En función de los requisitos de tu carga de trabajo y de los Google Cloud productos y funciones de terceros Google Cloud que utilices, puede que haya factores de diseño y compensaciones adicionales que debas tener en cuenta.

Diseño de sistemas

En esta sección se ofrecen directrices para ayudarte a elegir las Google Cloud regiones de tu implementación y a seleccionar los Google Cloud productos y las herramientas adecuados.

Selección de regiones

Cuando selecciones Google Cloud regiones para tus aplicaciones de IA, ten en cuenta los siguientes factores:

Para seleccionar las Google Cloud ubicaciones adecuadas para sus aplicaciones, utilice las siguientes herramientas:

  • Google Cloud Selector de regiones: una herramienta web interactiva para seleccionar la región Google Cloud óptima para tus aplicaciones y datos en función de factores como la huella de carbono, el coste y la latencia.
  • API Cloud Location Finder: una API pública que proporciona una forma programática de encontrar ubicaciones de implementación en Google Cloud, Google Distributed Cloud y otros proveedores de servicios en la nube.

Diseño de agentes

En esta sección se ofrecen recomendaciones generales para diseñar agentes de IA. Las instrucciones detalladas sobre cómo escribir el código y la lógica de los agentes no se incluyen en este documento.

Diseño Recomendaciones
Definición y diseño de agentes
  • Define claramente el objetivo de negocio del sistema de IA de agentes y la tarea que realiza cada agente.
  • Usa un patrón de agente que se ajuste mejor a tus requisitos.
  • Usa el ADK para crear, implementar y gestionar de forma eficiente tu arquitectura de agente.
Interacciones con agentes
  • Diseña los agentes orientados a los humanos de la arquitectura para que admitan interacciones en lenguaje natural.
  • Asegúrate de que cada agente comunique claramente sus acciones y su estado a sus clientes dependientes.
  • Diseña los agentes para que detecten y gestionen consultas ambiguas e interacciones matizadas.
Contexto, herramientas y datos
  • Asegúrate de que los agentes tengan suficiente contexto para monitorizar las interacciones de varios turnos y los parámetros de sesión.
  • Describe claramente el propósito, los argumentos y el uso de las herramientas que pueden usar los agentes.
  • Asegúrate de que las respuestas de los agentes se basen en fuentes de datos fiables para reducir las alucinaciones.
  • Implementa la lógica para gestionar situaciones en las que no se encuentra ninguna coincidencia, como cuando una petición no es pertinente.

Seguridad

En esta sección se describen las consideraciones y recomendaciones de diseño para diseñar una topología en Google Cloud que cumpla los requisitos de seguridad de tu carga de trabajo.

Componente Consideraciones y recomendaciones de diseño
Agentes

Los agentes de IA introducen ciertos riesgos de seguridad únicos y críticos que las prácticas de seguridad convencionales y deterministas podrían no ser capaces de mitigar adecuadamente. Google recomienda un enfoque que combine los puntos fuertes de los controles de seguridad deterministas con defensas dinámicas basadas en el razonamiento. Este enfoque se basa en tres principios fundamentales: supervisión humana, autonomía de los agentes definida con precisión y observabilidad. A continuación, se incluyen recomendaciones específicas que se ajustan a estos principios básicos.

Supervisión humana: un sistema de IA basado en agentes puede fallar o no funcionar como se espera. Por ejemplo, el modelo podría generar contenido impreciso o un agente podría seleccionar herramientas inadecuadas. En los sistemas de IA con capacidad de acción que sean cruciales para la empresa, incorpora un flujo de trabajo de human-in-the-loop para que los supervisores puedan monitorizar, anular y pausar agentes en tiempo real. Por ejemplo, los usuarios humanos pueden revisar el resultado de los agentes, aprobarlo o rechazarlo, y proporcionar más información para corregir errores o tomar decisiones estratégicas. Este enfoque combina la eficiencia de los sistemas de IA agentiva con el pensamiento crítico y los conocimientos especializados de los usuarios humanos.

Control de acceso de los agentes: configura los permisos de los agentes mediante los controles de Gestión de Identidades y Accesos (IAM). Concede a cada agente solo los permisos que necesite para llevar a cabo sus tareas y comunicarse con las herramientas y con otros agentes. Este enfoque ayuda a minimizar el posible impacto de una brecha de seguridad, ya que un agente vulnerado tendría un acceso limitado a otras partes del sistema. Para obtener más información, consulta Configurar la identidad y los permisos de tu agente y Gestionar el acceso de los agentes implementados.

Monitorización: monitoriza el comportamiento de los agentes mediante funciones de seguimiento exhaustivas que te permiten ver todas las acciones que realizan los agentes, como su proceso de razonamiento, la selección de herramientas y las rutas de ejecución. Para obtener más información, consulta Registrar un agente en Vertex AI Agent Engine y Registrar en el ADK.

Para obtener más información sobre cómo proteger los agentes de IA, consulta Seguridad de los agentes de IA.

Vertex AI

Responsabilidad compartida: la seguridad es una responsabilidad compartida. Vertex AI protege la infraestructura subyacente y proporciona herramientas y controles de seguridad para ayudarte a proteger tus datos, código y modelos. Eres responsable de configurar correctamente tus servicios, gestionar los controles de acceso y proteger tus aplicaciones. Para obtener más información, consulta Responsabilidad compartida de Vertex AI.

Controles de seguridad: Vertex AI admite controles de seguridad Google Cloud que puedes usar para cumplir tus requisitos de residencia de datos, claves de cifrado gestionadas por el cliente (CMEK), seguridad de red mediante Controles de Servicio de VPC y Transparencia de acceso. Para obtener más información, consulta la siguiente documentación:

Seguridad: los modelos de IA pueden generar respuestas dañinas, a veces en respuesta a peticiones maliciosas.

  • Para mejorar la seguridad y mitigar el posible uso inadecuado del sistema de IA basado en agentes, puedes configurar filtros de contenido que actúen como barreras ante las entradas y respuestas dañinas. Para obtener más información, consulta Filtros de seguridad y de contenido.
  • Para inspeccionar y desinfectar las solicitudes y respuestas de inferencia en busca de amenazas como la inyección de peticiones y el contenido dañino, puedes usar Model Armor. Model Armor te ayuda a evitar entradas maliciosas, verificar la seguridad del contenido, proteger los datos sensibles, mantener el cumplimiento y aplicar las políticas de seguridad de forma coherente.

Acceso al modelo: puedes configurar políticas de la organización para limitar el tipo y las versiones de los modelos de IA que se pueden usar en un Google Cloud proyecto. Para obtener más información, consulta el artículo Controlar el acceso a los modelos de Model Garden.

Protección de datos: para descubrir y anonimizar datos sensibles en las peticiones y respuestas, así como en los datos de registro, usa la API Cloud Data Loss Prevention. Para obtener más información, consulta este vídeo: Protecting sensitive data in AI apps (Protección de datos sensibles en aplicaciones de IA).

MCP Consulta MCP y seguridad.
A2A

Seguridad de transporte: el protocolo A2A exige el uso de HTTPS en todas las comunicaciones A2A en entornos de producción y recomienda usar la versión 1.2 o posterior del protocolo Seguridad en la capa de transporte (TLS).

Autenticación: el protocolo A2A delega la autenticación en mecanismos web estándar, como las cabeceras HTTP, y en estándares, como OAuth2 y OpenID Connect. Cada agente anuncia los requisitos de autenticación en su tarjeta de agente. Para obtener más información, consulta el artículo sobre la autenticación de A2A.

Cloud Run

Seguridad de entrada (para el servicio de frontend): para controlar el acceso a la aplicación, inhabilita la run.appURL predeterminada del servicio de frontend de Cloud Run y configura un balanceador de carga de aplicaciones externo regional. Además de balancear la carga del tráfico entrante a la aplicación, el balanceador de carga gestiona los certificados SSL. Para disfrutar de una protección adicional, puedes usar políticas de seguridad de Google Cloud Armor para proporcionar filtrado de solicitudes, protección frente a DDoS y limitación de frecuencia para el servicio.

Autenticación de usuarios: para autenticar el acceso de los usuarios al servicio de Cloud Run frontend, usa Identity-Aware Proxy (IAP). Cuando un usuario intenta acceder a un recurso protegido por IAP, IAP realiza comprobaciones de autenticación y autorización. Para obtener más información, consulta el artículo sobre cómo habilitar IAP para Cloud Run.

Seguridad de las imágenes de contenedor: para asegurarte de que solo se desplieguen imágenes de contenedor autorizadas en Cloud Run, puedes usar la autorización binaria. Para identificar y mitigar los riesgos de seguridad en las imágenes de contenedor, usa Artifact Analysis para ejecutar automáticamente análisis de vulnerabilidades. Para obtener más información, consulta la descripción general del análisis de contenedores.

Residencia de datos: Cloud Run te ayuda a cumplir los requisitos de residencia de datos. Tus funciones de Cloud Run se ejecutan en la región seleccionada.

Para obtener más información sobre la seguridad de los contenedores, consulta los consejos generales para el desarrollo en Cloud Run.

Todos los productos de la arquitectura

Cifrado de datos: de forma predeterminada, Google Cloud cifra los datos en reposo mediante Google-owned and Google-managed encryption keys. Para proteger los datos de tus agentes con claves de cifrado que controles, puedes usar CMEKs que crees y gestiones en Cloud KMS. Para obtener información sobre los servicios compatibles con Cloud KMS, consulta Servicios compatibles. Google Cloud

Mitigar el riesgo de filtración externa de datos: para reducir el riesgo de filtración externa de datos, crea un perímetro de Controles de Servicio de VPC alrededor de la infraestructura. Controles de Servicio de VPC es compatible con todos los Google Cloud servicios que usa esta arquitectura de referencia.

Control de acceso: cuando configures los permisos de los recursos de tu topología, sigue el principio de mínimos accesos.

Optimización posterior a la implementación: después de implementar tu aplicación en Google Cloud, recibe recomendaciones para optimizar aún más la seguridad mediante el centro de recomendaciones de Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta el artículo Buscar recomendaciones en el centro de recomendaciones.

Seguridad del entorno de nube: usa las herramientas de Security Command Center para detectar vulnerabilidades, identificar y mitigar amenazas, definir e implementar una estrategia de seguridad y exportar datos para analizarlos en mayor profundidad.

Más recomendaciones de seguridad

Fiabilidad

En esta sección se describen las consideraciones de diseño y las recomendaciones para crear y operar una infraestructura fiable para tu implementación en Google Cloud.

Componente Consideraciones y recomendaciones de diseño
Agentes

Tolerancia a fallos: diseña el sistema basado en agentes para que tolere o gestione los fallos a nivel de agente. Cuando sea posible, utiliza un enfoque descentralizado en el que los agentes puedan operar de forma independiente.

Simular fallos: antes de implementar el sistema de IA con agentes en producción, valídalo simulando un entorno de producción. Identifica y corrige problemas de coordinación entre agentes y comportamientos inesperados.

Gestión de errores: para poder diagnosticar y solucionar errores, implementa mecanismos de registro, gestión de excepciones y reintento.

Vertex AI

Gestión de cuotas: Vertex AI admite cuotas compartidas dinámicas (DSQ) para los modelos de Gemini. DSQ ayuda a gestionar de forma flexible las solicitudes de pago por uso y elimina la necesidad de gestionar la cuota manualmente o de solicitar aumentos de cuota. DSQ asigna de forma dinámica los recursos disponibles para un modelo y una región concretos entre los clientes activos. Con DSQ, no hay límites de cuota predefinidos para clientes concretos.

Planificación de la capacidad: si el número de solicitudes al modelo supera la capacidad asignada, se devuelve el código de error 429. Para las cargas de trabajo críticas para la empresa que requieren un volumen de procesamiento alto y constante, puedes reservar volumen de procesamiento mediante la opción Volumen de procesamiento aprovisionado.

Disponibilidad del endpoint del modelo: si los datos se pueden compartir en varias regiones o países, puedes usar un endpoint global para el modelo.

Cloud Run Robustez ante interrupciones de la infraestructura: Cloud Run es un servicio regional. Almacena los datos de forma síncrona en varias zonas de una región y balancea la carga del tráfico automáticamente entre las zonas. Si se produce una interrupción en una zona, Cloud Run seguirá funcionando y no se perderán datos. Si se produce una interrupción en una región, el servicio dejará de funcionar hasta que Google resuelva el problema.
Todos los productos de la arquitectura Optimización posterior a la implementación: después de implementar tu aplicación en Google Cloud, recibe recomendaciones para optimizar aún más la fiabilidad mediante el centro de recomendaciones de Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta el artículo Buscar recomendaciones en el centro de recomendaciones.

Para consultar los principios y las recomendaciones de fiabilidad específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de la fiabilidad de la IA y el aprendizaje automático del framework Well-Architected.

Operaciones

En esta sección se describen los factores que debes tener en cuenta al usar esta arquitectura de referencia para diseñar una topología que puedas gestionar de forma eficiente. Google Cloud

Componente Consideraciones y recomendaciones de diseño
Vertex AI

Monitorización mediante registros: de forma predeterminada, los registros del agente que se escriben en los flujos stdout y stderr se dirigen a Cloud Logging. Para registrar información de forma avanzada, puedes integrar el registrador de Python con Cloud Logging. Si necesitas tener un control total sobre los registros y los registros estructurados, usa el cliente de Cloud Logging. Para obtener más información, consulta Registrar un agente y Registrar en el ADK.

Evaluación continua: realiza periódicamente una evaluación cualitativa de los resultados de los agentes y de la trayectoria o los pasos que han seguido los agentes para obtenerlos. Para implementar la evaluación de agentes, puedes usar el servicio de evaluación de IA generativa o los métodos de evaluación que admite el ADK.

MCP

Herramientas de bases de datos: para gestionar de forma eficiente las herramientas de bases de datos de tus agentes de IA y asegurarte de que los agentes gestionan de forma segura complejidades como la agrupación de conexiones y la autenticación, usa MCP Toolbox for Databases. Proporciona una ubicación centralizada para almacenar y actualizar herramientas de bases de datos. Puedes compartir las herramientas entre agentes y actualizarlas sin tener que volver a implementar los agentes. La caja de herramientas incluye una amplia gama de herramientas para Google Cloud bases de datos como AlloyDB para PostgreSQL y para bases de datos de terceros, como MongoDB.

Modelos de IA generativa: para permitir que los agentes de IA usen modelos de IA generativa de Google, como Imagen y Veo, puedes usar servidores MCP para APIs de medios generativos Google Cloud.

Productos y herramientas de seguridad de Google: para permitir que tus agentes de IA accedan a productos y herramientas de seguridad de Google, como Google Security Operations, Google Threat Intelligence y Security Command Center, usa servidores MCP para productos de seguridad de Google.

Todos los productos de Google Cloud de la arquitectura Monitorización de trazas: recoge y analiza continuamente datos de trazas con Cloud Trace. Los datos de seguimiento te permiten identificar y diagnosticar rápidamente errores en flujos de trabajo de agentes complejos. Puedes hacer análisis detallados con las visualizaciones de la herramienta Explorador de trazas. Para obtener más información, consulta Rastrear un agente.

Para consultar los principios y las recomendaciones de excelencia operativa específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de IA y aprendizaje automático: excelencia operativa del framework Well-Architected.

Optimización de costes

En esta sección se ofrecen directrices para optimizar el coste de configurar y operar una Google Cloud topología que se cree con esta arquitectura de referencia.

Componente Consideraciones y recomendaciones de diseño>
Vertex AI

Análisis y gestión de costes: para analizar y gestionar los costes de Vertex AI, le recomendamos que cree métricas de referencia de consultas por segundo (CPS) y tokens por segundo (TPS). Después, monitoriza estas métricas tras la implementación. El valor de referencia también ayuda a planificar la capacidad. Por ejemplo, la línea de base te ayuda a determinar cuándo puede ser necesario el throughput aprovisionado.

Selección del modelo: el modelo que selecciones para tu aplicación de IA afectará directamente a los costes y al rendimiento. Para identificar el modelo que ofrece un equilibrio óptimo entre rendimiento y coste en tu caso práctico específico, prueba los modelos de forma iterativa. Te recomendamos que empieces con el modelo más rentable y que vayas pasando gradualmente a opciones más potentes.

Peticiones rentables: la longitud de tus peticiones (entrada) y de las respuestas generadas (salida) influyen directamente en el rendimiento y el coste. Escribe peticiones que sean cortas, directas y que proporcionen suficiente contexto. Diseña tus peticiones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "resume en dos frases" o "enumera tres puntos clave". Para obtener más información, consulta las prácticas recomendadas para diseñar peticiones.

Almacenamiento en caché del contexto: para reducir el coste de las solicitudes que contienen contenido repetido con un número elevado de tokens de entrada, usa el almacenamiento en caché del contexto.

Solicitudes por lotes: cuando sea pertinente, considera la predicción por lotes. Las solicitudes por lotes tienen un coste inferior al de las solicitudes estándar.

Cloud Run

Asignación de recursos: cuando creas un servicio de Cloud Run, puedes especificar la cantidad de memoria y CPU que se va a asignar. Empieza con las asignaciones predeterminadas de CPU y memoria. Observa el uso de recursos y el coste a lo largo del tiempo, y ajusta la asignación según sea necesario. Para obtener más información, consulta la siguiente documentación:

Optimización de tarifas: si puedes predecir los requisitos de CPU y memoria, puedes ahorrar dinero con los descuentos por uso confirmado (CUDs).

Todos los productos de la arquitectura Optimización posterior a la implementación: después de implementar tu aplicación en Google Cloud, recibe recomendaciones para optimizar aún más los costes mediante el centro de recomendaciones de Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta el artículo Buscar recomendaciones en el centro de recomendaciones.

Para estimar el coste de tus Google Cloud recursos, usa la Google Cloud calculadora de precios.

Para consultar los principios y las recomendaciones de optimización de costes específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de IA y aprendizaje automático: optimización de costes del framework Well-Architected.

Optimización del rendimiento

En esta sección se describen las consideraciones y recomendaciones de diseño para diseñar una topología en Google Cloud que cumpla los requisitos de rendimiento de sus cargas de trabajo.

Componente Consideraciones y recomendaciones de diseño
Agentes

Selección del modelo: cuando selecciones modelos para tu sistema de IA basado en agentes, ten en cuenta las funciones que se requieren para las tareas que deben realizar los agentes.

Optimización de las peticiones: para mejorar y optimizar rápidamente el rendimiento de las peticiones a gran escala y eliminar la necesidad de reescribirlas manualmente, usa el optimizador de peticiones de Vertex AI. El optimizador te ayuda a adaptar las peticiones de forma eficiente en diferentes modelos.

Vertex AI

Selección del modelo: el modelo que selecciones para tu aplicación de IA afectará directamente a los costes y al rendimiento. Para identificar el modelo que ofrece un equilibrio óptimo entre rendimiento y coste en tu caso práctico específico, prueba los modelos de forma iterativa. Te recomendamos que empieces con el modelo más rentable y que vayas pasando gradualmente a opciones más potentes.

Ingeniería de peticiones: la longitud de tus peticiones (entrada) y las respuestas generadas (salida) afectan directamente al rendimiento y al coste. Escribe peticiones que sean cortas, directas y que proporcionen suficiente contexto. Diseña tus peticiones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "resume en dos frases" o "enumera tres puntos clave". Para obtener más información, consulta las prácticas recomendadas para diseñar peticiones.

Almacenamiento en caché del contexto: para reducir la latencia de las solicitudes que contienen contenido repetido con un número elevado de tokens de entrada, usa el almacenamiento en caché del contexto.

Cloud Run

Asignación de recursos: en función de tus requisitos de rendimiento, configura la memoria y la CPU que se asignarán al servicio de Cloud Run. Para obtener más información, consulta la siguiente documentación:

Para obtener más información sobre cómo optimizar el rendimiento, consulta los consejos generales para el desarrollo en Cloud Run.

Todos los productos de la arquitectura Optimización posterior a la implementación: después de implementar tu aplicación en Google Cloud, recibe recomendaciones para optimizar aún más el rendimiento mediante el centro de recomendaciones de Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta el artículo Buscar recomendaciones en el centro de recomendaciones.

Para consultar los principios y las recomendaciones de optimización del rendimiento específicos de las cargas de trabajo de IA y aprendizaje automático, consulte el artículo Perspectiva de la IA y el aprendizaje automático: optimización del rendimiento del marco de trabajo Well-Architected.

Implementación

Para aprender a crear y desplegar sistemas de IA multiagente, usa los siguientes ejemplos de código. Estos ejemplos de código son puntos de partida totalmente funcionales para aprender y experimentar. Para que funcione de forma óptima en entornos de producción, debes personalizar el código en función de los requisitos técnicos y empresariales específicos.

Para ver ejemplos de código que te ayuden a empezar a usar el ADK junto con los servidores de MCP, consulta Herramientas de MCP.

Siguientes pasos

Colaboradores

Autor: Kumar Dhanagopal | Desarrollador de soluciones multiproducto

Otros colaboradores: