Este documento proporciona una arquitectura de referencia para ayudarte a diseñar sistemas de IA multiagente sólidos en Google Cloud. Un sistema de IA multiagente optimiza los procesos complejos y dinámicos segmentándolos en tareas independientes que ejecutan de forma colaborativa varios agentes de IA especializados.
Este documento está dirigido a arquitectos, desarrolladores y administradores que crean y gestionan infraestructuras y aplicaciones de IA en la nube. En este documento se presupone que el lector tiene conocimientos básicos sobre agentes y modelos de IA. En este documento no se ofrecen directrices específicas para diseñar y programar agentes de IA.
Arquitectura
En el siguiente diagrama se muestra la arquitectura de un ejemplo de sistema de IA multiagente implementado en Google Cloud.
Componentes de la arquitectura
La arquitectura de ejemplo de la sección anterior contiene los siguientes componentes:
Componente | Descripción |
---|---|
Frontend | Los usuarios interactúan con el sistema multiagente a través de un frontend, como una interfaz de chat, que se ejecuta como un servicio de Cloud Run sin servidor. |
Agentes | En este ejemplo, un agente coordinador controla el sistema de IA agentiva. El agente coordinador invoca a un subagente adecuado para activar el flujo de agentes. Los agentes pueden comunicarse entre sí mediante el protocolo Agent2Agent (A2A), que permite la interoperabilidad entre agentes independientemente de su lenguaje de programación y su tiempo de ejecución. La arquitectura de ejemplo muestra un patrón secuencial y un patrón de refinamiento iterativo. Para obtener más información sobre los subagentes de este ejemplo, consulta la sección Flujo de agente. |
Tiempo de ejecución de agentes | Los agentes de IA se pueden desplegar como servicios de Cloud Run sin servidor, como aplicaciones en contenedores en Google Kubernetes Engine (GKE) o en Vertex AI Agent Engine. |
ADK | El Agent Development Kit (ADK) proporciona herramientas y un framework para desarrollar, probar e implementar agentes. El ADK abstrae la complejidad de la creación de agentes y permite que los desarrolladores de IA se centren en la lógica y las funciones del agente. |
Modelos de IA y tiempos de ejecución de modelos | Para el servicio de inferencias, los agentes de esta arquitectura de ejemplo usan un modelo de IA en Vertex AI. La arquitectura muestra Cloud Run y GKE como entornos de ejecución alternativos para el modelo de IA que elijas usar. |
Model Armor | Model Armor permite inspeccionar y desinfectar las entradas y respuestas de los modelos que se despliegan en Vertex AI y GKE. Para obtener más información, consulta el artículo sobre la integración de Model Armor con los servicios de Google Cloud . |
Clientes, servidores y herramientas de MCP | El Model Context Protocol (MCP) facilita el acceso a las herramientas estandarizando la interacción entre agentes y herramientas. En cada par agente-herramienta, un cliente de MCP envía solicitudes a un servidor de MCP a través del cual el agente accede a una herramienta, como una base de datos, un sistema de archivos o una API. |
Flujo autónomo
El sistema multiagente de ejemplo de la arquitectura anterior tiene el siguiente flujo:
- Un usuario introduce una petición a través de un frontend, como una interfaz de chat, que se ejecuta como un servicio de Cloud Run sin servidor.
- El frontend reenvía la petición a un agente coordinador.
El agente coordinador inicia uno de los siguientes flujos de trabajo basados en agentes según la intención que se exprese en la petición.
- Secuencial:
- El subagente de tareas realiza una tarea.
- El subagente de la tarea A invoca al subagente de la tarea A.1.
Refinamiento iterativo:
- El subagente de la tarea B realiza una tarea.
- El subagente de evaluación de la calidad revisa el resultado del subagente de la tarea B.
- Si el resultado no es satisfactorio, el evaluador de calidad invoca al subagente de mejora de la petición para perfeccionarla.
- El subagente de la tarea B vuelve a realizar su tarea con la petición mejorada.
Este ciclo continúa hasta que el resultado es satisfactorio o se alcanza el número máximo de iteraciones.
La arquitectura de ejemplo incluye una ruta de intervención humana para que los usuarios puedan intervenir en el flujo de agentes cuando sea necesario.
- Secuencial:
El subagente de la tarea A.1 y el subagente de evaluación de la calidad invocan de forma independiente al subagente de generación de respuestas.
El subagente de generación de respuestas genera una respuesta, realiza comprobaciones de validación y de grounding, y, a continuación, envía la respuesta final al usuario a través del agente coordinador.
Productos y herramientas utilizados
Esta arquitectura de referencia usa los siguientes productos y herramientas de Google Cloud y terceros:
- Cloud Run: una plataforma de computación sin servidor que te permite ejecutar contenedores directamente en la infraestructura escalable de Google.
- Vertex AI: una plataforma de aprendizaje automático que te permite entrenar y desplegar modelos de aprendizaje automático y aplicaciones de IA, así como personalizar LLMs para usarlos con aplicaciones basadas en IA.
- Google Kubernetes Engine (GKE): un servicio de Kubernetes que puedes usar para desplegar y operar aplicaciones en contenedores a gran escala con la infraestructura de Google.
- Model Armor: un servicio que protege tus recursos de IA generativa y de agentes frente a la inyección de peticiones, las filtraciones de datos sensibles y el contenido dañino.
- Agent Development Kit (ADK): un conjunto de herramientas y bibliotecas para desarrollar, probar y desplegar agentes de IA.
- Protocolo Agent2Agent (A2A): un protocolo abierto que permite la comunicación y la interoperabilidad entre agentes, independientemente de su lenguaje de programación y su tiempo de ejecución.
- Model Context Protocol (MCP): un estándar de código abierto para conectar aplicaciones de IA a sistemas externos.
Casos prácticos
Los sistemas de IA multiagente son adecuados para casos prácticos complejos que requieren colaboración y coordinación entre varios conjuntos de habilidades especializadas para alcanzar un objetivo empresarial. Para identificar los casos prácticos en los que los sistemas de IA multiagente son adecuados, analiza tus procesos empresariales e identifica las tareas específicas que la IA puede mejorar. Centrarse en resultados empresariales tangibles, como la reducción de costes y la aceleración del procesamiento. Este enfoque te ayuda a alinear tus inversiones en IA con el valor empresarial.
A continuación, se muestran ejemplos de casos prácticos de sistemas de IA multiagente.
Asesor financiero
Proporcionar recomendaciones personalizadas para operar en bolsa y ejecutar operaciones. El siguiente diagrama muestra un ejemplo de flujo de agente para este caso práctico. En este ejemplo se usa un patrón secuencial.
En el diagrama se muestra el siguiente flujo:
- Un agente de recuperación de datos obtiene precios de acciones históricos y en tiempo real, informes financieros de empresas y otros datos relevantes de fuentes fiables.
- Un agente de análisis financiero aplica las técnicas de análisis y gráficos adecuadas a los datos, identifica patrones de movimiento de precios y hace predicciones.
- Un agente de recomendación de acciones usa los análisis y los gráficos para generar recomendaciones personalizadas de compra y venta de acciones específicas en función del perfil de riesgo y los objetivos de inversión del usuario.
- Un agente de ejecución de operaciones compra y vende acciones en nombre del usuario.
Asistente de investigación
Crea un plan de investigación, recopila información, evalúa y perfecciona la investigación y, a continuación, redacta un informe. En el siguiente diagrama se muestra un ejemplo de flujo de trabajo con agentes para este caso práctico. El flujo principal de este ejemplo usa un patrón secuencial. El ejemplo también incluye un patrón de refinamiento iterativo.
En el diagrama se muestra el siguiente flujo:
- Un agente de planificación crea un plan de investigación detallado.
Un agente de investigación completa las siguientes tareas:
- Usa el plan de investigación para identificar las fuentes de datos internas y externas adecuadas.
- Recoge y analiza los datos necesarios.
- Prepara un resumen de la investigación y lo proporciona a un agente evaluador.
El agente investigador repite estas tareas hasta que el agente evaluador aprueba la investigación.
Un agente de redacción de informes crea el informe de investigación final.
Optimizador de la cadena de suministro
Optimiza el inventario, haz un seguimiento de los envíos y comunícate con los partners de la cadena de suministro. En el siguiente diagrama se muestra un ejemplo de flujo de trabajo con agentes para este caso práctico. En este ejemplo se usa un patrón secuencial.
Un agente de gestor de almacén se encarga de que los niveles de stock sean óptimos creando pedidos de reposición en función del inventario, las previsiones de demanda y los plazos de entrega de los proveedores.
- El agente interactúa con el agente de seguimiento de envíos para hacer un seguimiento de las entregas.
- El agente interactúa con el agente de comunicación con proveedores para notificar a los proveedores los cambios en los pedidos.
Un agente de seguimiento de envíos asegura la tramitación oportuna y eficiente de los pedidos integrándose con las plataformas logísticas y los sistemas de transporte de los proveedores.
Un agente de comunicación con proveedores se comunica con proveedores externos en nombre de los demás agentes del sistema.
Factores del diseño
En esta sección se describen los factores de diseño, las prácticas recomendadas y las recomendaciones que debes tener en cuenta al usar esta arquitectura de referencia para desarrollar una topología que cumpla tus requisitos específicos de seguridad, fiabilidad, coste y rendimiento.
Las directrices de esta sección no son exhaustivas. En función de los requisitos de tu carga de trabajo y de los Google Cloud productos y funciones de terceros Google Cloud que utilices, puede que haya factores de diseño y compensaciones adicionales que debas tener en cuenta.
Diseño de sistemas
En esta sección se ofrecen directrices para ayudarte a elegir las Google Cloud regiones de tu implementación y a seleccionar los Google Cloud productos y las herramientas adecuados.
Selección de regiones
Cuando selecciones Google Cloud regiones para tus aplicaciones de IA, ten en cuenta los siguientes factores:
- Disponibilidad de los Google Cloud servicios en cada región.
- Requisitos de latencia para el usuario final.
- Coste de Google Cloud recursos.
- Requisitos normativos.
Para seleccionar las Google Cloud ubicaciones adecuadas para sus aplicaciones, utilice las siguientes herramientas:
- Google Cloud Selector de regiones: una herramienta web interactiva para seleccionar la región Google Cloud óptima para tus aplicaciones y datos en función de factores como la huella de carbono, el coste y la latencia.
- API Cloud Location Finder: una API pública que proporciona una forma programática de encontrar ubicaciones de implementación en Google Cloud, Google Distributed Cloud y otros proveedores de servicios en la nube.
Diseño de agentes
En esta sección se ofrecen recomendaciones generales para diseñar agentes de IA. Las instrucciones detalladas sobre cómo escribir el código y la lógica de los agentes no se incluyen en este documento.
Diseño | Recomendaciones |
---|---|
Definición y diseño de agentes |
|
Interacciones con agentes |
|
Contexto, herramientas y datos |
|
Seguridad
En esta sección se describen las consideraciones y recomendaciones de diseño para diseñar una topología en Google Cloud que cumpla los requisitos de seguridad de tu carga de trabajo.
Componente | Consideraciones y recomendaciones de diseño |
---|---|
Agentes |
Los agentes de IA introducen ciertos riesgos de seguridad únicos y críticos que las prácticas de seguridad convencionales y deterministas podrían no ser capaces de mitigar adecuadamente. Google recomienda un enfoque que combine los puntos fuertes de los controles de seguridad deterministas con defensas dinámicas basadas en el razonamiento. Este enfoque se basa en tres principios fundamentales: supervisión humana, autonomía de los agentes definida con precisión y observabilidad. A continuación, se incluyen recomendaciones específicas que se ajustan a estos principios básicos. Supervisión humana: un sistema de IA basado en agentes puede fallar o no funcionar como se espera. Por ejemplo, el modelo podría generar contenido impreciso o un agente podría seleccionar herramientas inadecuadas. En los sistemas de IA con capacidad de acción que sean cruciales para la empresa, incorpora un flujo de trabajo de human-in-the-loop para que los supervisores puedan monitorizar, anular y pausar agentes en tiempo real. Por ejemplo, los usuarios humanos pueden revisar el resultado de los agentes, aprobarlo o rechazarlo, y proporcionar más información para corregir errores o tomar decisiones estratégicas. Este enfoque combina la eficiencia de los sistemas de IA agentiva con el pensamiento crítico y los conocimientos especializados de los usuarios humanos. Control de acceso de los agentes: configura los permisos de los agentes mediante los controles de Gestión de Identidades y Accesos (IAM). Concede a cada agente solo los permisos que necesite para llevar a cabo sus tareas y comunicarse con las herramientas y con otros agentes. Este enfoque ayuda a minimizar el posible impacto de una brecha de seguridad, ya que un agente vulnerado tendría un acceso limitado a otras partes del sistema. Para obtener más información, consulta Configurar la identidad y los permisos de tu agente y Gestionar el acceso de los agentes implementados. Monitorización: monitoriza el comportamiento de los agentes mediante funciones de seguimiento exhaustivas que te permiten ver todas las acciones que realizan los agentes, como su proceso de razonamiento, la selección de herramientas y las rutas de ejecución. Para obtener más información, consulta Registrar un agente en Vertex AI Agent Engine y Registrar en el ADK. Para obtener más información sobre cómo proteger los agentes de IA, consulta Seguridad de los agentes de IA. |
Vertex AI |
Responsabilidad compartida: la seguridad es una responsabilidad compartida. Vertex AI protege la infraestructura subyacente y proporciona herramientas y controles de seguridad para ayudarte a proteger tus datos, código y modelos. Eres responsable de configurar correctamente tus servicios, gestionar los controles de acceso y proteger tus aplicaciones. Para obtener más información, consulta Responsabilidad compartida de Vertex AI. Controles de seguridad: Vertex AI admite controles de seguridad Google Cloud que puedes usar para cumplir tus requisitos de residencia de datos, claves de cifrado gestionadas por el cliente (CMEK), seguridad de red mediante Controles de Servicio de VPC y Transparencia de acceso. Para obtener más información, consulta la siguiente documentación:
Seguridad: los modelos de IA pueden generar respuestas dañinas, a veces en respuesta a peticiones maliciosas.
Acceso al modelo: puedes configurar políticas de la organización para limitar el tipo y las versiones de los modelos de IA que se pueden usar en un Google Cloud proyecto. Para obtener más información, consulta el artículo Controlar el acceso a los modelos de Model Garden. Protección de datos: para descubrir y anonimizar datos sensibles en las peticiones y respuestas, así como en los datos de registro, usa la API Cloud Data Loss Prevention. Para obtener más información, consulta este vídeo: Protecting sensitive data in AI apps (Protección de datos sensibles en aplicaciones de IA). |
MCP | Consulta MCP y seguridad. |
A2A |
Seguridad de transporte: el protocolo A2A exige el uso de HTTPS en todas las comunicaciones A2A en entornos de producción y recomienda usar la versión 1.2 o posterior del protocolo Seguridad en la capa de transporte (TLS). Autenticación: el protocolo A2A delega la autenticación en mecanismos web estándar, como las cabeceras HTTP, y en estándares, como OAuth2 y OpenID Connect. Cada agente anuncia los requisitos de autenticación en su tarjeta de agente. Para obtener más información, consulta el artículo sobre la autenticación de A2A. |
Cloud Run |
Seguridad de entrada (para el servicio de frontend): para controlar el acceso a la aplicación, inhabilita la Autenticación de usuarios: para autenticar el acceso de los usuarios al servicio de Cloud Run frontend, usa Identity-Aware Proxy (IAP). Cuando un usuario intenta acceder a un recurso protegido por IAP, IAP realiza comprobaciones de autenticación y autorización. Para obtener más información, consulta el artículo sobre cómo habilitar IAP para Cloud Run. Seguridad de las imágenes de contenedor: para asegurarte de que solo se desplieguen imágenes de contenedor autorizadas en Cloud Run, puedes usar la autorización binaria. Para identificar y mitigar los riesgos de seguridad en las imágenes de contenedor, usa Artifact Analysis para ejecutar automáticamente análisis de vulnerabilidades. Para obtener más información, consulta la descripción general del análisis de contenedores. Residencia de datos: Cloud Run te ayuda a cumplir los requisitos de residencia de datos. Tus funciones de Cloud Run se ejecutan en la región seleccionada. Para obtener más información sobre la seguridad de los contenedores, consulta los consejos generales para el desarrollo en Cloud Run. |
Todos los productos de la arquitectura |
Cifrado de datos: de forma predeterminada, Google Cloud cifra los datos en reposo mediante Google-owned and Google-managed encryption keys. Para proteger los datos de tus agentes con claves de cifrado que controles, puedes usar CMEKs que crees y gestiones en Cloud KMS. Para obtener información sobre los servicios compatibles con Cloud KMS, consulta Servicios compatibles. Google Cloud Mitigar el riesgo de filtración externa de datos: para reducir el riesgo de filtración externa de datos, crea un perímetro de Controles de Servicio de VPC alrededor de la infraestructura. Controles de Servicio de VPC es compatible con todos los Google Cloud servicios que usa esta arquitectura de referencia. Control de acceso: cuando configures los permisos de los recursos de tu topología, sigue el principio de mínimos accesos. Optimización posterior a la implementación: después de implementar tu aplicación en Google Cloud, recibe recomendaciones para optimizar aún más la seguridad mediante el centro de recomendaciones de Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta el artículo Buscar recomendaciones en el centro de recomendaciones. Seguridad del entorno de nube: usa las herramientas de Security Command Center para detectar vulnerabilidades, identificar y mitigar amenazas, definir e implementar una estrategia de seguridad y exportar datos para analizarlos en mayor profundidad. |
Más recomendaciones de seguridad
- Google Cloud Perspectiva de seguridad del marco Well-Architected sobre la IA y el aprendizaje automático
- Estrategia de Google para crear agentes de IA seguros: introducción
Fiabilidad
En esta sección se describen las consideraciones de diseño y las recomendaciones para crear y operar una infraestructura fiable para tu implementación en Google Cloud.
Componente | Consideraciones y recomendaciones de diseño |
---|---|
Agentes |
Tolerancia a fallos: diseña el sistema basado en agentes para que tolere o gestione los fallos a nivel de agente. Cuando sea posible, utiliza un enfoque descentralizado en el que los agentes puedan operar de forma independiente. Simular fallos: antes de implementar el sistema de IA con agentes en producción, valídalo simulando un entorno de producción. Identifica y corrige problemas de coordinación entre agentes y comportamientos inesperados. Gestión de errores: para poder diagnosticar y solucionar errores, implementa mecanismos de registro, gestión de excepciones y reintento. |
Vertex AI |
Gestión de cuotas: Vertex AI admite cuotas compartidas dinámicas (DSQ) para los modelos de Gemini. DSQ ayuda a gestionar de forma flexible las solicitudes de pago por uso y elimina la necesidad de gestionar la cuota manualmente o de solicitar aumentos de cuota. DSQ asigna de forma dinámica los recursos disponibles para un modelo y una región concretos entre los clientes activos. Con DSQ, no hay límites de cuota predefinidos para clientes concretos. Planificación de la capacidad: si el número de solicitudes al modelo supera la capacidad asignada, se devuelve el código de error 429. Para las cargas de trabajo críticas para la empresa que requieren un volumen de procesamiento alto y constante, puedes reservar volumen de procesamiento mediante la opción Volumen de procesamiento aprovisionado. Disponibilidad del endpoint del modelo: si los datos se pueden compartir en varias regiones o países, puedes usar un endpoint global para el modelo. |
Cloud Run | Robustez ante interrupciones de la infraestructura: Cloud Run es un servicio regional. Almacena los datos de forma síncrona en varias zonas de una región y balancea la carga del tráfico automáticamente entre las zonas. Si se produce una interrupción en una zona, Cloud Run seguirá funcionando y no se perderán datos. Si se produce una interrupción en una región, el servicio dejará de funcionar hasta que Google resuelva el problema. |
Todos los productos de la arquitectura | Optimización posterior a la implementación: después de implementar tu aplicación en Google Cloud, recibe recomendaciones para optimizar aún más la fiabilidad mediante el centro de recomendaciones de Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta el artículo Buscar recomendaciones en el centro de recomendaciones. |
Para consultar los principios y las recomendaciones de fiabilidad específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de la fiabilidad de la IA y el aprendizaje automático del framework Well-Architected.
Operaciones
En esta sección se describen los factores que debes tener en cuenta al usar esta arquitectura de referencia para diseñar una topología que puedas gestionar de forma eficiente. Google Cloud
Componente | Consideraciones y recomendaciones de diseño |
---|---|
Vertex AI |
Monitorización mediante registros: de forma predeterminada, los registros del agente que se escriben en los flujos Evaluación continua: realiza periódicamente una evaluación cualitativa de los resultados de los agentes y de la trayectoria o los pasos que han seguido los agentes para obtenerlos. Para implementar la evaluación de agentes, puedes usar el servicio de evaluación de IA generativa o los métodos de evaluación que admite el ADK. |
MCP |
Herramientas de bases de datos: para gestionar de forma eficiente las herramientas de bases de datos de tus agentes de IA y asegurarte de que los agentes gestionan de forma segura complejidades como la agrupación de conexiones y la autenticación, usa MCP Toolbox for Databases. Proporciona una ubicación centralizada para almacenar y actualizar herramientas de bases de datos. Puedes compartir las herramientas entre agentes y actualizarlas sin tener que volver a implementar los agentes. La caja de herramientas incluye una amplia gama de herramientas para Google Cloud bases de datos como AlloyDB para PostgreSQL y para bases de datos de terceros, como MongoDB. Modelos de IA generativa: para permitir que los agentes de IA usen modelos de IA generativa de Google, como Imagen y Veo, puedes usar servidores MCP para APIs de medios generativos Google Cloud. Productos y herramientas de seguridad de Google: para permitir que tus agentes de IA accedan a productos y herramientas de seguridad de Google, como Google Security Operations, Google Threat Intelligence y Security Command Center, usa servidores MCP para productos de seguridad de Google. |
Todos los productos de Google Cloud de la arquitectura | Monitorización de trazas: recoge y analiza continuamente datos de trazas con Cloud Trace. Los datos de seguimiento te permiten identificar y diagnosticar rápidamente errores en flujos de trabajo de agentes complejos. Puedes hacer análisis detallados con las visualizaciones de la herramienta Explorador de trazas. Para obtener más información, consulta Rastrear un agente. |
Para consultar los principios y las recomendaciones de excelencia operativa específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de IA y aprendizaje automático: excelencia operativa del framework Well-Architected.
Optimización de costes
En esta sección se ofrecen directrices para optimizar el coste de configurar y operar una Google Cloud topología que se cree con esta arquitectura de referencia.
Componente | Consideraciones y recomendaciones de diseño> |
---|---|
Vertex AI |
Análisis y gestión de costes: para analizar y gestionar los costes de Vertex AI, le recomendamos que cree métricas de referencia de consultas por segundo (CPS) y tokens por segundo (TPS). Después, monitoriza estas métricas tras la implementación. El valor de referencia también ayuda a planificar la capacidad. Por ejemplo, la línea de base te ayuda a determinar cuándo puede ser necesario el throughput aprovisionado. Selección del modelo: el modelo que selecciones para tu aplicación de IA afectará directamente a los costes y al rendimiento. Para identificar el modelo que ofrece un equilibrio óptimo entre rendimiento y coste en tu caso práctico específico, prueba los modelos de forma iterativa. Te recomendamos que empieces con el modelo más rentable y que vayas pasando gradualmente a opciones más potentes. Peticiones rentables: la longitud de tus peticiones (entrada) y de las respuestas generadas (salida) influyen directamente en el rendimiento y el coste. Escribe peticiones que sean cortas, directas y que proporcionen suficiente contexto. Diseña tus peticiones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "resume en dos frases" o "enumera tres puntos clave". Para obtener más información, consulta las prácticas recomendadas para diseñar peticiones. Almacenamiento en caché del contexto: para reducir el coste de las solicitudes que contienen contenido repetido con un número elevado de tokens de entrada, usa el almacenamiento en caché del contexto. Solicitudes por lotes: cuando sea pertinente, considera la predicción por lotes. Las solicitudes por lotes tienen un coste inferior al de las solicitudes estándar. |
Cloud Run |
Asignación de recursos: cuando creas un servicio de Cloud Run, puedes especificar la cantidad de memoria y CPU que se va a asignar. Empieza con las asignaciones predeterminadas de CPU y memoria. Observa el uso de recursos y el coste a lo largo del tiempo, y ajusta la asignación según sea necesario. Para obtener más información, consulta la siguiente documentación: Optimización de tarifas: si puedes predecir los requisitos de CPU y memoria, puedes ahorrar dinero con los descuentos por uso confirmado (CUDs). |
Todos los productos de la arquitectura | Optimización posterior a la implementación: después de implementar tu aplicación en Google Cloud, recibe recomendaciones para optimizar aún más los costes mediante el centro de recomendaciones de Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta el artículo Buscar recomendaciones en el centro de recomendaciones. |
Para estimar el coste de tus Google Cloud recursos, usa la Google Cloud calculadora de precios.
Para consultar los principios y las recomendaciones de optimización de costes específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de IA y aprendizaje automático: optimización de costes del framework Well-Architected.
Optimización del rendimiento
En esta sección se describen las consideraciones y recomendaciones de diseño para diseñar una topología en Google Cloud que cumpla los requisitos de rendimiento de sus cargas de trabajo.
Componente | Consideraciones y recomendaciones de diseño |
---|---|
Agentes |
Selección del modelo: cuando selecciones modelos para tu sistema de IA basado en agentes, ten en cuenta las funciones que se requieren para las tareas que deben realizar los agentes. Optimización de las peticiones: para mejorar y optimizar rápidamente el rendimiento de las peticiones a gran escala y eliminar la necesidad de reescribirlas manualmente, usa el optimizador de peticiones de Vertex AI. El optimizador te ayuda a adaptar las peticiones de forma eficiente en diferentes modelos. |
Vertex AI |
Selección del modelo: el modelo que selecciones para tu aplicación de IA afectará directamente a los costes y al rendimiento. Para identificar el modelo que ofrece un equilibrio óptimo entre rendimiento y coste en tu caso práctico específico, prueba los modelos de forma iterativa. Te recomendamos que empieces con el modelo más rentable y que vayas pasando gradualmente a opciones más potentes. Ingeniería de peticiones: la longitud de tus peticiones (entrada) y las respuestas generadas (salida) afectan directamente al rendimiento y al coste. Escribe peticiones que sean cortas, directas y que proporcionen suficiente contexto. Diseña tus peticiones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "resume en dos frases" o "enumera tres puntos clave". Para obtener más información, consulta las prácticas recomendadas para diseñar peticiones. Almacenamiento en caché del contexto: para reducir la latencia de las solicitudes que contienen contenido repetido con un número elevado de tokens de entrada, usa el almacenamiento en caché del contexto. |
Cloud Run |
Asignación de recursos: en función de tus requisitos de rendimiento, configura la memoria y la CPU que se asignarán al servicio de Cloud Run. Para obtener más información, consulta la siguiente documentación: Para obtener más información sobre cómo optimizar el rendimiento, consulta los consejos generales para el desarrollo en Cloud Run. |
Todos los productos de la arquitectura | Optimización posterior a la implementación: después de implementar tu aplicación en Google Cloud, recibe recomendaciones para optimizar aún más el rendimiento mediante el centro de recomendaciones de Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta el artículo Buscar recomendaciones en el centro de recomendaciones. |
Para consultar los principios y las recomendaciones de optimización del rendimiento específicos de las cargas de trabajo de IA y aprendizaje automático, consulte el artículo Perspectiva de la IA y el aprendizaje automático: optimización del rendimiento del marco de trabajo Well-Architected.
Implementación
Para aprender a crear y desplegar sistemas de IA multiagente, usa los siguientes ejemplos de código. Estos ejemplos de código son puntos de partida totalmente funcionales para aprender y experimentar. Para que funcione de forma óptima en entornos de producción, debes personalizar el código en función de los requisitos técnicos y empresariales específicos.
- Asesor financiero: analiza datos del mercado de valores, crea estrategias de trading, define planes de ejecución y evalúa riesgos.
- Asistente de investigación: planifica y lleva a cabo investigaciones, evalúa los resultados y redacta un informe de investigación.
- Agente de seguros: crea membresías, ofrece asistencia en carretera y gestiona reclamaciones de seguros.
- Optimizador de búsqueda: busca palabras clave, analiza páginas web y ofrece sugerencias para optimizar la búsqueda.
- Analizador de datos: recupera datos, realiza manipulaciones complejas, genera visualizaciones y ejecuta tareas de aprendizaje automático.
- Agente de marketing web: elige un nombre de dominio, diseña un sitio web, crea campañas y produce contenido.
- Planificador de Airbnb (con A2A y MCP): busca anuncios de Airbnb y consulta información meteorológica de una ubicación y una hora concretas.
Para ver ejemplos de código que te ayuden a empezar a usar el ADK junto con los servidores de MCP, consulta Herramientas de MCP.
Siguientes pasos
- Explora agentes y herramientas de ejemplo en Agent Garden.
- Crea agentes con Agent Development Kit (ADK).
- Implementar agentes en Google Cloud.
- Aloja agentes de A2A en Cloud Run.
- Aloja servidores de MCP en Cloud Run.
- Para obtener una descripción general de los principios y las recomendaciones de arquitectura específicos de las cargas de trabajo de IA y aprendizaje automático en Google Cloud, consulta la sección Perspectiva de IA y aprendizaje automático del framework Well-Architected.
- Para ver más arquitecturas de referencia, diagramas y prácticas recomendadas, consulta el centro de arquitectura de Cloud.
Colaboradores
Autor: Kumar Dhanagopal | Desarrollador de soluciones multiproducto
Otros colaboradores:
- Alan Blount | Responsable de producto
- Filipe Gracio, doctor | Ingeniero de clientes y especialista en IA y aprendizaje automático
- Holt Skinner | Developer Advocate
- Jack Wotherspoon | Developer Advocate
- Joe Shirey | Responsable de relaciones con desarrolladores de Cloud
- Megan O'Keefe | Developer Advocate
- Samantha He | Redactora técnica
- Shir Meir Lador | Responsable de Ingeniería de Relaciones con Desarrolladores
- Victor Dantas | Arquitecto de soluciones de campo de IA generativa
- Vlad Kolesnikov | Ingeniero de relaciones con desarrolladores