Sistema de IA con múltiples agentes en Google Cloud

Last reviewed 2025-09-16 UTC

En este documento, se proporciona una arquitectura de referencia para ayudarte a diseñar sistemas de IA multiagente sólidos en Google Cloud. Un sistema de IA multiagente optimiza procesos complejos y dinámicos segmentándolos en tareas discretas que varios agentes de IA especializados ejecutan de forma colaborativa.

El público objetivo de este documento incluye arquitectos, desarrolladores y administradores que compilan y administran infraestructura y aplicaciones de IA en la nube. En este documento, se supone que tienes conocimientos básicos sobre los agentes y modelos de IA. En el documento, no se proporciona orientación específica para diseñar y codificar agentes de IA.

Arquitectura

En el siguiente diagrama, se muestra la arquitectura de un ejemplo de un sistema de IA con varios agentes implementado en Google Cloud.

Arquitectura de un sistema de IA multiagente en Google Cloud. Arquitectura de un sistema de IA multiagente en Google Cloud.

Componentes de la arquitectura

La arquitectura de ejemplo de la sección anterior contiene los siguientes componentes:

Componente Descripción
Frontend Los usuarios interactúan con el sistema de varios agentes a través de una interfaz de usuario, como una interfaz de chat, que se ejecuta como un servicio de Cloud Run sin servidores.
Agentes En este ejemplo, un agente coordinador controla el sistema de IA basada en agentes. El agente coordinador invoca un subagente adecuado para activar el flujo agentic. Los agentes pueden comunicarse entre sí a través del protocolo Agent2Agent (A2A), que permite la interoperabilidad entre agentes independientemente de su lenguaje de programación y tiempo de ejecución. La arquitectura de ejemplo muestra un patrón secuencial y un patrón de perfeccionamiento iterativo. Para obtener más información sobre los subagentes en este ejemplo, consulta la sección Flujo agentic.
Tiempo de ejecución de agentes Los agentes de IA se pueden implementar como servicios de Cloud Run sin servidores, como apps en contenedores en Google Kubernetes Engine (GKE) o en Vertex AI Agent Engine.
ADK El Kit de desarrollo de agentes (ADK) proporciona herramientas y un framework para desarrollar, probar e implementar agentes. El ADK abstrae la complejidad de la creación de agentes y permite que los desarrolladores de IA se enfoquen en la lógica y las capacidades del agente.
Modelos de IA y tiempos de ejecución de modelos Para la entrega de inferencias, los agentes de esta arquitectura de ejemplo usan un modelo de IA en Vertex AI. La arquitectura muestra Cloud Run y GKE como tiempos de ejecución alternativos para el modelo de IA que elijas usar.
Model Armor Model Armor permite inspeccionar y sanear las entradas y las respuestas de los modelos implementados en Vertex AI y GKE. Para obtener más información, consulta Integración de Model Armor con servicios de Google Cloud .
Clientes, servidores y herramientas de MCP El Protocolo de contexto del modelo (MCP) facilita el acceso a las herramientas estandarizando la interacción entre agentes y herramientas. Para cada par agente-herramienta, un cliente de MCP envía solicitudes a un servidor de MCP a través del cual el agente accede a una herramienta, como una base de datos, un sistema de archivos o una API.

Flujo de agente

El sistema multiagente de ejemplo en la arquitectura anterior tiene el siguiente flujo:

  1. Un usuario ingresa una instrucción a través de un frontend, como una interfaz de chat, que se ejecuta como un servicio de Cloud Run sin servidores.
  2. El frontend reenvía la instrucción a un agente coordinador.
  3. El agente coordinador inicia uno de los siguientes flujos de agentes según la intención expresada en la instrucción.

    • Secuencial:
      1. El subagente de tarea A realiza una tarea.
      2. El subagente de la tarea A invoca al subagente de la tarea A.1.
    • Refinamiento iterativo:

      1. El subagente de la tarea B realiza una tarea.
      2. El subagente de evaluación de calidad revisa el resultado del subagente de la tarea B.
      3. Si el resultado no es satisfactorio, el evaluador de calidad invoca al subagente de mejora de instrucciones para perfeccionar la instrucción.
      4. El subagente de la tarea B vuelve a realizar su tarea con la instrucción mejorada.

      Este ciclo continúa hasta que el resultado es satisfactorio o se alcanza la cantidad máxima de iteraciones.

    La arquitectura de ejemplo incluye una ruta de acceso con humanos en el circuito para permitir que los usuarios humanos intervengan en el flujo de agentes cuando sea necesario.

  4. El subagente de la tarea A.1 y el subagente de evaluación de calidad invocan de forma independiente el subagente de generación de respuestas.

  5. El subagente generador de respuestas genera una respuesta, realiza validaciones y verificaciones de fundamentación, y, luego, envía la respuesta final al usuario a través del agente coordinador.

Productos y herramientas utilizados

En esta arquitectura de referencia, se usan los siguientes productos y herramientas de Google Cloud y terceros:

  • Cloud Run es una plataforma de procesamiento administrada que te permite ejecutar contenedores directamente sobre la infraestructura escalable de Google.
  • Vertex AI: Es una plataforma de AA que te permite entrenar y, también, implementar modelos de AA y aplicaciones de IA, y personalizar LLM para usarlos en aplicaciones impulsadas por IA.
  • Google Kubernetes Engine (GKE): Un servicio de Kubernetes que puedes usar para implementar y operar aplicaciones en contenedores a gran escala con la infraestructura de Google.
  • Model Armor: Es un servicio que brinda protección a tus recursos de IA generativa y de agentes contra la inyección de instrucciones, las filtraciones de datos sensibles y el contenido dañino.
  • Kit de desarrollo de agentes (ADK): Es un conjunto de herramientas y bibliotecas para desarrollar, probar e implementar agentes de IA.
  • Protocolo Agent2Agent (A2A): Es un protocolo abierto que permite la comunicación y la interoperabilidad entre agentes, independientemente de su lenguaje de programación y tiempo de ejecución.
  • Protocolo de contexto del modelo (MCP): Es un estándar de código abierto para conectar aplicaciones de IA a sistemas externos.

Casos de uso

Los sistemas de IA multiagente son adecuados para casos de uso complejos que requieren colaboración y coordinación en múltiples conjuntos de habilidades especializadas para lograr un objetivo comercial. Para identificar los casos de uso para los que son adecuados los sistemas de IA con varios agentes, analiza tus procesos comerciales y determina las tareas específicas que la IA puede mejorar. Enfócate en los resultados comerciales tangibles, como la reducción de costos y el procesamiento acelerado. Este enfoque te ayuda a alinear tus inversiones en IA con el valor comercial.

A continuación, se muestran ejemplos de casos de uso para sistemas de IA multiagente.

Asesor financiero

Proporcionar recomendaciones personalizadas para el comercio de acciones y ejecutar operaciones En el siguiente diagrama, se muestra un ejemplo de un flujo de trabajo basado en agentes para este caso de uso. En este ejemplo, se usa un patrón secuencial.

Caso de uso de asesor financiero para un sistema multiagente.

En el diagrama, se muestra el siguiente flujo:

  1. Un agente recuperador de datos recupera precios de acciones históricos y en tiempo real, informes financieros de empresas y otros datos relevantes de fuentes confiables.
  2. Un agente de análisis financiero aplica técnicas adecuadas de análisis y generación de gráficos a los datos, identifica patrones de movimiento de precios y realiza predicciones.
  3. Un agente recomendador de acciones usa el análisis y los gráficos para generar recomendaciones personalizadas para comprar y vender acciones específicas según el perfil de riesgo y los objetivos de inversión del usuario.
  4. Un agente de ejecución de operaciones compra y vende acciones en nombre del usuario.

Asistente de investigación

Crear un plan de investigación, recopilar información, evaluar y perfeccionar la investigación, y, luego, redactar un informe En el siguiente diagrama, se muestra un ejemplo de un flujo de trabajo de agente para este caso de uso. El flujo principal de este ejemplo usa un patrón secuencial. El ejemplo también incluye un patrón de perfeccionamiento iterativo.

Caso de uso de asistente de investigación para un sistema multiagente.

En el diagrama, se muestra el siguiente flujo:

  1. Un agente de planificación crea un plan de investigación detallado.
  2. Un agente de investigación completa las siguientes tareas:

    1. Usa el plan de investigación para identificar las fuentes de datos internas y externas adecuadas.
    2. Recopila y analiza los datos necesarios.
    3. Prepara un resumen de la investigación y se lo proporciona a un agente evaluador.

    El agente de investigación repite estas tareas hasta que el agente de evaluación aprueba la investigación.

  3. Un agente de composición de informes crea el informe de investigación final.

Optimizador de la cadena de suministro

Optimizar el inventario, hacer un seguimiento de los envíos y comunicarse con los socios de la cadena de suministro En el siguiente diagrama, se muestra un ejemplo de un flujo de trabajo de agente para este caso de uso. En este ejemplo, se usa un patrón secuencial.

Caso de uso del optimizador de la cadena de suministro para un sistema multiagente.

  1. Un agente de administración de almacenes garantiza niveles óptimos de existencias creando pedidos de reposición según el inventario, las previsiones de demanda y los plazos de entrega de los proveedores.

    • El agente interactúa con el agente de seguimiento de envíos para hacer un seguimiento de las entregas.
    • El agente interactúa con el agente de comunicación con proveedores para notificarles sobre los cambios en los pedidos.
  2. Un agente de seguimiento de envíos garantiza el procesamiento de pedidos eficiente y oportuno, ya que se integra con las plataformas de logística y los sistemas de transporte de los proveedores.

  3. Un agente de comunicación con proveedores se comunica con proveedores externos en nombre de los demás agentes del sistema.

Consideraciones del diseño

En esta sección, se describen los factores de diseño, las prácticas recomendadas y las recomendaciones que debes tener en cuenta cuando usas esta arquitectura de referencia para desarrollar una topología que cumpla con tus requisitos específicos de seguridad, confiabilidad, costo y rendimiento.

La guía de esta sección no está completa. Según los requisitos de tu carga de trabajo y los productos y funciones de Google Cloud y de terceros que uses, es posible que debas considerar factores de diseño y compensaciones adicionales.

Diseño de sistemas

En esta sección, se proporciona orientación para que puedas elegir las regiones Google Cloud para tu implementación y seleccionar los productos y herramientas Google Cloud adecuados.

Selección de región

Cuando selecciones Google Cloud regiones para tus aplicaciones basadas en IA, ten en cuenta los siguientes factores:

Para seleccionar Google Cloud ubicaciones adecuadas para tus aplicaciones, usa las siguientes herramientas:

  • Google Cloud Selector de regiones: Es una herramienta interactiva basada en la Web para seleccionar la región Google Cloud óptima para tus aplicaciones y datos en función de factores como la huella de carbono, el costo y la latencia.
  • API de Cloud Location Finder: Es una API pública que proporciona una forma programática de encontrar ubicaciones de implementación en Google Cloud, Google Distributed Cloud y otros proveedores de servicios en la nube.

Diseño de agentes

En esta sección, se proporcionan recomendaciones generales para diseñar agentes de IA. La orientación detallada sobre cómo escribir código y lógica del agente está fuera del alcance de este documento.

Enfoque de diseño Recomendaciones
Definición y diseño del agente
  • Define claramente el objetivo comercial del sistema de IA basado en agentes y la tarea que realiza cada agente.
  • Usa un patrón de agente que satisfaga mejor tus requisitos.
  • Usa el ADK para crear, implementar y administrar de manera eficiente tu arquitectura basada en agentes.
Interacciones con el agente
  • Diseña los agentes orientados al usuario en la arquitectura para admitir interacciones en lenguaje natural.
  • Asegúrate de que cada agente comunique claramente sus acciones y su estado a sus clientes dependientes.
  • Diseña los agentes para que detecten y controlen las consultas ambiguas y las interacciones matizadas.
Contexto, herramientas y datos
  • Asegúrate de que los agentes tengan suficiente contexto para hacer un seguimiento de las interacciones de varios turnos y los parámetros de sesión.
  • Describe claramente el propósito, los argumentos y el uso de las herramientas que los agentes pueden usar.
  • Garantizar que las respuestas de los agentes se basen en fuentes de datos confiables para reducir las alucinaciones
  • Implementa lógica para controlar situaciones de no coincidencia, como cuando una instrucción está fuera de tema.

Seguridad

En esta sección, se describen las consideraciones y recomendaciones de diseño para crear una topología en Google Cloud que cumpla con los requisitos de seguridad de tu carga de trabajo.

Componente Consideraciones y recomendaciones de diseño
Agentes

Los agentes de IA introducen ciertos riesgos de seguridad únicos y críticos que las prácticas de seguridad convencionales y determinísticas tal vez no puedan mitigar de manera adecuada. Google recomienda un enfoque que combine las fortalezas de los controles de seguridad determinísticos con las defensas dinámicas basadas en el razonamiento. Este enfoque se basa en tres principios fundamentales: supervisión humana, autonomía del agente definida con cuidado y observabilidad. Las siguientes son recomendaciones específicas que se alinean con estos principios fundamentales.

Supervisión humana: A veces, un sistema de IA basado en agentes puede fallar o no funcionar según lo esperado. Por ejemplo, el modelo podría generar contenido impreciso o un agente podría seleccionar herramientas inapropiadas. En los sistemas de IA basados en agentes que son fundamentales para la empresa, incorpora un flujo de human-in-the-loop para permitir que los supervisores humanos monitoreen, anulen y pausen a los agentes en tiempo real. Por ejemplo, los usuarios humanos pueden revisar el resultado de los agentes, aprobarlo o rechazarlo, y brindar más orientación para corregir errores o tomar decisiones estratégicas. Este enfoque combina la eficiencia de los sistemas de IA basados en agentes con el pensamiento crítico y la experiencia en el dominio de los usuarios humanos.

Control de acceso para agentes: Configura los permisos de los agentes con los controles de Identity and Access Management (IAM). Otorga a cada agente solo los permisos que necesita para realizar sus tareas y comunicarse con las herramientas y otros agentes. Este enfoque ayuda a minimizar el impacto potencial de una vulneración de seguridad, ya que un agente comprometido tendría acceso limitado a otras partes del sistema. Para obtener más información, consulta Configura la identidad y los permisos de tu agente y Administra el acceso de los agentes implementados.

Supervisión: Supervisa el comportamiento del agente con capacidades de seguimiento integrales que te brindan visibilidad de cada acción que realiza un agente, incluido su proceso de razonamiento, la selección de herramientas y las rutas de ejecución. Para obtener más información, consulta Registro de un agente en Vertex AI Agent Engine y Registro en el ADK.

Para obtener más información sobre la protección de los agentes de IA, consulta Seguridad de los agentes de IA.

Vertex AI

Responsabilidad compartida: La seguridad es una responsabilidad compartida. Vertex AI protege la infraestructura subyacente y proporciona herramientas y controles de seguridad para ayudarte a proteger tus datos, código y modelos. Eres responsable de configurar correctamente tus servicios, administrar los controles de acceso y proteger tus aplicaciones. Para obtener más información, consulta Responsabilidad compartida de Vertex AI.

Controles de seguridad: Vertex AI admite Google Cloud controles de seguridad que puedes usar para cumplir con tus requisitos de residencia de datos, claves de encriptación administradas por el cliente (CMEK), seguridad de red con Controles del servicio de VPC y Transparencia de acceso. Para obtener más información, consulta la siguiente documentación:

Seguridad: Los modelos de IA pueden producir respuestas dañinas, en ocasiones, en respuesta a instrucciones maliciosas.

  • Para mejorar la seguridad y mitigar el posible uso inadecuado del sistema de IA con agentes, puedes configurar filtros de contenido que actúen como barreras para las entradas y respuestas dañinas. Para obtener más información, consulta Filtros de seguridad y contenido.
  • Para inspeccionar y depurar las solicitudes y respuestas de inferencia en busca de amenazas como la inyección de instrucciones y el contenido dañino, puedes usar Model Armor. Model Armor te ayuda a evitar la entrada maliciosa, verificar la seguridad del contenido, proteger los datos sensibles, mantener el cumplimiento y aplicar las políticas de seguridad de forma coherente.

Acceso al modelo: Puedes configurar políticas de la organización para limitar el tipo y las versiones de los modelos de IA que se pueden usar en un proyecto de Google Cloud . Para obtener más información, consulta Cómo controlar el acceso a los modelos de Model Garden.

Protección de datos: Para descubrir y desidentificar datos sensibles en las instrucciones y respuestas, y en los datos de registro, usa la API de Cloud Data Loss Prevention. Para obtener más información, mira este video: Protege datos sensibles en apps de IA.

MCP Consulta MCP y seguridad.
A2A

Seguridad del transporte: El protocolo A2A exige HTTPS para todas las comunicaciones A2A en entornos de producción y recomienda las versiones 1.2 o posteriores de la seguridad de la capa de transporte (TLS).

Autenticación: El protocolo A2A delega la autenticación a mecanismos web estándares, como los encabezados HTTP, y a estándares como OAuth2 y OpenID Connect. Cada agente anuncia los requisitos de autenticación en su tarjeta de agente. Para obtener más información, consulta Autenticación de A2A.

Cloud Run

Seguridad de entrada (para el servicio de frontend): Para controlar el acceso a la aplicación, inhabilita la URL run.app predeterminada del servicio de Cloud Run de frontend y configura un balanceador de cargas de aplicaciones externo regional. Además de balancear las cargas del tráfico entrante a la aplicación, el balanceador de cargas controla la administración de certificados SSL. Para mayor protección, puedes usar las políticas de seguridad de Google Cloud Armor para proporcionar filtrado de solicitudes, protección DSD y límite de frecuencia para el servicio.

Autenticación de usuarios: Para autenticar el acceso de los usuarios al servicio de Cloud Run de frontend, usa Identity-Aware Proxy (IAP). Cuando un usuario intenta acceder a un recurso protegido por IAP, IAP realiza verificaciones de autenticación y autorización. Para obtener más información, consulta Habilita IAP para Cloud Run.

Seguridad de imágenes de contenedor: Para garantizar que solo se implementen imágenes de contenedor autorizadas en Cloud Run, puedes usar la autorización binaria. Para identificar y mitigar los riesgos de seguridad en las imágenes de contenedor, usa Artifact Analysis para ejecutar automáticamente análisis de vulnerabilidades. Para obtener más información, consulta Descripción general del análisis de contenedores.

Residencia de datos: Cloud Run te ayuda a cumplir con los requisitos de residencia de datos. Tus Cloud Run Functions se ejecutan dentro de la región seleccionada.

Para obtener más orientación sobre la seguridad de los contenedores, consulta Sugerencias generales para el desarrollo de Cloud Run.

Todos los productos de la arquitectura

Encriptación de datos: De forma predeterminada, Google Cloud encripta los datos en reposo con Google-owned and Google-managed encryption keys. Para proteger los datos de tus agentes con claves de encriptación que controlas, puedes usar CMEK que creas y administras en Cloud KMS. Para obtener información sobre los servicios compatibles con Cloud KMS, consulta Servicios compatibles. Google Cloud

Mitiga el riesgo de robo de datos: Para reducir el riesgo de robo de datos, crea un perímetro de Controles del servicio de VPC alrededor de la infraestructura. Los Controles del servicio de VPC admiten todos los Google Cloud servicios que usa esta arquitectura de referencia.

Control de acceso: Cuando configures los permisos para los recursos de tu topología, sigue el principio de privilegio mínimo.

Optimización posterior a la implementación: Después de implementar tu aplicación en Google Cloud, obtén recomendaciones para optimizar aún más la seguridad con el Centro de recomendaciones de Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta Cómo encontrar recomendaciones en el Centro de recomendaciones.

Seguridad del entorno de nube: Usa las herramientas de Security Command Center para detectar vulnerabilidades, identificar y mitigar amenazas, definir y, luego, implementar una postura de seguridad, y exportar datos para su análisis posterior.

Más recomendaciones de seguridad

Confiabilidad

En esta sección, se describen las consideraciones y recomendaciones de diseño para compilar y operar una infraestructura confiable para tu implementación en Google Cloud.

Componente Consideraciones y recomendaciones de diseño
Agentes

Tolerancia a errores: Diseña el sistema de agentes para que tolere o controle las fallas a nivel del agente. Cuando sea posible, usa un enfoque descentralizado en el que los agentes puedan operar de forma independiente.

Simula fallas: Antes de implementar el sistema de IA con agentes en producción, valídalo simulando un entorno de producción. Identificar y corregir problemas de coordinación entre agentes y comportamientos inesperados

Manejo de errores: Para permitir el diagnóstico y la solución de problemas de errores, implementa mecanismos de registro, manejo de excepciones y reintentos.

Vertex AI

Administración de cuotas: Vertex AI admite la cuota compartida dinámica (DSQ) para los modelos de Gemini. DSQ ayuda a administrar de forma flexible las solicitudes de pago por uso y elimina la necesidad de administrar la cuota de forma manual o solicitar aumentos de cuota. DSQ asigna de forma dinámica los recursos disponibles para un modelo y una región determinados entre los clientes activos. Con DSQ, no hay límites de cuota predefinidos para los clientes individuales.

Planificación de la capacidad: Si la cantidad de solicitudes al modelo supera la capacidad asignada, se muestra el código de error 429. Para las cargas de trabajo que son fundamentales para la empresa y que requieren una capacidad de procesamiento alta de forma constante, puedes reservar capacidad de procesamiento con la capacidad de procesamiento aprovisionada.

Disponibilidad del extremo del modelo: Si los datos se pueden compartir en varias regiones o países, puedes usar un extremo global para el modelo.

Cloud Run Robustez ante interrupciones de la infraestructura: Cloud Run es un servicio regional. Almacena datos de forma síncrona en varias zonas dentro de una región y balancea automáticamente las cargas del tráfico entre las zonas. Si se produce una interrupción zonal, Cloud Run seguirá ejecutándose y no se perderán datos. Si se produce una interrupción regional, el servicio deja de ejecutarse hasta que Google resuelva la interrupción.
Todos los productos de la arquitectura Optimización posterior a la implementación: Después de implementar tu aplicación en Google Cloud, obtén recomendaciones para optimizar aún más la confiabilidad con el Centro de recomendaciones de Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta Cómo encontrar recomendaciones en el Centro de recomendaciones.

Para conocer los principios y las recomendaciones de confiabilidad específicos de las cargas de trabajo de IA y AA, consulta la perspectiva de IA y AA: Confiabilidad en Well-Architected Framework.

Operaciones

En esta sección, se describen los factores que debes tener en cuenta cuando usas esta arquitectura de referencia para diseñar una topología de Google Cloud que puedas operar de manera eficiente.

Componente Consideraciones y recomendaciones de diseño
Vertex AI

Supervisión con registros: De forma predeterminada, los registros del agente que se escriben en los flujos stdout y stderr se enrutan a Cloud Logging. Para un registro avanzado, puedes integrar el registrador de Python en Cloud Logging. Si necesitas control total sobre el registro y los registros estructurados, usa el cliente de Cloud Logging. Para obtener más información, consulta Cómo registrar un agente y Registro en el ADK.

Evaluación continua: Realiza periódicamente una evaluación cualitativa del resultado de los agentes y la trayectoria o los pasos que siguieron los agentes para producir el resultado. Para implementar la evaluación del agente, puedes usar el servicio de evaluación de IA generativa o los métodos de evaluación que admite el ADK.

MCP

Herramientas de bases de datos: Para administrar de manera eficiente las herramientas de bases de datos de tus agentes de IA y garantizar que los agentes manejen de forma segura complejidades como la agrupación de conexiones y la autenticación, usa MCP Toolbox for Databases. Proporciona una ubicación centralizada para almacenar y actualizar herramientas de bases de datos. Puedes compartir las herramientas entre los agentes y actualizarlas sin volver a implementarlos. La caja de herramientas incluye una amplia variedad de herramientas para bases de datos Google Cloud como AlloyDB para PostgreSQL y para bases de datos de terceros, como MongoDB.

Modelos de IA generativa: Para permitir que los agentes de IA usen modelos de IA generativa de Google, como Imagen y Veo, puedes usar servidores de MCP para las APIs de medios generativos. Google Cloud

Productos y herramientas de seguridad de Google: Para permitir que tus agentes de IA accedan a los productos y herramientas de seguridad de Google, como Google Security Operations, Google Threat Intelligence y Security Command Center, usa servidores de MCP para los productos de seguridad de Google.

Todos los Google Cloud productos de la arquitectura Seguimiento: Recopila y analiza datos de seguimiento de forma continua con Cloud Trace. Los datos de seguimiento te permiten identificar y diagnosticar rápidamente errores en flujos de trabajo complejos del agente. Puedes realizar análisis detallados a través de visualizaciones en la herramienta Explorador de Trace. Para obtener más información, consulta Cómo hacer un seguimiento de un agente.

Para conocer los principios y las recomendaciones de excelencia operativa específicos de las cargas de trabajo de IA y AA, consulta Perspectiva de IA y AA: excelencia operativa en Well-Architected Framework.

Optimización de costos

En esta sección, se proporciona orientación para optimizar el costo de configurar y operar una topología de Google Cloud que compilas a través de esta arquitectura de referencia.

Componente Consideraciones y recomendaciones de diseño>
Vertex AI

Análisis y administración de costos: Para analizar y administrar los costos de Vertex AI, te recomendamos que crees métricas de referencia para las consultas por segundo (QPS) y los tokens por segundo (TPS). Luego, supervisa estas métricas después de la implementación. La referencia también ayuda con la planificación de la capacidad. Por ejemplo, el valor de referencia te ayuda a determinar cuándo podría ser necesario el Provisioned Throughput.

Selección del modelo: El modelo que selecciones para tu aplicación de IA afecta directamente los costos y el rendimiento. Para identificar el modelo que proporciona un equilibrio óptimo entre el rendimiento y el costo para tu caso de uso específico, prueba los modelos de forma iterativa. Te recomendamos que comiences con el modelo más rentable y que avances gradualmente hacia opciones más potentes.

Instrucciones rentables: La longitud de tus instrucciones (entrada) y las respuestas generadas (salida) afectan directamente el rendimiento y el costo. Escribe instrucciones que sean breves, directas y proporcionen suficiente contexto. Diseña tus instrucciones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "Resume en 2 oraciones" o "Enumera 3 puntos clave". Para obtener más información, consulta las prácticas recomendadas para el diseño de instrucciones.

Almacenamiento de contexto en caché: Para reducir el costo de las solicitudes que contienen contenido repetido con altos recuentos de tokens de entrada, usa el almacenamiento de contexto en caché.

Solicitudes por lotes: Cuando sea pertinente, considera la predicción por lotes. Las solicitudes por lotes generan un costo menor que las solicitudes estándares.

Cloud Run

Asignación de recursos: Cuando creas un servicio de Cloud Run, puedes especificar la cantidad de memoria y CPU que se asignarán. Comienza con las asignaciones de CPU y memoria predeterminadas. Observa el uso y el costo de los recursos a lo largo del tiempo, y ajusta la asignación según sea necesario. Para obtener más información, consulta la siguiente documentación:

Optimización de tarifas: Si puedes predecir los requisitos de CPU y memoria, puedes ahorrar dinero con los descuentos por compromiso de uso (CUD).

Todos los productos de la arquitectura Optimización posterior a la implementación: Después de implementar tu aplicación en Google Cloud, obtén recomendaciones para optimizar aún más los costos con el Centro de recomendaciones de Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta Cómo encontrar recomendaciones en el Centro de recomendaciones.

Para estimar el costo de tus recursos de Google Cloud , usa la Google Cloud calculadora de precios.

Para conocer los principios y las recomendaciones de optimización de costos específicos para las cargas de trabajo de IA y AA, consulta Perspectiva de IA y AA: Optimización de costos en el Framework de Well-Architected.

Optimización del rendimiento

En esta sección, se describen las consideraciones y recomendaciones de diseño para crear una topología en Google Cloud que cumpla con los requisitos de rendimiento de tus cargas de trabajo.

Componente Consideraciones y recomendaciones de diseño
Agentes

Selección del modelo: Cuando selecciones modelos para tu sistema de IA agentiva, ten en cuenta las capacidades que se requieren para las tareas que deben realizar los agentes.

Optimización de instrucciones: Para mejorar y optimizar rápidamente el rendimiento de las instrucciones a gran escala y eliminar la necesidad de reescribirlas manualmente, usa el optimizador de instrucciones de Vertex AI. El optimizador te ayuda a adaptar de manera eficiente las instrucciones en diferentes modelos.

Vertex AI

Selección del modelo: El modelo que selecciones para tu aplicación de IA afecta directamente los costos y el rendimiento. Para identificar el modelo que proporciona un equilibrio óptimo entre el rendimiento y el costo para tu caso de uso específico, prueba los modelos de forma iterativa. Te recomendamos que comiences con el modelo más rentable y que avances gradualmente hacia opciones más potentes.

Ingeniería de instrucciones: La longitud de tus instrucciones (entrada) y las respuestas generadas (salida) afectan directamente el rendimiento y el costo. Escribe instrucciones que sean breves, directas y proporcionen suficiente contexto. Diseña tus instrucciones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "Resume en 2 oraciones" o "Enumera 3 puntos clave". Para obtener más información, consulta las prácticas recomendadas para el diseño de instrucciones.

Almacenamiento de contexto en caché: Para reducir la latencia de las solicitudes que contienen contenido repetido con recuentos altos de tokens de entrada, usa el almacenamiento de contexto en caché.

Cloud Run

Asignación de recursos: Según tus requisitos de rendimiento, configura la memoria y la CPU que se asignarán al servicio de Cloud Run. Para obtener más información, consulta la siguiente documentación:

Para obtener más orientación sobre la optimización del rendimiento, consulta Sugerencias generales para el desarrollo de Cloud Run.

Todos los productos de la arquitectura Optimización posterior a la implementación: Después de implementar tu aplicación en Google Cloud, obtén recomendaciones para optimizar aún más el rendimiento con el Centro de recomendaciones de Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta Cómo encontrar recomendaciones en el Centro de recomendaciones.

Si deseas conocer los principios y las recomendaciones de optimización del rendimiento específicos para las cargas de trabajo de IA y AA, consulta Perspectiva de IA y AA: Optimización del rendimiento en Well-Architected Framework.

Implementación

Para aprender a compilar e implementar sistemas de IA con varios agentes, usa los siguientes ejemplos de código. Estas muestras de código son puntos de partida completamente funcionales para el aprendizaje y la experimentación. Para un funcionamiento óptimo en entornos de producción, debes personalizar el código según tus requisitos comerciales y técnicos específicos.

  • Asesor financiero: Analiza datos del mercado de valores, crea estrategias de negociación, define planes de ejecución y evalúa riesgos.
  • Asistente de investigación: Planifica y realiza investigaciones, evalúa los hallazgos y redacta un informe de investigación.
  • Agente de seguros: Crea membresías, brinda asistencia en ruta y gestiona reclamos de seguros.
  • Optimizador de búsqueda: Encuentra palabras clave de búsqueda, analiza páginas web y proporciona sugerencias para optimizar la búsqueda.
  • Analizador de datos: Recupera datos, realiza manipulaciones complejas, genera visualizaciones y ejecuta tareas de AA.
  • Agente de marketing web: Elige un nombre de dominio, diseña un sitio web, crea campañas y produce contenido.
  • Planificador de Airbnb (con A2A y MCP): Para una ubicación y hora determinadas, busca anuncios de Airbnb y obtén información del clima.

Si deseas ver muestras de código para comenzar a usar el ADK junto con los servidores de MCP, consulta Herramientas de MCP.

¿Qué sigue?

Colaboradores

Autor: Kumar Dhanagopal | Desarrollador de soluciones entre productos

Otros colaboradores: