Esta página foi traduzida pela API Cloud Translation.

Sistema de IA multiagente no Google Cloud

Last reviewed 2025-09-16 UTC

Este documento fornece uma arquitetura de referência para ajudar você a projetar sistemas de IA multiagente robustos em Google Cloud. Um sistema de IA multiagente otimiza processos complexos e dinâmicos segmentando-os em tarefas discretas que vários agentes de IA especializados executam em colaboração.

O público-alvo deste documento inclui arquitetos, desenvolvedores e administradores que criam e gerenciam infraestrutura e aplicativos de IA na nuvem. Este documento pressupõe uma compreensão básica de agentes e modelos de IA. O documento não oferece orientações específicas para projetar e programar agentes de IA.

Arquitetura

O diagrama a seguir mostra uma arquitetura para um exemplo de sistema de IA multiagente implantado no Google Cloud.

Arquitetura de um sistema de IA multiagente em Google Cloud.

Componentes de arquitetura

A arquitetura de exemplo na seção anterior contém os seguintes componentes:

Componente	Descrição
Front-end	Os usuários interagem com o sistema multiagente por um front-end, como uma interface de chat, que é executada como um serviço sem servidor do Cloud Run.
Agentes	Um agente coordenador controla o sistema de IA agêntica neste exemplo. O agente coordenador invoca um subagente adequado para acionar o fluxo de agente. Os agentes podem se comunicar usando o protocolo Agent2Agent (A2A), que permite a interoperabilidade entre agentes, independentemente da linguagem de programação e do tempo de execução. O exemplo de arquitetura mostra agentes em um padrão sequencial e um padrão de refinamento iterativo. Para mais informações sobre os subagentes neste exemplo, consulte a seção Fluxo de agente.
Ambiente de execução de agentes	Os agentes de IA podem ser implantados como serviços sem servidor do Cloud Run, como apps em contêineres no Google Kubernetes Engine (GKE) ou no Vertex AI Agent Engine.
ADK	O Agent Development Kit (ADK) oferece ferramentas e um framework para desenvolver, testar e implantar agentes. O ADK abstrai a complexidade da criação de agentes e permite que os desenvolvedores de IA se concentrem na lógica e nos recursos do agente.
Modelos de IA e tempos de execução de modelos	Para veiculação de inferência, os agentes nesta arquitetura de exemplo usam um modelo de IA na Vertex AI. A arquitetura mostra o Cloud Run e o GKE como runtimes alternativos para o modelo de IA que você escolher usar.
Model Armor	O Model Armor permite a inspeção e a limpeza de entradas e respostas para modelos implantados na Vertex AI e no GKE. Para mais informações, consulte Integração do Model Armor com serviços do Google Cloud .
Clientes, servidores e ferramentas do MCP	O Protocolo de Contexto de Modelo (MCP) facilita o acesso a ferramentas padronizando a interação entre agentes e ferramentas. Para cada par agente-ferramenta, um cliente MCP envia solicitações a um servidor MCP pelo qual o agente acessa uma ferramenta, como um banco de dados, um sistema de arquivos ou uma API.

Fluxo agêntico

O exemplo de sistema multiagente na arquitetura anterior tem o seguinte fluxo:

Um usuário insere um comando em um front-end, como uma interface de chat, que é executado como um serviço sem servidor do Cloud Run.
O front-end encaminha o comando para um agente coordenador.
O agente coordenador inicia um dos seguintes fluxos de agente com base na intenção expressa no comando.
- Sequencial:
  1. O subagente de tarefa A realiza uma tarefa.
  2. O subagente da tarefa A invoca o subagente da tarefa A.1.
- Refinamento iterativo:
  1. O subagente da tarefa B realiza uma tarefa.
  2. O subagente avaliador de qualidade analisa a saída do subagente da tarefa B.
  3. Se a saída não for satisfatória, o avaliador de qualidade vai invocar o subagente de melhoria de comandos para refinar o comando.
  4. O subagente da tarefa B executa a tarefa novamente usando o comando aprimorado.
  Esse ciclo continua até que a saída seja satisfatória ou o número máximo de iterações seja atingido.
A arquitetura de exemplo inclui um caminho human-in-the-loop para permitir que usuários humanos intervenham no fluxo de agentes quando necessário.
O subagente da tarefa A.1 e o subagente avaliador de qualidade invocam de forma independente o subagente gerador de respostas.
O subagente gerador de respostas gera uma resposta, realiza validação e verificações de embasamento e envia a resposta final ao usuário pelo agente coordenador.

Produtos e ferramentas usados

Esta arquitetura de referência usa os seguintes produtos e ferramentas Google Cloud e de terceiros:

Cloud Run: uma plataforma de computação sem servidor que permite executar contêineres diretamente na infraestrutura escalonável do Google.
Vertex AI: uma plataforma de ML que permite treinar e implantar modelos de ML e aplicativos de IA, além de personalizar LLMs para uso em aplicativos com tecnologia de IA.
Google Kubernetes Engine (GKE): um serviço do Kubernetes que pode ser usado para implantar e operar aplicativos conteinerizados em escala usando a infraestrutura do Google.
Model Armor: um serviço que protege seus recursos de IA generativa e baseada em agentes contra injeção de comandos, vazamentos de dados sensíveis e conteúdo nocivo.
Kit de desenvolvimento de agentes (ADK): um conjunto de ferramentas e bibliotecas para desenvolver, testar e implantar agentes de IA.
Protocolo Agent2Agent (A2A): um protocolo aberto que permite a comunicação e a interoperabilidade entre agentes, independentemente da linguagem de programação e do tempo de execução.
Protocolo de Contexto de Modelo (MCP): um padrão de código aberto para conectar aplicativos de IA a sistemas externos.

Casos de uso

Os sistemas de IA multiagentes são adequados para casos de uso complexos que exigem colaboração e coordenação em vários conjuntos de habilidades especializadas para alcançar uma meta de negócios. Para identificar casos de uso adequados para sistemas de IA multiagente, analise seus processos de negócios e identifique tarefas específicas que a IA pode aprimorar. Concentre-se em resultados comerciais tangíveis, como redução de custos e aceleração do processamento. Essa abordagem ajuda a alinhar seus investimentos em IA com o valor comercial.

Confira a seguir exemplos de casos de uso para sistemas de IA multiagentes.

Consultor financeiro

Fornecer recomendações personalizadas de negociação de ações e executar negociações. O diagrama a seguir mostra um exemplo de fluxo de agente para esse caso de uso. Este exemplo usa um padrão sequencial.

Caso de uso de um consultor financeiro para um sistema multiagente.

O diagrama mostra o seguinte fluxo:

Um agente de recuperação de dados extrai preços de ações em tempo real e históricos, relatórios financeiros de empresas e outros dados relevantes de fontes confiáveis.
Um agente de análise financeira aplica técnicas adequadas de análise e criação de gráficos aos dados, identifica padrões de movimentação de preços e faz previsões.
Um agente de recomendação de ações usa a análise e os gráficos para gerar recomendações personalizadas de compra e venda de ações específicas com base no perfil de risco e nas metas de investimento do usuário.
Um agente de execução de negociações compra e vende ações em nome do usuário.

Assistente de pesquisa

Crie um plano de pesquisa, colete informações, avalie e refine a pesquisa e, em seguida, elabore um relatório. O diagrama a seguir mostra um exemplo de fluxo de agente para esse caso de uso. O fluxo principal neste exemplo usa um padrão sequencial. O exemplo também inclui um padrão de refinamento iterativo.

Caso de uso de assistente de pesquisa para um sistema multiagente.

O diagrama mostra o seguinte fluxo:

Um agente de planejamento cria um plano de pesquisa detalhado.
Um agente de pesquisa conclui as seguintes tarefas:
1. Usa o plano de pesquisa para identificar fontes de dados internas e externas adequadas.
2. Reúne e analisa os dados necessários.
3. Prepara um resumo da pesquisa e o envia a um agente avaliador.
O agente pesquisador repete essas tarefas até que o agente avaliador aprove a pesquisa.
Um agente de criação de relatórios cria o relatório final da pesquisa.

Otimizador da cadeia de suprimentos

Otimize o inventário, rastreie remessas e se comunique com parceiros da cadeia de suprimentos. O diagrama a seguir mostra um exemplo de fluxo de agente para esse caso de uso. Este exemplo usa um padrão sequencial.

Caso de uso do otimizador da cadeia de suprimentos para um sistema multiagente.

Um agente gerente de armazém garante níveis de estoque ideais criando pedidos de reposição com base no inventário, nas previsões de demanda e nos prazos de entrega dos fornecedores.
- O agente interage com o rastreador de envios para acompanhar as entregas.
- O agente interage com o comunicador do fornecedor para notificar os fornecedores sobre mudanças nos pedidos.
Um agente de rastreamento de remessas garante o atendimento eficiente e pontual dos pedidos ao se integrar às plataformas de logística e aos sistemas das transportadoras.
Um agente de comunicação com fornecedores se comunica com fornecedores externos em nome dos outros agentes no sistema.

Considerações sobre o design

Nesta seção, descrevemos fatores de design, práticas recomendadas e recomendações a serem consideradas ao usar essa arquitetura de referência para desenvolver uma topologia que atenda aos seus requisitos específicos de segurança, confiabilidade, custo e desempenho.

As orientações desta seção não são completas. Dependendo dos requisitos da sua carga de trabalho e dos produtos e recursos do Google Cloud e de terceiros que você usa, pode haver outros fatores de design e compensações que você precisa considerar.

design do sistema

Nesta seção, fornecemos orientações para ajudar você a escolher Google Cloud regiões para sua implantação e selecionar os Google Cloud produtos e ferramentas adequados.

Seleção da região

Ao selecionar Google Cloud regiões para seus aplicativos de IA, considere os seguintes fatores:

Disponibilidade dos serviços do Google Cloud em cada região.
Requisitos de latência do usuário final.
Custo dos recursos Google Cloud .
Requisitos regulatórios.

Para selecionar locais Google Cloud adequados para seus aplicativos, use as seguintes ferramentas:

Google Cloud Seletor de região: uma ferramenta interativa baseada na Web para selecionar a região ideal do Google Cloud para seus aplicativos e dados com base em fatores como pegada de carbono, custo e latência.
API Cloud Location Finder: uma API pública que oferece uma maneira programática de encontrar locais de implantação em Google Cloud, Google Distributed Cloud e outros provedores de nuvem.

Design do agente

Esta seção fornece recomendações gerais para criar agentes de IA. Orientações detalhadas sobre como escrever código e lógica de agente estão fora do escopo deste documento.

Foco no design	Recomendações
Definição e design do agente	Defina claramente a meta de negócios do sistema de IA agêntica e a tarefa que cada agente realiza. Escolha um padrão de design de agente que atenda melhor aos seus requisitos. Use o ADK para criar, implantar e gerenciar com eficiência sua arquitetura de agentes.
Interações com agentes	Projete os agentes voltados para humanos na arquitetura para oferecer suporte a interações em linguagem natural. Verifique se cada agente comunica claramente as ações e o status aos clientes dependentes. Projete os agentes para detectar e processar consultas ambíguas e interações sutis.
Contexto, ferramentas e dados	Verifique se os agentes têm contexto suficiente para rastrear interações de várias rodadas e parâmetros de sessão. Descreva com clareza a finalidade, os argumentos e o uso das ferramentas que os agentes podem usar. Garanta que as respostas dos agentes sejam baseadas em fontes de dados confiáveis para reduzir as alucinações. Implemente uma lógica para lidar com situações de não correspondência, como quando um comando não tem relação com o tema.

Segurança

Nesta seção, descrevemos considerações e recomendações de design para criar uma topologia no Google Cloud que atenda aos requisitos de segurança da sua carga de trabalho.

Componente	Considerações e recomendações de design
Agentes	Os agentes de IA apresentam riscos de segurança exclusivos e críticos que as práticas de segurança convencionais e deterministas talvez não consigam mitigar adequadamente. O Google recomenda uma abordagem que combine os pontos fortes dos controles de segurança deterministas com defesas dinâmicas baseadas em raciocínio. Essa abordagem se baseia em três princípios fundamentais: supervisão humana, autonomia do agente cuidadosamente definida e capacidade de observação. Confira a seguir algumas recomendações específicas alinhadas a esses princípios básicos. Supervisão humana: um sistema de IA agêntica pode falhar ou não funcionar como esperado. Por exemplo, o modelo pode gerar conteúdo impreciso ou um agente pode selecionar ferramentas inadequadas. Em sistemas de IA agêntica essenciais para os negócios, incorpore um fluxo human-in-the-loop para permitir que supervisores humanos monitorem, substituam e pausem agentes. Por exemplo, os usuários humanos podem revisar a saída dos agentes, aprovar ou rejeitar as saídas e fornecer mais orientações para corrigir erros ou tomar decisões estratégicas. Essa abordagem combina a eficiência dos sistemas de IA agêntica com o pensamento crítico e a experiência no assunto dos usuários humanos. Controle de acesso para agentes: configure as permissões de agente usando os controles do Identity and Access Management (IAM). Conceda a cada agente apenas as permissões necessárias para realizar as tarefas e se comunicar com ferramentas e outros agentes. Essa abordagem ajuda a minimizar o possível impacto de uma violação de segurança, porque um agente comprometido teria acesso limitado a outras partes do sistema. Para mais informações, consulte Configurar a identidade e as permissões do seu agente e Gerenciar o acesso de agentes implantados. Monitoramento: monitore o comportamento do agente usando recursos abrangentes de rastreamento que oferecem visibilidade sobre todas as ações que um agente realiza, incluindo o processo de raciocínio, a seleção de ferramentas e os caminhos de execução. Para mais informações, consulte Registro de um agente no Vertex AI Agent Engine e Registro no ADK. Para mais informações sobre como proteger agentes de IA, consulte Segurança para agentes de IA.
Vertex AI	Responsabilidade compartilhada: a segurança é uma responsabilidade compartilhada. A Vertex AI protege a infraestrutura subjacente e fornece ferramentas e controles de segurança para ajudar você a proteger seus dados, códigos e modelos. Você é responsável por configurar corretamente seus serviços, gerenciar controles de acesso e proteger seus aplicativos. Para mais informações, consulte Responsabilidade compartilhada da Vertex AI. Controles de segurança: a Vertex AI é compatível com controles de segurança Google Cloud que podem ser usados para atender aos seus requisitos de residência de dados, chaves de criptografia gerenciadas pelo cliente (CMEK), segurança de rede usando VPC Service Controls e transparência no acesso. Para mais informações, consulte a seguinte documentação: Controles de segurança para a Vertex AI Controles de segurança para IA generativa IA generativa e retenção de dados zero Segurança: os modelos de IA podem produzir respostas nocivas, às vezes em resposta a comandos maliciosos. Para aumentar a segurança e mitigar o possível uso indevido do sistema de IA autônoma, configure filtros de conteúdo para agir como barreiras contra entradas e respostas nocivas. Para mais informações, consulte Filtros de segurança e conteúdo. Para inspecionar e higienizar solicitações e respostas de inferência contra ameaças como injeção de comandos e conteúdo nocivo, use o Model Armor. O Model Armor ajuda a evitar entradas maliciosas, verificar a segurança do conteúdo, proteger dados sensíveis, manter a conformidade e aplicar políticas de segurança de forma consistente. Acesso ao modelo: é possível configurar políticas da organização para limitar o tipo e as versões de modelos de IA que podem ser usados em um projeto Google Cloud . Para mais informações, consulte Controlar o acesso aos modelos do Model Garden. Proteção de dados: para descobrir e desidentificar dados sensíveis nas solicitações e respostas e nos dados de registro, use a API Cloud Data Loss Prevention. Para mais informações, assista este vídeo: Proteção de dados sensíveis em apps de IA.
MCP	Consulte MCP e segurança.
A2A	Segurança de transporte: o protocolo A2A exige HTTPS para toda a comunicação A2A em ambientes de produção e recomenda as versões 1.2 ou mais recentes do Transport Layer Security (TLS). Autenticação: o protocolo A2A delega a autenticação a mecanismos da Web padrão, como cabeçalhos HTTP, e a padrões como OAuth2 e OpenID Connect. Cada agente anuncia os requisitos de autenticação no card dele. Para mais informações, consulte Autenticação A2A.
Cloud Run	Segurança de entrada (para o serviço de front-end): para controlar o acesso ao aplicativo, desative o URL `run.app` padrão do serviço do Cloud Run de front-end e configure um balanceador de carga de aplicativo externo regional. Além de balancear a carga do tráfego de entrada para o aplicativo, o balanceador de carga gerencia os certificados SSL. Para mais proteção, use as políticas de segurança do Google Cloud Armor para fornecer filtragem de solicitações, proteção contra DDoS e limitação de taxa para o serviço. Autenticação de usuário: para autenticar o acesso do usuário ao serviço de front-end do Cloud Run, use o Identity-Aware Proxy (IAP). Quando um usuário tenta acessar um recurso protegido pelo IAP, o IAP realiza verificações de autenticação e autorização. Para mais informações, consulte Como ativar o IAP para o Cloud Run. Segurança de imagens de contêiner: para garantir que apenas imagens de contêiner autorizadas sejam implantadas no Cloud Run, use a autorização binária. Para identificar e reduzir os riscos de segurança nas imagens de contêiner, use o Artifact Analysis para executar automaticamente verificações de vulnerabilidade. Para mais informações, consulte Visão geral da verificação de contêineres. Residência de dados: o Cloud Run ajuda você a atender aos requisitos de residência de dados. As funções do Cloud Run são executadas na região selecionada. Para mais orientações sobre segurança de contêineres, consulte Dicas gerais de desenvolvimento do Cloud Run.
Todos os produtos na arquitetura	Criptografia de dados: por padrão,o Google Cloud criptografa dados em repouso usando o Google-owned and Google-managed encryption keys. Para proteger os dados dos seus agentes usando chaves de criptografia controladas por você, use CMEKs criadas e gerenciadas no Cloud KMS. Para informações sobre serviços Google Cloud compatíveis com o Cloud KMS, consulte Serviços compatíveis. Reduza o risco de exfiltração de dados: para reduzir o risco de exfiltração de dados, crie um perímetro do VPC Service Controls em torno da infraestrutura. O VPC Service Controls é compatível com todos os serviços Google Cloud usados por esta arquitetura de referência. Controle de acesso: ao configurar permissões para os recursos na sua topologia, siga o princípio do privilégio mínimo. Segurança do ambiente de nuvem: use as ferramentas do Security Command Center para detectar vulnerabilidades, identificar e reduzir ameaças, definir e implantar uma postura de segurança e exportar dados para análise mais detalhada. Otimização pós-implantação: depois de implantar o aplicativo no Google Cloud, receba recomendações para otimizar ainda mais a segurança usando o Active Assist. Revise as recomendações e aplique-as conforme apropriado para seu ambiente. Para mais informações, consulte Encontrar recomendações no Active Assist.

Mais recomendações de segurança

Confiabilidade

Esta seção descreve considerações e recomendações de design para criar e operar uma infraestrutura confiável para sua implantação em Google Cloud.

Componente	Considerações e recomendações de design
Agentes	Tolerância a falhas: projete o sistema agêntico para tolerar ou processar falhas no nível do agente. Sempre que possível, use uma abordagem descentralizada em que os agentes possam operar de forma independente. Simule falhas: antes de implantar o sistema de IA agente na produção, valide-o simulando um ambiente de produção. Identificar e corrigir problemas de coordenação entre agentes e comportamentos inesperados. Tratamento de erros: para permitir o diagnóstico e a solução de problemas, implemente mecanismos de registro, tratamento de exceções e novas tentativas.
Vertex AI	Gerenciamento de cotas: a Vertex AI oferece suporte à cota compartilhada dinâmica (DSQ, na sigla em inglês) para modelos do Gemini. O DSQ ajuda a gerenciar de maneira flexível as solicitações de pagamento conforme o uso e elimina a necessidade de gerenciar a cota manualmente ou solicitar aumentos. A DSQ aloca dinamicamente os recursos disponíveis para um determinado modelo e região entre os clientes ativos. Com o DSQ, não há limites de cota predefinidos para clientes individuais. Planejamento de capacidade: se o número de solicitações ao modelo exceder a capacidade alocada, o código de erro 429 será retornado. Para cargas de trabalho essenciais para os negócios e que exigem capacidade de processamento consistentemente alta, é possível reservar capacidade de processamento usando a capacidade de processamento provisionada. Disponibilidade do endpoint do modelo: se os dados puderem ser compartilhados em várias regiões ou países, use um endpoint global para o modelo.
Cloud Run	Robustez contra interrupções na infraestrutura: o Cloud Run é um serviço regional. Ele armazena dados de forma síncrona em várias zonas dentro de uma região e faz o balanceamento de carga automático do tráfego entre as zonas. Em caso de interrupção do serviço na zona, o Cloud Run continua em execução e os dados não são perdidos. Se ocorrer uma interrupção do serviço na região, o serviço vai parar de ser executado até que o Google resolva essa interrupção.
Todos os produtos na arquitetura	Otimização pós-implantação: depois de implantar o aplicativo em Google Cloud, receba recomendações para otimizar ainda mais a confiabilidade usando o Active Assist. Revise as recomendações e aplique-as conforme apropriado para seu ambiente. Para mais informações, consulte Encontrar recomendações no Active Assist.

Para princípios e recomendações de confiabilidade específicos para cargas de trabalho de IA e ML, consulte Perspectiva de IA e ML: confiabilidade no framework bem arquitetado.

Operações

Nesta seção, descrevemos os fatores que você precisa considerar ao usar essa arquitetura de referência para projetar uma topologia de Google Cloud que possa ser operada de maneira eficiente.

Componente Considerações e recomendações de design

Vertex AI

Componente	Considerações e recomendações de design
Vertex AI	Monitoramento usando registros: por padrão, os registros do agente gravados nos streams `stdout` e `stderr` são encaminhados para o Cloud Logging. Para geração de registros avançada, é possível integrar o logger do Python ao Cloud Logging. Se você precisar de controle total sobre o registro e os registros estruturados, use o cliente do Cloud Logging. Para mais informações, consulte Registro de um agente e Registro no ADK. Avaliação contínua: faça regularmente uma avaliação qualitativa da saída dos agentes e da trajetória ou das etapas realizadas pelos agentes para produzir a saída. Para implementar a avaliação de agentes, use o serviço de avaliação de IA generativa ou os métodos de avaliação compatíveis com o ADK.
MCP	Ferramentas de banco de dados: para gerenciar com eficiência as ferramentas de banco de dados dos seus agentes de IA e garantir que eles lidem com segurança com complexidades como pool de conexões e autenticação, use a MCP Toolbox para bancos de dados. Ele oferece um local centralizado para armazenar e atualizar ferramentas de banco de dados. É possível compartilhar as ferramentas entre agentes e atualizá-las sem precisar reimplantar os agentes. A caixa de ferramentas inclui uma ampla variedade de ferramentas para bancos de dados Google Cloud, como o AlloyDB para PostgreSQL, e para bancos de dados de terceiros, como o MongoDB. Modelos de IA generativa: para permitir que os agentes de IA usem modelos de IA generativa do Google, como o Imagen e o Veo, use os servidores do MCP para APIs de mídia generativa do Google Cloud. Produtos e ferramentas de segurança do Google: para permitir que seus agentes de IA acessem produtos e ferramentas de segurança do Google, como o Google Security Operations, o Google Threat Intelligence e o Security Command Center, use servidores MCP para produtos de segurança do Google.
Todos os produtos Google Cloud na arquitetura	Rastreamento: colete e analise continuamente dados de rastreamento usando o Cloud Trace. Com os dados de rastreamento, é possível identificar e diagnosticar rapidamente erros em fluxos de trabalho complexos de agentes. É possível fazer análises detalhadas com visualizações na ferramenta Explorador de traces. Para mais informações, consulte Rastrear um agente.

Monitoramento usando registros: por padrão, os registros do agente gravados nos streams stdout e stderr são encaminhados para o Cloud Logging. Para geração de registros avançada, é possível integrar o logger do Python ao Cloud Logging. Se você precisar de controle total sobre o registro e os registros estruturados, use o cliente do Cloud Logging. Para mais informações, consulte Registro de um agente e Registro no ADK.

Avaliação contínua: faça regularmente uma avaliação qualitativa da saída dos agentes e da trajetória ou das etapas realizadas pelos agentes para produzir a saída. Para implementar a avaliação de agentes, use o serviço de avaliação de IA generativa ou os métodos de avaliação compatíveis com o ADK.

MCP

Ferramentas de banco de dados: para gerenciar com eficiência as ferramentas de banco de dados dos seus agentes de IA e garantir que eles lidem com segurança com complexidades como pool de conexões e autenticação, use a MCP Toolbox para bancos de dados. Ele oferece um local centralizado para armazenar e atualizar ferramentas de banco de dados. É possível compartilhar as ferramentas entre agentes e atualizá-las sem precisar reimplantar os agentes. A caixa de ferramentas inclui uma ampla variedade de ferramentas para bancos de dados Google Cloud, como o AlloyDB para PostgreSQL, e para bancos de dados de terceiros, como o MongoDB.

Modelos de IA generativa: para permitir que os agentes de IA usem modelos de IA generativa do Google, como o Imagen e o Veo, use os servidores do MCP para APIs de mídia generativa do Google Cloud.

Produtos e ferramentas de segurança do Google: para permitir que seus agentes de IA acessem produtos e ferramentas de segurança do Google, como o Google Security Operations, o Google Threat Intelligence e o Security Command Center, use servidores MCP para produtos de segurança do Google.

Todos os produtos Google Cloud na arquitetura Rastreamento: colete e analise continuamente dados de rastreamento usando o Cloud Trace. Com os dados de rastreamento, é possível identificar e diagnosticar rapidamente erros em fluxos de trabalho complexos de agentes. É possível fazer análises detalhadas com visualizações na ferramenta Explorador de traces. Para mais informações, consulte Rastrear um agente.

Para princípios e recomendações de excelência operacional específicos para cargas de trabalho de IA e ML, consulte Perspectiva de IA e ML: excelência operacional no framework bem arquitetado.

Otimização de custos

Nesta seção, você encontra orientações para otimizar o custo de configuração e operação de uma topologia Google Cloud criada usando essa arquitetura de referência.

Componente	Considerações e recomendações de design
Vertex AI	Análise e gerenciamento de custos: para analisar e gerenciar os custos da Vertex AI, recomendamos que você crie métricas de base para consultas por segundo (QPS) e tokens por segundo (TPS). Em seguida, monitore essas métricas após a implantação. A média também ajuda no planejamento da capacidade. Por exemplo, o valor de referência ajuda a determinar quando a capacidade de processamento provisionada pode ser necessária. Seleção de modelo: o modelo selecionado para seu aplicativo de IA afeta diretamente os custos e o desempenho. Para identificar o modelo que oferece um equilíbrio ideal entre desempenho e custo para seu caso de uso específico, teste os modelos de forma iterativa. Recomendamos começar com o modelo mais econômico e avançar gradualmente para opções mais potentes. Comandos econômicos: o tamanho dos comandos (entrada) e das respostas geradas (saída) afeta diretamente a performance e o custo. Escreva comandos curtos, diretos e que forneçam contexto suficiente. Crie comandos para receber respostas concisas do modelo. Por exemplo, inclua frases como "resuma em duas frases" ou "liste três pontos principais". Para mais informações, consulte as práticas recomendadas para criação de comandos. Armazenamento em cache de contexto: para reduzir o custo das solicitações que contêm conteúdo repetido com altas contagens de tokens de entrada, use o armazenamento em cache de contexto. Solicitações em lote: quando relevante, considere a previsão em lote. As solicitações em lote têm um custo menor do que as solicitações padrão.
Cloud Run	Alocação de recursos: ao criar um serviço do Cloud Run, é possível especificar a quantidade de memória e CPU a serem alocadas. Comece com as alocações padrão de CPU e memória. Observe o uso e o custo dos recursos ao longo do tempo e ajuste a alocação conforme necessário. Para mais informações, consulte a seguinte documentação: Configurar limites de memória para serviços Configurar limites de CPU para serviços Otimização de taxas: se você conseguir prever os requisitos de CPU e memória, poderá economizar dinheiro com descontos por compromisso de uso (CUDs).
Todos os produtos na arquitetura	Otimização pós-implantação: depois de implantar o aplicativo em Google Cloud, receba recomendações para otimizar ainda mais o custo usando o Active Assist. Revise as recomendações e aplique-as conforme apropriado para seu ambiente. Para mais informações, consulte Encontrar recomendações no Active Assist.

Componente

Considerações e recomendações de design

Vertex AI

Análise e gerenciamento de custos: para analisar e gerenciar os custos da Vertex AI, recomendamos que você crie métricas de base para consultas por segundo (QPS) e tokens por segundo (TPS). Em seguida, monitore essas métricas após a implantação. A média também ajuda no planejamento da capacidade. Por exemplo, o valor de referência ajuda a determinar quando a capacidade de processamento provisionada pode ser necessária.

Seleção de modelo: o modelo selecionado para seu aplicativo de IA afeta diretamente os custos e o desempenho. Para identificar o modelo que oferece um equilíbrio ideal entre desempenho e custo para seu caso de uso específico, teste os modelos de forma iterativa. Recomendamos começar com o modelo mais econômico e avançar gradualmente para opções mais potentes.

Comandos econômicos: o tamanho dos comandos (entrada) e das respostas geradas (saída) afeta diretamente a performance e o custo. Escreva comandos curtos, diretos e que forneçam contexto suficiente. Crie comandos para receber respostas concisas do modelo. Por exemplo, inclua frases como "resuma em duas frases" ou "liste três pontos principais". Para mais informações, consulte as práticas recomendadas para criação de comandos.

Armazenamento em cache de contexto: para reduzir o custo das solicitações que contêm conteúdo repetido com altas contagens de tokens de entrada, use o armazenamento em cache de contexto.

Solicitações em lote: quando relevante, considere a previsão em lote. As solicitações em lote têm um custo menor do que as solicitações padrão.

Cloud Run

Alocação de recursos: ao criar um serviço do Cloud Run, é possível especificar a quantidade de memória e CPU a serem alocadas. Comece com as alocações padrão de CPU e memória. Observe o uso e o custo dos recursos ao longo do tempo e ajuste a alocação conforme necessário. Para mais informações, consulte a seguinte documentação:

Otimização de taxas: se você conseguir prever os requisitos de CPU e memória, poderá economizar dinheiro com descontos por compromisso de uso (CUDs).

Todos os produtos na arquitetura

Otimização pós-implantação: depois de implantar o aplicativo em Google Cloud, receba recomendações para otimizar ainda mais o custo usando o Active Assist. Revise as recomendações e aplique-as conforme apropriado para seu ambiente. Para mais informações, consulte Encontrar recomendações no Active Assist.

Para estimar o custo dos seus recursos do Google Cloud , use a calculadora de preços doGoogle Cloud .

Para princípios e recomendações de otimização de custos específicos para cargas de trabalho de IA e ML, consulte Perspectiva de IA e ML: otimização de custos no Framework bem arquitetado.

Otimização de desempenho

Nesta seção, descrevemos considerações e recomendações de design para criar uma topologia em Google Cloud que atenda aos requisitos de desempenho das suas cargas de trabalho.

Componente	Considerações e recomendações de design
Agentes	Seleção de modelo: ao selecionar modelos para seu sistema de IA agêntica, considere as capacidades necessárias para as tarefas que os agentes precisam realizar. Otimização de comandos: para melhorar e otimizar rapidamente o desempenho de comandos em grande escala e eliminar a necessidade de reescrita manual, use o otimizador de comandos da Vertex AI. O otimizador ajuda você a adaptar comandos de maneira eficiente em diferentes modelos.
Vertex AI	Seleção de modelo: o modelo selecionado para seu aplicativo de IA afeta diretamente os custos e o desempenho. Para identificar o modelo que oferece um equilíbrio ideal entre desempenho e custo para seu caso de uso específico, teste os modelos de forma iterativa. Recomendamos começar com o modelo mais econômico e avançar gradualmente para opções mais potentes. Engenharia de comando: o tamanho dos comandos (entrada) e das respostas geradas (saída) afeta diretamente o desempenho e o custo. Escreva comandos curtos, diretos e que forneçam contexto suficiente. Crie comandos para receber respostas concisas do modelo. Por exemplo, inclua frases como "resuma em duas frases" ou "liste três pontos principais". Para mais informações, consulte as práticas recomendadas para criação de comandos. Armazenamento em cache de contexto: para reduzir a latência de solicitações que contêm conteúdo repetido com altas contagens de tokens de entrada, use o armazenamento em cache de contexto.
Cloud Run	Alocação de recursos: dependendo dos requisitos de desempenho, configure a memória e a CPU a serem alocadas para o serviço do Cloud Run. Para mais informações, consulte a seguinte documentação: Configurar limites de memória para serviços Configurar limites de CPU para serviços Para mais orientações sobre otimização de performance, consulte Dicas gerais de desenvolvimento do Cloud Run.
Todos os produtos na arquitetura	Otimização pós-implantação: depois de implantar o aplicativo em Google Cloud, receba recomendações para otimizar ainda mais a performance usando o Active Assist. Revise as recomendações e aplique-as conforme apropriado para seu ambiente. Para mais informações, consulte Encontrar recomendações no Active Assist.

Para princípios e recomendações de otimização de performance específicos para cargas de trabalho de IA e ML, consulte Perspectiva de IA e ML: otimização de performance no Well-Architected Framework.

Implantação

Para aprender a criar e implantar sistemas de IA multiagente, use os exemplos de código a seguir. Esses exemplos de código são pontos de partida totalmente funcionais para aprendizado e testes. Para uma operação ideal em ambientes de produção, é necessário personalizar o código com base nos seus requisitos técnicos e de negócios específicos.

Consultor financeiro: analise dados do mercado de ações, crie estratégias de negociação, defina planos de execução e avalie riscos.
Assistente de pesquisa: planejar e realizar pesquisas, avaliar as descobertas e elaborar um relatório de pesquisa.
Corretor de seguros: crie assinaturas, ofereça assistência na estrada e lide com sinistros.
Otimizador de pesquisa: encontre palavras-chave de pesquisa, analise páginas da Web e dê sugestões para otimizar a pesquisa.
Analisador de dados: recupere dados, faça manipulações complexas, gere visualizações e execute tarefas de ML.
Agente de marketing na Web: escolha um nome de domínio, crie um site, crie campanhas e produza conteúdo.
Planejador do Airbnb (com A2A e MCP): para um determinado local e horário, encontre anúncios do Airbnb e receba informações sobre o clima.

Para ver exemplos de código e começar a usar o ADK com servidores MCP, consulte Ferramentas do MCP.

A seguir

Escolha um padrão de design para seu sistema de IA agêntica.
Conheça exemplos de agentes e ferramentas no Agent Garden.
Crie agentes usando o Kit de Desenvolvimento de Agente (ADK).
Implante agentes em Google Cloud.
Hospede agentes A2A no Cloud Run.
Hospedar servidores MCP no Cloud Run.
Para uma visão geral dos princípios e recomendações de arquitetura específicos para cargas de trabalho de IA e ML no Google Cloud, consulte a perspectiva de IA e ML no framework bem arquitetado.
Para mais arquiteturas de referência, diagramas e práticas recomendadas, confira a Central de arquitetura do Cloud.

Colaboradores

Autor: Kumar Dhanagopal | Desenvolvedor de soluções de vários produtos

Outros colaboradores:

Alan Blount | Gerente de produtos
Filipe Gracio, PhD | Engenheiro de clientes, especialista em IA/ML
Holt Skinner | Mediador de desenvolvedores
Jack Wotherspoon | Mediador de desenvolvedores
Joe Shirey | Gerente de relações com desenvolvedores de nuvem
Megan O'Keefe | Mediadora de desenvolvedores
Samantha He | Redatora técnica
Shir Meir Lador | Gerente de engenharia de relações com desenvolvedores
Victor Dantas | Arquiteto de soluções de campo de IA generativa
Vlad Kolesnikov | Engenheiro de relações com desenvolvedores