Sistema de IA multiagente em Google Cloud

Last reviewed 2025-09-16 UTC

Este documento fornece uma arquitetura de referência para ajudar a criar sistemas de IA multiagentes robustos no Google Cloud. Um sistema de IA multiagente otimiza processos complexos e dinâmicos segmentando-os em tarefas discretas que vários agentes de IA especializados executam em colaboração.

O público-alvo deste documento inclui arquitetos, programadores e administradores que criam e gerem infraestruturas e aplicações de IA na nuvem. Este documento pressupõe uma compreensão básica dos agentes e dos modelos de IA. O documento não fornece orientações específicas para a conceção e a programação de agentes de IA.

Arquitetura

O diagrama seguinte mostra uma arquitetura para um exemplo de um sistema de IA multiagente implementado no Google Cloud.

Arquitetura para um sistema de IA multiagente em Google Cloud. Arquitetura para um sistema de IA multiagente em Google Cloud.

Componentes de arquitetura

A arquitetura de exemplo na secção anterior contém os seguintes componentes:

Componente Descrição
Front-End Os utilizadores interagem com o sistema multiagente através de uma interface, como uma interface de chat, que é executada como um serviço Cloud Run sem servidor.
Agentes Um agente coordenador controla o sistema de IA agêntico neste exemplo. O agente coordenador invoca um subagente adequado para acionar o fluxo de agente. Os agentes podem comunicar entre si através do protocolo Agent2Agent (A2A), o que permite a interoperabilidade entre agentes, independentemente da respetiva linguagem de programação e tempo de execução. A arquitetura de exemplo mostra um padrão sequencial e um padrão de refinamento iterativo. Para mais informações sobre os subagentes neste exemplo, consulte a secção Fluxo de agentes.
Tempo de execução dos agentes Os agentes de IA podem ser implementados como serviços do Cloud Run sem servidor, como apps em contentores no Google Kubernetes Engine (GKE) ou no Vertex AI Agent Engine.
ADK O Agent Development Kit (ADK) oferece ferramentas e uma estrutura para desenvolver, testar e implementar agentes. O ADK abstrai a complexidade da criação de agentes e permite que os programadores de IA se concentrem na lógica e nas capacidades do agente.
Modelo de IA e tempos de execução do modelo Para a apresentação de inferências, os agentes nesta arquitetura de exemplo usam um modelo de IA na Vertex AI. A arquitetura mostra o Cloud Run e o GKE como tempos de execução alternativos para o modelo de IA que optar por usar.
Model Armor O Model Armor permite a inspeção e a limpeza de entradas e respostas para modelos implementados no Vertex AI e no GKE. Para mais informações, consulte o artigo Integração do Model Armor com os Google Cloud serviços.
Clientes, servidores e ferramentas do MCP O protocolo Model Context Protocol (MCP) facilita o acesso às ferramentas através da padronização da interação entre agentes e ferramentas. Para cada par agente-ferramenta, um cliente MCP envia pedidos a um servidor MCP através do qual o agente acede a uma ferramenta, como uma base de dados, um sistema de ficheiros ou uma API.

Fluxo agêntico

O sistema multiagente de exemplo na arquitetura anterior tem o seguinte fluxo:

  1. Um utilizador introduz um comando através de uma interface, como uma interface de chat, que é executada como um serviço do Cloud Run sem servidor.
  2. O front-end encaminha o comando para um agente coordenador.
  3. O agente coordenador inicia um dos seguintes fluxos de agente com base na intenção expressa no comando.

    • Sequencial:
      1. A tarefa: um subagente executa uma tarefa.
      2. O subagente da tarefa A invoca o subagente da tarefa A.1.
    • Refinamento iterativo:

      1. O subagente B realiza uma tarefa.
      2. O subagente de avaliação de qualidade revê o resultado do subagente da tarefa B.
      3. Se o resultado for insatisfatório, o avaliador de qualidade invoca o subagente de melhoramento de comandos para refinar o comando.
      4. O subagente da tarefa B executa novamente a sua tarefa através do comando melhorado.

      Este ciclo continua até o resultado ser satisfatório ou o número máximo de iterações ser atingido.

    A arquitetura de exemplo inclui um caminho de intervenção humana para permitir que os utilizadores humanos intervenham no fluxo de agentes quando necessário.

  4. O subagente task-A.1 e o subagente de avaliação da qualidade invocam independentemente o subagente gerador de respostas.

  5. O subagente gerador de respostas gera uma resposta, realiza a validação e as verificações de fundamentação e, em seguida, envia a resposta final ao utilizador através do agente coordenador.

Produtos e ferramentas usados

Esta arquitetura de referência usa os seguintes Google Cloud e produtos e ferramentas de terceiros:

  • Cloud Run: uma plataforma de computação sem servidor que lhe permite executar contentores diretamente na infraestrutura escalável da Google.
  • Vertex AI: uma plataforma de ML que lhe permite preparar e implementar modelos de ML e aplicações de IA, bem como personalizar MDIs/CE para utilização em aplicações com tecnologia de IA.
  • Google Kubernetes Engine (GKE): um serviço Kubernetes que pode usar para implementar e operar aplicações em contentores em grande escala através da infraestrutura da Google.
  • Model Armor: um serviço que oferece proteção para os seus recursos de IA generativa e de agente contra injeção de comandos, fugas de dados confidenciais e conteúdo prejudicial.
  • Agent Development Kit (ADK): um conjunto de ferramentas e bibliotecas para desenvolver, testar e implementar agentes de IA.
  • Protocolo Agent2Agent (A2A): um protocolo aberto que permite a comunicação e a interoperabilidade entre agentes, independentemente da respetiva linguagem de programação e tempo de execução.
  • Protocolo Model Context Protocol (MCP): uma norma de código aberto para ligar aplicações de IA a sistemas externos.

Exemplos de utilização

Os sistemas de IA multiagente são adequados para exemplos de utilização complexos que requerem colaboração e coordenação em vários conjuntos de competências especializados para alcançar um objetivo empresarial. Para identificar exemplos de utilização adequados para sistemas de IA multiagentes, analise os processos da sua empresa e identifique tarefas específicas que a IA pode melhorar. Foque-se em resultados empresariais tangíveis, como a redução de custos e o processamento acelerado. Esta abordagem ajuda a alinhar os seus investimentos em IA com o valor empresarial.

Seguem-se exemplos de casos de utilização para sistemas de IA multiagentes.

Consultor financeiro

Fornecer recomendações personalizadas de negociação de ações e executar negociações. O diagrama seguinte mostra um exemplo de um fluxo de agente para este exemplo de utilização. Este exemplo usa um padrão sequencial.

Exemplo de utilização de um consultor financeiro para um sistema multiagente.

O diagrama mostra o seguinte fluxo:

  1. Um agente de obtenção de dados obtém preços de ações em tempo real e do histórico, relatórios financeiros de empresas e outros dados relevantes de fontes fiáveis.
  2. Um agente de análise financeira aplica técnicas de análise e criação de gráficos adequadas aos dados, identifica padrões de variação de preços e faz previsões.
  3. Um agente de recomendações de ações usa a análise e os gráficos para gerar recomendações personalizadas de compra e venda de ações específicas com base no perfil de risco e nos objetivos de investimento do utilizador.
  4. Um agente de execução de negociações compra e vende ações em nome do utilizador.

Assistente de investigação

Criar um plano de investigação, recolher informações, avaliar e refinar a investigação e, em seguida, redigir um relatório. O diagrama seguinte mostra um exemplo de um fluxo de agente para este exemplo de utilização. O fluxo principal neste exemplo usa um padrão sequencial. O exemplo também inclui um padrão de refinamento iterativo.

Exemplo de utilização de assistente de pesquisa para um sistema multiagente.

O diagrama mostra o seguinte fluxo:

  1. Um agente de planeamento cria um plano de investigação detalhado.
  2. Um agente de pesquisa conclui as seguintes tarefas:

    1. Usa o plano de investigação para identificar origens de dados internas e externas adequadas.
    2. Recolhe e analisa os dados necessários.
    3. Prepara um resumo da pesquisa e fornece o resumo a um agente avaliador.

    O agente investigador repete estas tarefas até o agente avaliador aprovar a pesquisa.

  3. Um agente de composição de relatórios cria o relatório de investigação final.

Otimizador da cadeia de abastecimento

Otimize o inventário, acompanhe os envios e comunique com os parceiros da cadeia de fornecimento. O diagrama seguinte mostra um exemplo de um fluxo de agente para este exemplo de utilização. Este exemplo usa um padrão sequencial.

Exemplo de utilização do otimizador da cadeia de fornecimento para um sistema multiagente.

  1. Um agente de gestor de armazém garante níveis de stock ideais criando encomendas de reposição com base no inventário, nas previsões de procura e nos prazos de entrega dos fornecedores.

    • O agente interage com o agente de acompanhamento de envios para acompanhar as entregas.
    • O agente interage com o agente comunicador do fornecedor para notificar os fornecedores acerca de alterações nas encomendas.
  2. Um agente de acompanhamento de envios garante o processamento atempado e eficiente das encomendas através da integração com as plataformas de logística e os sistemas de transportadoras dos fornecedores.

  3. Um agente comunicador de fornecedores comunica com fornecedores externos em nome dos outros agentes no sistema.

Considerações de design

Esta secção descreve os fatores de design, as práticas recomendadas e as recomendações a ter em conta quando usa esta arquitetura de referência para desenvolver uma topologia que satisfaça os seus requisitos específicos de segurança, fiabilidade, custo e desempenho.

As orientações nesta secção não são exaustivas. Consoante os requisitos da sua carga de trabalho e os Google Cloud produtos e funcionalidades de terceiros que usa, podem existir fatores de design e compromissos adicionais que deve considerar.

Design do sistema

Esta secção fornece orientações para ajudar a escolher Google Cloud regiões para a sua implementação e a selecionar Google Cloud produtos e ferramentas adequados.

Seleção de região

Quando seleciona Google Cloud regiões para as suas aplicações de IA, considere os seguintes fatores:

Para selecionar Google Cloud localizações adequadas para as suas candidaturas, use as seguintes ferramentas:

  • Google Cloud Seletor de regiões: Uma ferramenta interativa baseada na Web para selecionar a região Google Cloud ideal para as suas aplicações e dados com base em fatores como a pegada de carbono, o custo e a latência.
  • API Cloud Location Finder: Uma API pública que oferece uma forma programática de encontrar localizações de implementação no Google Cloud, Google Distributed Cloud e outros fornecedores de nuvem.

Design de agentes

Esta secção apresenta recomendações gerais para a conceção de agentes de IA. As orientações detalhadas sobre como escrever código e lógica de agentes estão fora do âmbito deste documento.

Foco no design Recomendações
Definição e design do agente
  • Defina claramente o objetivo de negócio do sistema de IA com agência e a tarefa que cada agente realiza.
  • Use um padrão de agente que melhor satisfaça os seus requisitos.
  • Use o ADK para criar, implementar e gerir de forma eficiente a sua arquitetura baseada em agentes.
Interações do agente
  • Conceba os agentes orientados para o utilizador na arquitetura de modo a suportarem interações em linguagem natural.
  • Certifique-se de que cada agente comunica claramente as respetivas ações e estado aos clientes dependentes.
  • Conceba os agentes para detetar e processar consultas ambíguas e interações com nuances.
Contexto, ferramentas e dados
  • Certifique-se de que os agentes têm contexto suficiente para acompanhar as interações de várias voltas e os parâmetros da sessão.
  • Descreva claramente a finalidade, os argumentos e a utilização das ferramentas que os agentes podem usar.
  • Certifique-se de que as respostas dos agentes se baseiam em origens de dados fiáveis para reduzir as alucinações.
  • Implemente lógica para processar situações de não correspondência, como quando um comando não está relacionado com o tema.

Segurança

Esta secção descreve as considerações e as recomendações de design para criar uma topologia no Google Cloud que cumpra os requisitos de segurança da sua carga de trabalho.

Componente Considerações e recomendações de design
Agentes

Os agentes de IA introduzem determinados riscos de segurança únicos e críticos que as práticas de segurança convencionais e determinísticas podem não conseguir mitigar adequadamente. A Google recomenda uma abordagem que combine os pontos fortes dos controlos de segurança determinísticos com defesas dinâmicas baseadas no raciocínio. Esta abordagem baseia-se em três princípios essenciais: supervisão humana, autonomia dos agentes cuidadosamente definida e observabilidade. Seguem-se recomendações específicas alinhadas com estes princípios fundamentais.

Supervisão humana: por vezes, um sistema de IA autónomo pode falhar ou não ter o desempenho esperado. Por exemplo, o modelo pode gerar conteúdo incorreto ou um agente pode selecionar ferramentas inadequadas. Em sistemas de IA autónoma essenciais para a empresa, incorpore um fluxo de human-in-the-loop para permitir que os supervisores humanos monitorizem, substituam e pausem os agentes em tempo real. Por exemplo, os utilizadores humanos podem rever o resultado dos agentes, aprovar ou rejeitar os resultados e fornecer orientações adicionais para corrigir erros ou tomar decisões estratégicas. Esta abordagem combina a eficiência dos sistemas de IA com agência com o pensamento crítico e os conhecimentos especializados dos utilizadores humanos.

Controlo de acesso para agentes: configure as autorizações dos agentes através dos controlos de gestão de identidade e de acesso (IAM). Conceda a cada agente apenas as autorizações de que precisa para realizar as respetivas tarefas e comunicar com ferramentas e outros agentes. Esta abordagem ajuda a minimizar o potencial impacto de uma violação de segurança, uma vez que um agente comprometido teria acesso limitado a outras partes do sistema. Para mais informações, consulte Configure a identidade e as autorizações para o seu agente e Gerir o acesso para agentes implementados.

Monitorização: monitorize o comportamento do agente através de capacidades de rastreio abrangentes que lhe dão visibilidade de todas as ações que um agente realiza, incluindo o respetivo processo de raciocínio, seleção de ferramentas e caminhos de execução. Para mais informações, consulte os artigos Registar um agente no Vertex AI Agent Engine e Registar no ADK.

Para mais informações sobre como proteger os agentes de IA, consulte o artigo Segurança para agentes de IA.

Vertex AI

Responsabilidade partilhada: a segurança é uma responsabilidade partilhada. O Vertex AI protege a infraestrutura subjacente e fornece ferramentas e controlos de segurança para ajudar a proteger os seus dados, código e modelos. É responsável por configurar corretamente os seus serviços, gerir os controlos de acesso e proteger as suas aplicações. Para mais informações, consulte o artigo Responsabilidade partilhada da Vertex AI.

Controlos de segurança: a Vertex AI suporta Google Cloud controlos de segurança que pode usar para cumprir os seus requisitos de residência de dados, chaves de encriptação geridas pelo cliente (CMEK), segurança de rede através dos VPC Service Controls e transparência de acesso. Para mais informações, consulte a seguinte documentação:

Segurança: os modelos de IA podem produzir respostas prejudiciais, por vezes, em resposta a comandos maliciosos.

  • Para melhorar a segurança e mitigar o potencial uso indevido do sistema de IA autónomo, pode configurar filtros de conteúdo para atuarem como barreiras a entradas e respostas prejudiciais. Para mais informações, consulte Filtros de segurança e de conteúdo.
  • Para inspecionar e limpar pedidos e respostas de inferência de ameaças como injeção de comandos e conteúdo prejudicial, pode usar o Model Armor. O Model Armor ajuda a evitar entradas maliciosas, validar a segurança do conteúdo, proteger dados confidenciais, manter a conformidade e aplicar políticas de segurança de forma consistente.

Acesso ao modelo: pode configurar políticas organizacionais para limitar o tipo e as versões dos modelos de IA que podem ser usados num Google Cloud projeto. Para mais informações, consulte o artigo Controle o acesso aos modelos do Model Garden.

Proteção de dados: para descobrir e desidentificar dados sensíveis nos comandos e nas respostas, bem como nos dados de registo, use a API Cloud Data Loss Prevention. Para mais informações, consulte este vídeo: Proteger dados confidenciais em apps de IA.

MCP Consulte MCP e segurança.
A2A

Segurança de transporte: o protocolo A2A exige o HTTPS para todas as comunicações A2A em ambientes de produção e recomenda as versões 1.2 ou superiores do Transport Layer Security (TLS).

Autenticação: o protocolo A2A delega a autenticação em mecanismos Web padrão, como cabeçalhos HTTP, e em normas como o OAuth2 e o OpenID Connect. Cada agente anuncia os requisitos de autenticação no respetivo cartão de agente. Para mais informações, consulte o artigo Autenticação A2A.

Cloud Run

Segurança de entrada (para o serviço de front-end): para controlar o acesso à aplicação, desative o URL run.app predefinido do serviço de front-end do Cloud Run e configure um Application Load Balancer externo regional. Além de equilibrar a carga do tráfego recebido para a aplicação, o balanceador de carga processa a gestão de certificados SSL. Para maior proteção, pode usar políticas de segurança do Google Cloud Armor para fornecer filtragem de pedidos, proteção DDoS e limitação de taxa para o serviço.

Autenticação do utilizador: para autenticar o acesso do utilizador ao serviço do Cloud Run de front-end, use o Identity-Aware Proxy (IAP). Quando um utilizador tenta aceder a um recurso protegido pelo IAP, o IAP realiza verificações de autenticação e autorização. Para mais informações, consulte o artigo Ativar IAP para o Cloud Run.

Segurança da imagem do contentor: para garantir que apenas as imagens de contentores autorizadas são implementadas no Cloud Run, pode usar a autorização binária. Para identificar e mitigar riscos de segurança nas imagens de contentores, use a análise de artefactos para executar automaticamente verificações de vulnerabilidades. Para mais informações, consulte a Vista geral da análise de contentores.

Residência dos dados: o Cloud Run ajuda a cumprir os requisitos de residência dos dados. As suas funções do Cloud Run são executadas na região selecionada.

Para mais orientações sobre a segurança de contentores, consulte as sugestões de desenvolvimento do Cloud Run gerais.

Todos os produtos na arquitetura

Encriptação de dados: por predefinição, Google Cloud encripta os dados em repouso através do Google-owned and Google-managed encryption keys. Para proteger os dados dos seus agentes através de chaves de encriptação que controla, pode usar CMEKs que cria e gere no Cloud KMS. Para obter informações sobre os Google Cloud serviços compatíveis com o Cloud KMS, consulte Serviços compatíveis.

Mitigue o risco de exfiltração de dados: para reduzir o risco de exfiltração de dados, crie um perímetro dos VPC Service Controls em torno da infraestrutura. Os VPC Service Controls suportam todos os Google Cloud serviços que esta arquitetura de referência usa.

Controlo de acesso: quando configurar autorizações para os recursos na sua topologia, siga o princípio do menor privilégio.

Otimização pós-implementação: depois de implementar a sua aplicação no Google Cloud, receba recomendações para otimizar ainda mais a segurança através do Recommendation Hub do Active Assist. Reveja as recomendações e aplique-as conforme adequado para o seu ambiente. Para mais informações, consulte o artigo Encontre recomendações no Centro de Recomendações.

Segurança do ambiente de nuvem: use as ferramentas no Security Command Center para detetar vulnerabilidades, identificar e mitigar ameaças, definir e implementar uma postura de segurança e exportar dados para análise adicional.

Mais recomendações de segurança

Fiabilidade

Esta secção descreve as considerações e as recomendações de design para criar e operar uma infraestrutura fiável para a sua implementação no Google Cloud.

Componente Considerações e recomendações de design
Agentes

Tolerância a falhas: crie o sistema baseado em agentes para tolerar ou processar falhas ao nível do agente. Sempre que possível, use uma abordagem descentralizada em que os agentes podem operar de forma independente.

Simule falhas: antes de implementar o sistema de IA autónoma em produção, valide-o simulando um ambiente de produção. Identificar e corrigir problemas de coordenação entre agentes e comportamentos inesperados.

Processamento de erros: para ativar o diagnóstico e a resolução de problemas de erros, implemente mecanismos de registo, processamento de exceções e repetição.

Vertex AI

Gestão de quotas: a Vertex AI suporta quota partilhada dinâmica (DSQ) para modelos Gemini. O DSQ ajuda a gerir de forma flexível os pedidos de pagamento conforme o uso e elimina a necessidade de gerir a quota manualmente ou pedir aumentos da quota. O DSQ atribui dinamicamente os recursos disponíveis para um determinado modelo e região entre os clientes ativos. Com o DSQ, não existem limites de quota predefinidos para clientes individuais.

Planeamento da capacidade: se o número de pedidos ao modelo exceder a capacidade atribuída, é devolvido o código de erro 429. Para cargas de trabalho essenciais para a empresa e que requerem um débito consistentemente elevado, pode reservar o débito através do débito aprovisionado.

Disponibilidade do ponto final do modelo: se os dados puderem ser partilhados em várias regiões ou países, pode usar um ponto final global para o modelo.

Cloud Run Robustez perante interrupções da infraestrutura: O Cloud Run é um serviço regional. Armazena dados de forma síncrona em várias zonas numa região e equilibra automaticamente a carga de tráfego nas zonas. Se ocorrer uma interrupção de zona, o Cloud Run continua a ser executado e os dados não são perdidos. Se ocorrer uma indisponibilidade de uma região, o serviço deixa de ser executado até que a Google resolva a indisponibilidade.
Todos os produtos na arquitetura Otimização pós-implementação: depois de implementar a sua aplicação no Google Cloud, receba recomendações para otimizar ainda mais a fiabilidade através do centro de recomendações do Active Assist. Reveja as recomendações e aplique-as conforme adequado para o seu ambiente. Para mais informações, consulte o artigo Encontre recomendações no Centro de Recomendações.

Para ver princípios e recomendações de fiabilidade específicos das cargas de trabalho de IA e ML, consulte o artigo Perspetiva de IA e ML: fiabilidade no Well-Architected Framework.

Operações

Esta secção descreve os fatores a ter em conta quando usa esta arquitetura de referência para criar uma Google Cloud topologia que pode operar de forma eficiente.

Componente Considerações e recomendações de design
Vertex AI

Monitorização através de registos: por predefinição, os registos do agente escritos nos fluxos stdout e stderr são encaminhados para o Cloud Logging. Para o registo avançado, pode integrar o registador do Python com o Cloud Logging. Se precisar de controlo total sobre o registo e os registos estruturados, use o cliente do Cloud Logging. Para mais informações, consulte os artigos Registar um agente e Registar no ADK.

Avaliação contínua: realize regularmente uma avaliação qualitativa do resultado dos agentes e da trajetória ou dos passos dados pelos agentes para produzir o resultado. Para implementar a avaliação de agentes, pode usar o serviço de avaliação de IA gen ou os métodos de avaliação suportados pelo ADK.

MCP

Ferramentas de base de dados: para gerir eficientemente as ferramentas de base de dados para os seus agentes de IA e garantir que os agentes processam em segurança complexidades como o agrupamento de ligações e a autenticação, use a caixa de ferramentas do MCP para bases de dados. Oferece uma localização centralizada para armazenar e atualizar ferramentas de base de dados. Pode partilhar as ferramentas entre agentes e atualizá-las sem reimplementar os agentes. A caixa de ferramentas inclui uma vasta gama de ferramentas para Google Cloud bases de dados como o AlloyDB para PostgreSQL e para bases de dados de terceiros, como o MongoDB.

Modelos de IA generativa: para permitir que os agentes de IA usem modelos de IA generativa da Google, como o Imagen e o Veo, pode usar servidores MCP para Google Cloud APIs de multimédia generativa.

Produtos e ferramentas de segurança da Google: para permitir que os seus agentes de IA acedam a produtos e ferramentas de segurança da Google, como o Google Security Operations, o Google Threat Intelligence e o Security Command Center, use servidores MCP para produtos de segurança da Google.

Todos os Google Cloud produtos na arquitetura Rastreio: recolha e analise continuamente dados de rastreio através do Cloud Trace. Os dados de rastreio permitem-lhe identificar e diagnosticar rapidamente erros em fluxos de trabalho de agentes complexos. Pode realizar uma análise detalhada através de visualizações na ferramenta Explorador de rastreios. Para mais informações, consulte Rastreie um agente.

Para ver princípios e recomendações de excelência operacional específicos para cargas de trabalho de IA e ML, consulte o artigo Perspetiva de IA e ML: excelência operacional no Well-Architected Framework.

Otimização de custos

Esta secção fornece orientações para otimizar o custo de configuração e funcionamento de uma topologia que cria através desta arquitetura de referência. Google Cloud

Componente Considerações e recomendações de design>
Vertex AI

Análise e gestão de custos: para analisar e gerir os custos da Vertex AI, recomendamos que crie métricas de base para consultas por segundo (QPS) e tokens por segundo (TPS). Depois, monitorize estas métricas após a implementação. A base também ajuda no planeamento da capacidade. Por exemplo, a base ajuda a determinar quando o débito processado pode ser necessário.

Seleção do modelo: o modelo que seleciona para a sua aplicação de IA afeta diretamente os custos e o desempenho. Para identificar o modelo que oferece um equilíbrio ideal entre o desempenho e o custo para o seu exemplo de utilização específico, teste os modelos iterativamente. Recomendamos que comece com o modelo mais económico e avance gradualmente para opções mais poderosas.

Comandos rentáveis: o comprimento dos comandos (entrada) e das respostas geradas (saída) afeta diretamente o desempenho e o custo. Escreva comandos curtos, diretos e que ofereçam contexto suficiente. Crie comandos para receber respostas concisas do modelo. Por exemplo, inclua expressões como "resume em 2 frases" ou "lista 3 pontos-chave". Para mais informações, consulte as práticas recomendadas para o design de comandos.

Colocação em cache de contexto: para reduzir o custo dos pedidos que contêm conteúdo repetido com um elevado número de tokens de entrada, use a colocação em cache de contexto.

Pedidos em lote: quando relevante, considere a previsão em lote. Os pedidos em lote incorrem num custo inferior ao dos pedidos padrão.

Cloud Run

Atribuição de recursos: quando cria um serviço do Cloud Run, pode especificar a quantidade de memória e CPU a atribuir. Comece com as alocações de CPU e memória predefinidas. Observe a utilização de recursos e o custo ao longo do tempo e ajuste a atribuição conforme necessário. Para mais informações, consulte a seguinte documentação:

Otimização da taxa: se conseguir prever os requisitos de CPU e memória, pode poupar dinheiro com descontos por utilização garantida (CUDs).

Todos os produtos na arquitetura Otimização pós-implementação: depois de implementar a sua aplicação no Google Cloud, receba recomendações para otimizar ainda mais o custo através do centro de recomendações do Active Assist. Reveja as recomendações e aplique-as conforme adequado para o seu ambiente. Para mais informações, consulte o artigo Encontre recomendações no Centro de Recomendações.

Para estimar o custo dos seus Google Cloud recursos, use a Google Cloud calculadora de preços.

Para ver princípios e recomendações de otimização de custos específicos das cargas de trabalho de IA e ML, consulte o artigo Perspetiva de IA e ML: otimização de custos no Well-Architected Framework.

Otimização do desempenho

Esta secção descreve as considerações e as recomendações de design para criar uma topologia no Google Cloud que cumpra os requisitos de desempenho das suas cargas de trabalho.

Componente Considerações e recomendações de design
Agentes

Seleção de modelos: quando seleciona modelos para o seu sistema de IA autónomo, considere as capacidades necessárias para as tarefas que os agentes têm de realizar.

Otimização de comandos: para melhorar e otimizar rapidamente o desempenho dos comandos em grande escala e eliminar a necessidade de reescrever manualmente, use o otimizador de comandos do Vertex AI. O otimizador ajuda a adaptar os comandos de forma eficiente em diferentes modelos.

Vertex AI

Seleção do modelo: o modelo que seleciona para a sua aplicação de IA afeta diretamente os custos e o desempenho. Para identificar o modelo que oferece um equilíbrio ideal entre o desempenho e o custo para o seu exemplo de utilização específico, teste os modelos iterativamente. Recomendamos que comece com o modelo mais económico e avance gradualmente para opções mais poderosas.

Engenharia de comandos: o comprimento dos comandos (entrada) e das respostas geradas (saída) afeta diretamente o desempenho e o custo. Escreva comandos curtos, diretos e que ofereçam contexto suficiente. Crie comandos para receber respostas concisas do modelo. Por exemplo, inclua expressões como "resume em 2 frases" ou "lista 3 pontos-chave". Para mais informações, consulte as práticas recomendadas para o design de comandos.

Colocação em cache de contexto: para reduzir a latência de pedidos que contêm conteúdo repetido com um número elevado de tokens de entrada, use a colocação em cache de contexto.

Cloud Run

Atribuição de recursos: consoante os seus requisitos de desempenho, configure a memória e a CPU a atribuir ao serviço Cloud Run. Para mais informações, consulte a seguinte documentação:

Para mais orientações sobre a otimização do desempenho, consulte as sugestões gerais de desenvolvimento do Cloud Run.

Todos os produtos na arquitetura Otimização pós-implementação: depois de implementar a sua aplicação no Google Cloud, receba recomendações para otimizar ainda mais o desempenho através do centro de recomendações do Active Assist. Reveja as recomendações e aplique-as conforme adequado para o seu ambiente. Para mais informações, consulte o artigo Encontre recomendações no Centro de Recomendações.

Para ver princípios e recomendações de otimização do desempenho específicos das cargas de trabalho de IA e ML, consulte o artigo Perspetiva de IA e ML: otimização do desempenho no Well-Architected Framework.

Implementação

Para saber como criar e implementar sistemas de IA multiagentes, use os seguintes exemplos de código. Estes exemplos de código são pontos de partida totalmente funcionais para aprendizagem e experimentação. Para um funcionamento ideal em ambientes de produção, tem de personalizar o código com base nos seus requisitos técnicos e empresariais específicos.

  • Consultor financeiro: analise dados do mercado de ações, crie estratégias de negociação, defina planos de execução e avalie riscos.
  • Assistente de investigação: Planeie e realize investigações, avalie as conclusões e redija um relatório de investigação.
  • Agente de seguros: crie subscrições, ofereça assistência em viagem e resolva reclamações de seguros.
  • Otimizador de pesquisas: encontre palavras-chave de pesquisa, analise páginas Web e forneça sugestões para otimizar a pesquisa.
  • Analista de dados: obtenha dados, faça manipulações complexas, gere visualizações e execute tarefas de ML.
  • Agente de marketing na Web: escolha um nome de domínio, crie um Website, crie campanhas e produza conteúdo.
  • Planeador do Airbnb (com A2A e MCP): para uma determinada localização e hora, encontre anúncios do Airbnb e receba informações meteorológicas.

Para ver exemplos de código para começar a usar o ADK juntamente com servidores MCP, consulte Ferramentas MCP.

O que se segue?

Colaboradores

Autor: Kumar Dhanagopal | Cross-Product Solution Developer

Outros colaboradores: