Esta página realça alguns exemplos de utilização do Cloud Run como uma plataforma de alojamento para os seguintes exemplos de utilização de IA:
Alojamento de aplicações de IA no Cloud Run
As aplicações de IA usam modelos de IA para funcionar ou realizar uma tarefa específica. Por exemplo, uma aplicação de IA pode usar um modelo de IA para resumir documentos ou ser uma interface de chat que usa uma base de dados vetorial para obter mais contexto.
O Cloud Run é uma das infraestruturas de alojamento de aplicações que oferece um ambiente totalmente gerido para as suas cargas de trabalho de aplicações de IA.
O Cloud Run integra-se com modelos de IA, como a API Gemini, os endpoints do Vertex AI ou modelos alojados num serviço do Cloud Run com GPU.
O Cloud Run também se integra com o Cloud SQL para PostgreSQL e o AlloyDB para PostgreSQL, que são duas bases de dados que oferecem a extensão pgvector
para a geração aumentada por obtenção (RAG).
Alojamento de agentes de IA no Cloud Run
Os agentes de IA combinam a inteligência de modelos de IA avançados com o acesso a ferramentas para realizar ações em nome do utilizador e sob o controlo do utilizador.
Pode implementar agentes de IA como serviços do Cloud Run para orquestrar um conjunto de tarefas assíncronas e fornecer informações aos utilizadores através da participação de várias interações de pedido-resposta.
Agente de IA na arquitetura do Cloud Run
Uma arquitetura de agente de IA típica implementada no Cloud Run pode envolver vários componentes Google Cloud dentro e fora Google Clouddo Google Cloud:
Publicação e orquestração: um serviço do Cloud Run funciona como um ponto final da API escalável e pode processar vários utilizadores em simultâneo através da escalabilidade rápida, automática e a pedido das instâncias. Este serviço executa a lógica do agente principal, muitas vezes usando uma framework de orquestração de IA, como o LangGraph ou o Agent Development Kit (ADK). Esta camada coordena as chamadas para outros componentes. O Cloud Run suporta respostas HTTP de streaming para o utilizador através de WebSockets. A identidade do serviço integrada do Cloud Run fornece credenciais seguras e automáticas para chamar Google Cloud APIs sem gerir chaves de API.
Modelos de IA: a camada de orquestração chama modelos para capacidades de raciocínio. Estas podem ser:
- A API Gemini
- Modelos personalizados ou outros modelos de base implementados em endpoints da Vertex AI
- Os seus próprios modelos otimizados servidos a partir de um serviço do Cloud Run com GPU separado
Memória: os agentes precisam frequentemente de memória para reter o contexto e aprender com interações anteriores.
- A memória a curto prazo pode ser implementada associando o Cloud Run ao Memorystore for Redis.
- A memória a longo prazo para armazenar o histórico de conversas ou memorizar as preferências do utilizador pode ser implementada associando o Cloud Run ao Firestore, uma base de dados NoSQL escalável e sem servidor.
Bases de dados e obtenção: para a geração aumentada de obtenção (RAG) ou a obtenção de dados estruturados:
- Consulte informações específicas de entidades ou faça pesquisas de semelhanças em incorporações ligando o Cloud Run a bases de dados vetoriais, como o Cloud SQL para PostgreSQL ou o AlloyDB para PostgreSQL, com a extensão
pgvector
.
- Consulte informações específicas de entidades ou faça pesquisas de semelhanças em incorporações ligando o Cloud Run a bases de dados vetoriais, como o Cloud SQL para PostgreSQL ou o AlloyDB para PostgreSQL, com a extensão
Ferramentas: o orquestrador usa ferramentas para realizar tarefas específicas para as quais os modelos não são adequados ou para interagir com serviços, APIs ou Websites externos. Isto pode incluir:
- Utilitários básicos: os cálculos matemáticos precisos, as conversões de tempo ou outros utilitários semelhantes podem ser executados no serviço do Cloud Run de orquestração.
- Chamadas de API: fazer chamadas para outras APIs internas ou de terceiros (acesso de leitura ou escrita).
- Geração de imagens ou gráficos: use modelos de geração de imagens ou execute bibliotecas de gráficos para criar conteúdo visual de forma rápida e eficaz.
- Automatização do navegador e do SO: execute um sistema operativo sem interface gráfica ou um sistema operativo gráfico completo em instâncias de contentores para permitir que o agente navegue na Web, extraia informações de Websites ou execute ações através de cliques e introdução de texto no teclado. O serviço do Cloud Run devolve píxeis de ecrãs. Use bibliotecas como o Puppeteer para controlar o navegador.
- Execução de código: o Cloud Run oferece um ambiente seguro com sandboxing de várias camadas e pode ser configurado para o serviço de execução de código com autorizações do IAM mínimas ou nulas. Pode usar uma tarefa do Cloud Run para executar código de forma assíncrona e um serviço do Cloud Run com uma concorrência de 1 para execução síncrona.
O que se segue?
- Veja o vídeo Crie agentes de IA no Cloud Run.
- Experimente o codelab para saber como criar e implementar uma app LangChain no Cloud Run.
- Saiba como implementar o Agent Development Kit (ADK) no Cloud Run.
- Encontre amostras de agentes prontas a usar nas amostras do Agent Development Kit (ADK).
- Alojamento de servidores do protocolo Model Context Protocol (MCP) no Cloud Run.