Esta página foi traduzida pela API Cloud Translation.

Infraestrutura GraphRAG para IA generativa com a Vertex AI e o Spanner Graph

Last reviewed 2025-07-01 UTC

Este documento fornece uma arquitetura de referência para ajudar a criar infraestrutura para aplicações de IA generativa GraphRAG no Google Cloud. O público-alvo destinado inclui arquitetos, programadores e administradores que criam e gerem sistemas de obtenção de informações inteligentes. O documento pressupõe uma compreensão fundamental da IA, da gestão de dados de grafos e dos conceitos do Gráfico de Conhecimento. Este documento não fornece orientações específicas para a conceção e o desenvolvimento de aplicações GraphRAG.

O GraphRAG é uma abordagem baseada em grafos para a geração aumentada de recuperação (RAG). A RAG ajuda a fundamentar as respostas geradas pela IA, aumentando os comandos com dados contextualmente relevantes que são obtidos através da pesquisa vetorial. O GraphRAG combina a pesquisa vetorial com uma consulta do gráfico de conhecimento para obter dados contextuais que refletem melhor a interligação de dados de diversas fontes. Os comandos aumentados com o GraphRAG podem gerar respostas de IA mais detalhadas e relevantes.

Arquitetura

O diagrama seguinte mostra uma arquitetura para uma aplicação de IA generativa compatível com GraphRAG em Google Cloud:

Os fluxos de publicação e carregamento de dados na arquitetura.

A arquitetura no diagrama anterior consiste em dois subsistemas: carregamento de dados e publicação. As secções seguintes descrevem a finalidade dos subsistemas e o fluxo de dados dentro e entre os subsistemas.

Subsistema de carregamento de dados

O subsistema de carregamento de dados carrega dados de origens externas e, em seguida, prepara os dados para o GraphRAG. O fluxo de preparação e carregamento de dados envolve os seguintes passos:

Os dados são carregados para um contentor do Cloud Storage. Estes dados podem ser carregados por um analista de dados, carregados a partir de uma base de dados ou transmitidos a partir de qualquer origem.
Quando os dados são carregados, é enviada uma mensagem para um tópico do Pub/Sub.
O Pub/Sub aciona uma função do Cloud Run para processar os dados carregados.
A função do Cloud Run cria um gráfico de conhecimento a partir dos ficheiros de entrada usando a API Gemini no Vertex AI e ferramentas como o LLMGraphTransformer do LangChain.
A função armazena o gráfico de conhecimento numa base de dados de gráficos do Spanner.
A função segmenta o conteúdo textual dos ficheiros de dados em unidades detalhadas através de ferramentas como o RecursiveCharacterTextSplitter do LangChain ou o Layout Parser do Document AI.
A função cria incorporações vetoriais dos segmentos de texto através das APIs Vertex AI Embeddings.
A função armazena as incorporações de vetores e os nós do gráfico associados no Spanner Graph.

As incorporações vetoriais servem de base para a obtenção semântica. Os nós do gráfico de conhecimentos permitem a análise e a travessia de relações e padrões de dados complexos.

Subsistema de publicação

O subsistema de publicação gere o ciclo de vida de consulta-resposta entre a aplicação de IA generativa e os respetivos utilizadores. O fluxo de publicação envolve os seguintes passos:

Um utilizador envia uma consulta em linguagem natural a um agente de IA, que é implementado no Vertex AI Agent Engine.
O agente processa a consulta da seguinte forma:
1. Converte a consulta em incorporações vetoriais através das APIs Vertex AI Embeddings.
2. Recupera nós do gráfico relacionados com a consulta através de uma pesquisa de semelhança vetorial na base de dados de incorporações.
3. Obtém dados relacionados com a consulta percorrendo o gráfico de conhecimentos.
4. Aumenta o comando combinando a consulta original com os dados do gráfico obtidos.
5. Usa a API Vertex AI Search Ranking para classificar os resultados, que consistem em nós e arestas que são obtidos da base de dados de grafos. A classificação baseia-se na relevância semântica para a consulta.
6. Resume os resultados chamando a API Gemini do Vertex AI.
Em seguida, o agente envia o resultado resumido ao utilizador.

Pode armazenar e ver registos de atividade de resposta a consultas no Cloud Logging e configurar a monitorização baseada em registos através do Cloud Monitoring.

Produtos usados

Esta arquitetura de referência usa os seguintes produtos e ferramentas Google:

Gráfico do Spanner: uma base de dados de grafos que oferece as funcionalidades de escalabilidade, disponibilidade e consistência do Spanner.
Vertex AI: uma plataforma de ML que lhe permite preparar e implementar modelos de ML e aplicações de IA, bem como personalizar MDIs/CE para utilização em aplicações com tecnologia de IA.
Funções do Cloud Run: uma plataforma de computação sem servidor que lhe permite executar funções de finalidade única diretamente no Google Cloud.
Cloud Storage: um serviço de armazenamento de objetos de baixo custo e sem limite para diversos tipos de dados. Os dados podem ser acedidos a partir do interior e do exterior Google Cloud, e são replicados em várias localizações para redundância.
Pub/Sub: um serviço de mensagens assíncrono e escalável que desacopla os serviços que produzem mensagens dos serviços que processam essas mensagens.
Cloud Logging: um sistema de gestão de registos em tempo real com armazenamento, pesquisa, análise e alertas.
Cloud Monitoring: um serviço que oferece visibilidade do desempenho, da disponibilidade e do estado das suas aplicações e infraestrutura.

Exemplos de utilização

O GraphRAG facilita a obtenção inteligente de dados para exemplos de utilização em várias indústrias. Esta secção descreve alguns exemplos de utilização nos setores de cuidados de saúde, finanças, serviços jurídicos e indústria.

Cuidados de saúde e produtos farmacêuticos: apoio à decisão clínica

Nos sistemas de apoio à decisão clínica, o GraphRAG integra grandes quantidades de dados da literatura médica, registos eletrónicos de saúde dos doentes, bases de dados de interações medicamentosas e resultados de ensaios clínicos num gráfico de conhecimentos unificado. Quando os clínicos e os investigadores consultam os sintomas e os medicamentos atuais de um paciente, o GraphRAG percorre o gráfico de conhecimento para identificar condições relevantes e potenciais interações medicamentosas. Também pode gerar recomendações de tratamento personalizadas com base noutros dados, como o perfil genético do paciente. Este tipo de obtenção de informações fornece respostas mais ricas em contexto e baseadas em provas do que a correspondência de palavras-chave.

Serviços financeiros: unificar dados financeiros

As empresas de serviços financeiros usam grafos de conhecimentos para dar aos seus analistas uma vista unificada e estruturada dos dados de origens distintas, como relatórios de analistas, reuniões de investidores e avaliações de risco. Os grafos de conhecimento identificam entidades de dados importantes, como empresas e executivos, e mapeiam as relações cruciais entre as entidades. Esta abordagem oferece uma rede de dados rica e interligada, o que permite uma análise financeira mais detalhada e eficiente. Os analistas podem descobrir informações anteriormente ocultas, como dependências complexas da cadeia de abastecimento, membros de conselhos de administração que se sobrepõem entre concorrentes e exposição a riscos geopolíticos complexos.

Serviços jurídicos: pesquisa de casos e análise de precedentes

No setor jurídico, o GraphRAG pode ser usado para gerar recomendações jurídicas personalizadas com base em precedentes, estatutos, jurisprudência, atualizações regulamentares e documentos internos. Quando os advogados se preparam para casos, podem fazer perguntas detalhadas sobre argumentos legais específicos, decisões anteriores em casos semelhantes ou as implicações de nova legislação. O GraphRAG tira partido da interligação dos conhecimentos jurídicos disponíveis para identificar precedentes relevantes e explicar a respetiva aplicabilidade. Também pode sugerir contra-argumentos ao analisar as relações entre conceitos legais, estatutos e interpretações judiciais. Com esta abordagem, os profissionais jurídicos podem obter estatísticas mais completas e precisas do que os métodos convencionais de obtenção de conhecimentos.

Indústria transformadora e cadeia de abastecimento: desbloquear o conhecimento institucional

As operações de fabrico e da cadeia de abastecimento requerem um elevado grau de precisão. Os conhecimentos necessários para manter o nível de precisão exigido estão frequentemente ocultos em milhares de documentos de procedimentos operacionais padrão (POP) estáticos e densos. Quando uma linha de produção ou uma máquina numa fábrica falha, ou se ocorrer um problema logístico, os engenheiros e os técnicos perdem frequentemente tempo crítico a pesquisar documentos PDF não relacionados para diagnosticar e resolver o problema. Os grafos de conhecimentos e a IA conversacional podem ser combinados para transformar o conhecimento institucional oculto num parceiro de diagnóstico interativo.

Alternativas de design

A arquitetura que este documento descreve é modular. Pode adaptar determinados componentes da arquitetura para usar produtos, ferramentas e tecnologias alternativos, consoante os seus requisitos.

Criar o Gráfico de Conhecimento

Pode usar a ferramenta LLMGraphTransformer do LangChain para criar um gráfico de conhecimentos de raiz. Ao especificar o esquema do gráfico com parâmetros como LLMGraphTransformer, allowed_nodes, allowed_relationships, node_properties e relationship_properties, pode melhorar a qualidade do gráfico de conhecimentos resultante. No entanto, o LLMGraphTransformer pode extrair entidades de domínios genéricos, pelo que pode não ser adequado para domínios de nicho, como cuidados de saúde ou produtos farmacêuticos. Além disso, se a sua organização já tiver um processo robusto para criar grafos de conhecimentos, o subsistema de carregamento de dados apresentado nesta arquitetura de referência é opcional.

Armazenar o Gráfico de Conhecimento e as incorporações de vetores

A arquitetura neste documento usa o Spanner como o armazenamento de dados para o gráfico de conhecimentos e as incorporações de vetores. Se os seus grafos de conhecimentos empresariais já existirem noutro local (como numa plataforma como o Neo4j), pode considerar usar uma base de dados vetorial para as incorporações. No entanto, esta abordagem requer um esforço de gestão adicional e pode custar mais. O Spanner oferece um armazenamento de dados consolidado e consistente a nível global para estruturas de grafos e incorporações de vetores. Um arquivo de dados deste tipo permite uma gestão de dados unificada, o que ajuda a otimizar o custo, o desempenho, a segurança, a governação e a eficiência operacional.

Tempo de execução do agente

Nesta arquitetura de referência, o agente é implementado no Vertex AI Agent Engine, que fornece um tempo de execução gerido para agentes de IA. Outras opções que pode considerar incluem o Cloud Run e o Google Kubernetes Engine (GKE). Uma discussão dessas opções está fora do âmbito deste documento.

Superfície de referência com RAG

Conforme abordado na secção Exemplos de utilização, o GraphRAG permite a obtenção inteligente de dados para fundamentação em muitos cenários. No entanto, se os dados de origem que usa para aumentar os comandos não tiverem inter-relações complexas, a RAG pode ser uma escolha adequada para a sua aplicação de IA generativa.

As seguintes arquiteturas de referência mostram como pode criar a infraestrutura necessária para a RAG em Google Cloud usando bases de dados geridas com vetores ou produtos de pesquisa vetorial especializados:

Considerações de design

Esta secção descreve os fatores de design, as práticas recomendadas e as recomendações a ter em conta quando usa esta arquitetura de referência para desenvolver uma topologia que satisfaça os seus requisitos específicos de segurança, fiabilidade, custo e desempenho.

As orientações nesta secção não são exaustivas. Consoante os requisitos da sua carga de trabalho e os Google Cloud produtos e funcionalidades de terceiros Google Cloud que usa, podem existir fatores de design e compromissos adicionais que deve considerar.

Segurança, privacidade e conformidade

Esta secção descreve as considerações e as recomendações de design para criar uma topologia que cumpra os requisitos de segurança e conformidade da sua carga de trabalho. Google Cloud

Produto	Considerações e recomendações de design
Vertex AI	A Vertex AI suporta Google Cloud controlos de segurança que pode usar para cumprir os seus requisitos de residência de dados, encriptação de dados, segurança de rede e transparência de acesso. Para mais informações, consulte a seguinte documentação: Controlos de segurança para o Vertex AI Controlos de segurança para IA generativa IA generativa e administração de dados Os modelos de IA generativa podem produzir respostas prejudiciais, especialmente quando são explicitamente solicitadas para tal. Para melhorar a segurança e mitigar o potencial de utilização indevida, pode configurar filtros de conteúdo para atuarem como barreiras a respostas prejudiciais. Para mais informações, consulte o artigo Filtros de segurança e de conteúdo.
Gráfico do Spanner	Por predefinição, os dados armazenados no Spanner Graph são encriptados através da encriptação em repouso do Google Cloud Google-owned and Google-managed encryption keys. Se precisar de usar chaves de encriptação que controla e gere, pode usar chaves de encriptação geridas pelo cliente (CMEKs). Para mais informações, consulte o artigo Acerca das CMEK.
Funções do Cloud Run	Por predefinição, o Cloud Run encripta os dados com Google-owned and Google-managed encryption keys. Para proteger os seus contentores com chaves que controla, pode usar CMEKs. Para mais informações, consulte o artigo Usar chaves de encriptação geridas pelo cliente. Para garantir que apenas as imagens de contentores autorizadas são implementadas no Cloud Run, pode usar a autorização binária. O Cloud Run ajuda a cumprir os requisitos de residência dos dados. As suas funções do Cloud Run são executadas na região selecionada.
Cloud Storage	Por predefinição, os dados armazenados no Cloud Storage são encriptados através de Google-owned and Google-managed encryption keys. Se necessário, pode usar CMEKs ou as suas próprias chaves que gere através de um método de gestão externo, como chaves de encriptação fornecidas pelo cliente (CSEKs). Para mais informações, consulte Opções de encriptação de dados. O Cloud Storage suporta dois métodos para conceder aos utilizadores acesso aos seus contentores e objetos: gestão de identidade e de acesso (IAM) e listas de controlo de acesso (ACLs). Na maioria dos casos, recomendamos a utilização do IAM, que lhe permite conceder autorizações ao nível do contentor e do projeto. Para mais informações, consulte o artigo Vista geral do controlo de acesso. Os dados que carrega para o subsistema de carregamento de dados através do Cloud Storage podem incluir dados confidenciais. Pode usar a proteção de dados confidenciais para descobrir, classificar e remover a identificação de dados confidenciais. Para mais informações, consulte o artigo Usar a proteção de dados confidenciais com o Cloud Storage. O Cloud Storage ajuda a cumprir os requisitos de residência dos dados. Os dados são armazenados ou replicados na região que especificar.
Pub/Sub	Por predefinição, o Pub/Sub encripta todas as mensagens, tanto em repouso como em trânsito, através da Google-owned and Google-managed encryption keys. O Pub/Sub suporta a utilização de CMEKs para a encriptação de mensagens na camada de aplicação. Para mais informações, consulte o artigo Configure a encriptação de mensagens. Se tiver requisitos de residência de dados, para garantir que os dados das mensagens são armazenados em localizações específicas, pode configurar políticas de armazenamento de mensagens.
Cloud Logging	Os registos de auditoria da atividade do administrador estão ativados por predefinição para todos os Google Cloud serviços que são usados nesta arquitetura de referência. Estes registos registam chamadas API ou outras ações que modificam a configuração ou os metadados dosGoogle Cloud recursos. Para os Google Cloud serviços usados nesta arquitetura, pode ativar os registos de auditoria de acesso a dados. Estes registos permitem-lhe acompanhar as chamadas API que leem a configuração ou os metadados de recursos ou pedidos de utilizadores para criar, modificar ou ler dados de recursos fornecidos pelo utilizador. Para ajudar a cumprir os requisitos de residência dos dados, pode configurar o Cloud Logging para armazenar dados de registo na região que especificar. Para mais informações, consulte o artigo Regionalize os seus registos.

Para ver princípios e recomendações de segurança específicos das cargas de trabalho de IA e ML, consulte o artigo Perspetiva de IA e ML: segurança no Google Cloud Well-Architected Framework.

Fiabilidade

Esta secção descreve as considerações e as recomendações de design para criar e operar uma infraestrutura fiável para a sua implementação no Google Cloud.

Produto	Considerações e recomendações de design
Vertex AI	O Vertex AI suporta a quota partilhada dinâmica (DSQ) para modelos Gemini. O DSQ ajuda a gerir de forma flexível os pedidos de pagamento conforme o uso e elimina a necessidade de gerir a quota manualmente ou pedir aumentos da quota. O DSQ atribui dinamicamente os recursos disponíveis para um determinado modelo e região entre os clientes ativos. Com o DSQ, não existem limites de quota predefinidos para clientes individuais. Se o número de pedidos exceder a capacidade atribuída, é devolvido o código de erro 429. Para cargas de trabalho críticas para a empresa e que requerem consistentemente um elevado débito, pode reservar o débito através do débito aprovisionado. Se os dados puderem ser partilhados em várias regiões ou países, pode usar um ponto final global.
Gráfico do Spanner	O Spanner foi concebido para oferecer uma elevada disponibilidade de dados e escalabilidade global. Para ajudar a garantir a disponibilidade, mesmo durante uma indisponibilidade da região, o Spanner oferece configurações multirregionais, que replicam os dados em várias zonas em várias regiões. Além destas capacidades de resiliência incorporadas, o Spanner oferece as seguintes funcionalidades para suportar estratégias abrangentes de recuperação de desastres: Proteção contra a eliminação de bases de dados Capacidades de cópia de segurança e restauro robustas, incluindo cópias agendadas e entre regiões Recuperação pontual (PITR) para proteção contra corrupção de dados lógicos, erros do operador ou escritas acidentais durante um período máximo de sete dias Para mais informações, consulte o artigo Vista geral da recuperação de desastres.
Funções do Cloud Run	O Cloud Run é um serviço regional. Os dados são armazenados de forma síncrona em várias zonas numa região. O tráfego é automaticamente balanceado por carga nas zonas. Se ocorrer uma indisponibilidade da zona, o Cloud Run continua a ser executado e os dados não são perdidos. Se ocorrer uma indisponibilidade na região, o serviço deixa de ser executado até que a Google resolva a indisponibilidade.
Cloud Storage	Pode criar contentores do Cloud Storage num de três tipos de localização: regional, de duas regiões ou multirregional. Os dados armazenados em contentores regionais são replicados de forma síncrona em várias zonas numa região. Para uma maior disponibilidade, pode usar contentores de duas regiões ou multirregionais, onde os dados são replicados de forma assíncrona entre regiões.
Pub/Sub	Para evitar erros durante períodos de picos transitórios no tráfego de mensagens, pode limitar a taxa de pedidos de publicação configurando o controlo de fluxo nas definições do publicador. Para processar tentativas de publicação com falhas, ajuste as variáveis de pedido de repetição conforme necessário. Para mais informações, consulte o artigo Pedidos de repetição.
Todos os produtos na arquitetura	Depois de implementar a sua carga de trabalho no Google Cloud, use o Active Assist para receber recomendações para otimizar ainda mais a fiabilidade dos seus recursos na nuvem. Reveja as recomendações e aplique-as conforme adequado para o seu ambiente. Para mais informações, consulte o artigo Encontre recomendações no Active Assist.

Para ver princípios e recomendações de fiabilidade específicos das cargas de trabalho de IA e ML, consulte a secção Perspetiva de IA e ML: fiabilidade no Well-Architected Framework.

Otimização de custos

Esta secção fornece orientações para otimizar o custo de configuração e funcionamento de uma topologia que cria através desta arquitetura de referência. Google Cloud

Produto	Considerações e recomendações de design
Vertex AI	Para analisar e gerir os custos do Vertex AI, recomendamos que crie uma base de consultas por segundo (QPS) e tokens por segundo (TPS) e monitorize estas métricas após a implementação. A base também ajuda no planeamento da capacidade. Por exemplo, a base ajuda a determinar quando o débito processado é necessário. Selecionar o modelo adequado para a sua aplicação de IA generativa é uma decisão crítica que afeta diretamente os custos e o desempenho. Para identificar o modelo que oferece um equilíbrio ideal entre o desempenho e o custo para o seu exemplo de utilização específico, teste os modelos de forma iterativa. Recomendamos que comece com o modelo mais rentável e avance gradualmente para opções mais avançadas. O comprimento dos seus comandos (entrada) e das respostas geradas (saída) afeta diretamente o desempenho e o custo. Escreva comandos curtos, diretos e que ofereçam contexto suficiente. Crie comandos para receber respostas concisas do modelo. Por exemplo, inclua expressões como "resume em 2 frases" ou "lista 3 pontos-chave". Para mais informações, consulte as práticas recomendadas para o design de comandos. Para reduzir o custo dos pedidos que contêm conteúdo repetido com um número elevado de tokens de entrada, use a colocação em cache de contexto. Quando relevante, considere a previsão em lote. Os pedidos em lote são faturados a um preço inferior ao dos pedidos padrão.
Gráfico do Spanner	Use o escalador automático gerido para ajustar dinamicamente a capacidade de computação das bases de dados de grafos do Spanner com base na utilização da CPU e nas necessidades de armazenamento. Muitas vezes, é necessária uma capacidade mínima, mesmo para cargas de trabalho pequenas. Para uma capacidade de computação previsível, estável ou de base, compre descontos por utilização garantida (DUGs). Os CUDs oferecem descontos significativos em troca de um compromisso de um determinado gasto por hora na capacidade de computação. Quando copia cópias de segurança para diferentes regiões para recuperação de desastres ou conformidade, considere os custos de saída da rede. Para ajudar a reduzir os custos, copie apenas as cópias de segurança essenciais.
Funções do Cloud Run	Quando cria funções do Cloud Run, pode especificar a quantidade de memória e CPU a atribuir. Para controlar os custos, comece com as atribuições de CPU e memória predefinidas (mínimas). Para melhorar o desempenho, pode aumentar a atribuição configurando o limite de CPU e o limite de memória. Para mais informações, consulte a seguinte documentação: Configure os limites de memória para os serviços Configure os limites de CPU para serviços Se conseguir prever os requisitos de CPU e memória, pode poupar dinheiro com os CUDs.
Cloud Storage	Para o contentor do Cloud Storage no subsistema de carregamento de dados, escolha uma classe de armazenamento adequada com base nos requisitos da sua carga de trabalho para retenção de dados e frequência de acesso. Por exemplo, para controlar os custos de armazenamento, pode escolher a classe Standard e usar a Gestão do ciclo de vida de objetos. Esta abordagem permite a mudança automática de objetos para uma classe de armazenamento de menor custo ou a eliminação automática de objetos com base em condições especificadas.
Cloud Logging	Para controlar o custo do armazenamento de registos, pode fazer o seguinte: Reduza o volume de registos excluindo ou filtrando entradas do registo desnecessárias. Para mais informações, consulte o artigo Filtros de exclusão. Reduza o período de retenção de registos. Para mais informações, consulte o artigo Configure a retenção personalizada.
Todos os produtos na arquitetura	Depois de implementar a sua carga de trabalho no Google Cloud, use o Active Assist para receber recomendações para otimizar ainda mais o custo dos seus recursos na nuvem. Reveja as recomendações e aplique-as conforme adequado para o seu ambiente. Para mais informações, consulte o artigo Encontre recomendações no Active Assist.

Para estimar o custo dos seus Google Cloud recursos, use a Google Cloud calculadora de preços.

Para ver princípios e recomendações de otimização de custos específicos das cargas de trabalho de IA e ML, consulte o artigo Perspetiva de IA e ML: otimização de custos no Well-Architected Framework.

Otimização do desempenho

Esta secção descreve as considerações e as recomendações de design para criar uma topologia no Google Cloud que cumpra os requisitos de desempenho das suas cargas de trabalho.

Produto	Considerações e recomendações de design
Vertex AI	Selecionar o modelo adequado para a sua aplicação de IA generativa é uma decisão crítica que afeta diretamente os custos e o desempenho. Para identificar o modelo que oferece um equilíbrio ideal entre o desempenho e o custo para o seu exemplo de utilização específico, teste os modelos de forma iterativa. Recomendamos que comece com o modelo mais rentável e avance gradualmente para opções mais avançadas. O comprimento dos seus comandos (entrada) e das respostas geradas (saída) afeta diretamente o desempenho e o custo. Escreva comandos curtos, diretos e que ofereçam contexto suficiente. Crie comandos para receber respostas concisas do modelo. Por exemplo, inclua expressões como "resume em 2 frases" ou "lista 3 pontos-chave". Para mais informações, consulte as práticas recomendadas para o design de comandos. O otimizador de comandos da Vertex AI permite-lhe melhorar e otimizar rapidamente o desempenho dos comandos em grande escala e elimina a necessidade de reescrever manualmente. O otimizador ajuda a adaptar os comandos de forma eficiente em diferentes modelos.
Gráfico do Spanner	Para ver recomendações de otimização do desempenho do Spanner Graph, consulte a seguinte documentação: Práticas recomendadas para criar um esquema do gráfico do Spanner Práticas recomendadas para otimizar as consultas do Spanner Graph
Funções do Cloud Run	Por predefinição, a cada instância da função do Cloud Run é atribuído um CPU e 256 MiB de memória. Consoante os seus requisitos de desempenho, pode configurar limites de CPU e memória. Para mais informações, consulte a seguinte documentação: Configure os limites de memória para os serviços Configure os limites de CPU para serviços Para mais orientações sobre a otimização do desempenho, consulte as sugestões gerais de desenvolvimento do Cloud Run.
Cloud Storage	Para carregar ficheiros grandes, pode usar carregamentos compostos paralelos. Com esta estratégia, o ficheiro grande é dividido em partes. Os fragmentos são carregados para o Cloud Storage em paralelo e, em seguida, os dados são recompostos na nuvem. Quando a largura de banda da rede e a velocidade do disco não são fatores limitativos, os carregamentos compostos paralelos podem ser mais rápidos do que as operações de carregamento normais. No entanto, esta estratégia tem algumas limitações e implicações de custos. Para mais informações, consulte o artigo Carregamentos compostos paralelos.
Todos os produtos na arquitetura	Depois de implementar a sua carga de trabalho no Google Cloud, use o Active Assist para receber recomendações para otimizar ainda mais o desempenho dos seus recursos na nuvem. Reveja as recomendações e aplique-as conforme adequado para o seu ambiente. Para mais informações, consulte o artigo Encontre recomendações no Active Assist.

Para ver princípios e recomendações de otimização do desempenho específicos para cargas de trabalho de IA e ML, consulte Perspetiva de IA e ML: otimização do desempenho no Well-Architected Framework.

Implementação

Para explorar como o GraphRAG funciona no Google Cloud, transfira e execute o seguinte bloco de notas do Jupyter a partir do GitHub: GraphRAG no Google Cloud com o Spanner Graph e o Vertex AI Agent Engine.

O que se segue?

Crie aplicações GraphRAG com o Spanner Graph e o LangChain
Escolha modelos e infraestrutura para as suas aplicações de IA generativa
Infraestrutura de RAG para IA generativa com a Vertex AI e a pesquisa vetorial
Infraestrutura de RAG para IA generativa com o Vertex AI e o AlloyDB para PostgreSQL
Infraestrutura de RAG para IA generativa com o GKE e o Cloud SQL
Infraestrutura de RAG para IA generativa com o Google Agentspace e o Vertex AI
Para saber mais sobre os princípios de arquitetura e as recomendações para cargas de trabalho de IA no Google Cloud, reveja o Well-Architected Framework: perspetiva de IA e AA.
Para ver mais arquiteturas de referência, diagramas e práticas recomendadas, explore o Centro de arquitetura na nuvem.

Colaboradores

Autores:

Tristan Li | Principal Architect, AI/ML
Kumar Dhanagopal | Cross-Product Solution Developer

Outros colaboradores:

Ahsif Sheikh | Engenheiro de clientes de IA
Ashish Chauhan | AI Customer Engineer
Greg Brosman | Gestor de produtos
Lukas Bruderer | Product Manager, Cloud AI
Nanditha Embar | Engenheira de clientes de IA
Piyush Mathur | Product Manager, Spanner
Smitha Venkat | Engenheira de clientes de IA