Este documento fornece uma arquitetura de referência para ajudar a criar infraestrutura para aplicações de IA generativa GraphRAG no Google Cloud. O público-alvo destinado inclui arquitetos, programadores e administradores que criam e gerem sistemas de obtenção de informações inteligentes. O documento pressupõe uma compreensão fundamental da IA, da gestão de dados de grafos e dos conceitos do Gráfico de Conhecimento. Este documento não fornece orientações específicas para a conceção e o desenvolvimento de aplicações GraphRAG.
O GraphRAG é uma abordagem baseada em grafos para a geração aumentada de recuperação (RAG). A RAG ajuda a fundamentar as respostas geradas pela IA, aumentando os comandos com dados contextualmente relevantes que são obtidos através da pesquisa vetorial. O GraphRAG combina a pesquisa vetorial com uma consulta do gráfico de conhecimento para obter dados contextuais que refletem melhor a interligação de dados de diversas fontes. Os comandos aumentados com o GraphRAG podem gerar respostas de IA mais detalhadas e relevantes.
Arquitetura
O diagrama seguinte mostra uma arquitetura para uma aplicação de IA generativa compatível com GraphRAG em Google Cloud:
A arquitetura no diagrama anterior consiste em dois subsistemas: carregamento de dados e publicação. As secções seguintes descrevem a finalidade dos subsistemas e o fluxo de dados dentro e entre os subsistemas.
Subsistema de carregamento de dados
O subsistema de carregamento de dados carrega dados de origens externas e, em seguida, prepara os dados para o GraphRAG. O fluxo de preparação e carregamento de dados envolve os seguintes passos:
- Os dados são carregados para um contentor do Cloud Storage. Estes dados podem ser carregados por um analista de dados, carregados a partir de uma base de dados ou transmitidos a partir de qualquer origem.
- Quando os dados são carregados, é enviada uma mensagem para um tópico do Pub/Sub.
- O Pub/Sub aciona uma função do Cloud Run para processar os dados carregados.
- A função do Cloud Run cria um gráfico de conhecimento a partir dos ficheiros de entrada usando a API Gemini no Vertex AI e ferramentas como o
LLMGraphTransformer
do LangChain. - A função armazena o gráfico de conhecimento numa base de dados de gráficos do Spanner.
- A função segmenta o conteúdo textual dos ficheiros de dados em unidades detalhadas através de ferramentas como o
RecursiveCharacterTextSplitter
do LangChain ou o Layout Parser do Document AI. - A função cria incorporações vetoriais dos segmentos de texto através das APIs Vertex AI Embeddings.
- A função armazena as incorporações de vetores e os nós do gráfico associados no Spanner Graph.
As incorporações vetoriais servem de base para a obtenção semântica. Os nós do gráfico de conhecimentos permitem a análise e a travessia de relações e padrões de dados complexos.
Subsistema de publicação
O subsistema de publicação gere o ciclo de vida de consulta-resposta entre a aplicação de IA generativa e os respetivos utilizadores. O fluxo de publicação envolve os seguintes passos:
- Um utilizador envia uma consulta em linguagem natural a um agente de IA, que é implementado no Vertex AI Agent Engine.
- O agente processa a consulta da seguinte forma:
- Converte a consulta em incorporações vetoriais através das APIs Vertex AI Embeddings.
- Recupera nós do gráfico relacionados com a consulta através de uma pesquisa de semelhança vetorial na base de dados de incorporações.
- Obtém dados relacionados com a consulta percorrendo o gráfico de conhecimentos.
- Aumenta o comando combinando a consulta original com os dados do gráfico obtidos.
- Usa a API AI Applications Ranking para classificar os resultados, que consistem em nós e arestas que são obtidos da base de dados de grafos. A classificação baseia-se na relevância semântica para a consulta.
- Resume os resultados chamando a API Gemini do Vertex AI.
- Em seguida, o agente envia o resultado resumido ao utilizador.
Pode armazenar e ver registos de atividade de resposta a consultas no Cloud Logging e configurar a monitorização baseada em registos através do Cloud Monitoring.
Produtos usados
Esta arquitetura de referência usa os seguintes produtos e ferramentas Google:
- Gráfico do Spanner: uma base de dados de grafos que oferece as funcionalidades de escalabilidade, disponibilidade e consistência do Spanner.
- Vertex AI: uma plataforma de ML que lhe permite preparar e implementar modelos de ML e aplicações de IA, bem como personalizar MDIs/CE para utilização em aplicações com tecnologia de IA.
- Funções do Cloud Run: uma plataforma de computação sem servidor que lhe permite executar funções de finalidade única diretamente no Google Cloud.
- Cloud Storage: um serviço de armazenamento de objetos de baixo custo e sem limite para diversos tipos de dados. Os dados podem ser acedidos a partir do interior e do exterior Google Cloud, e são replicados em várias localizações para redundância.
- Pub/Sub: um serviço de mensagens assíncrono e escalável que desassocia os serviços que produzem mensagens dos serviços que processam essas mensagens.
- Cloud Logging: um sistema de gestão de registos em tempo real com armazenamento, pesquisa, análise e alertas.
- Cloud Monitoring: um serviço que oferece visibilidade do desempenho, da disponibilidade e do estado das suas aplicações e infraestrutura.
Exemplos de utilização
O GraphRAG facilita a obtenção inteligente de dados para exemplos de utilização em várias indústrias. Esta secção descreve alguns exemplos de utilização nos setores de cuidados de saúde, finanças, serviços jurídicos e indústria.
Cuidados de saúde e produtos farmacêuticos: apoio à decisão clínica
Nos sistemas de apoio à decisão clínica, o GraphRAG integra grandes quantidades de dados da literatura médica, registos de saúde eletrónicos dos doentes, bases de dados de interação medicamentosa e resultados de ensaios clínicos num gráfico de conhecimentos unificado. Quando os clínicos e os investigadores consultam os sintomas e os medicamentos atuais de um paciente, o GraphRAG percorre o gráfico de conhecimento para identificar condições relevantes e potenciais interações medicamentosas. Também pode gerar recomendações de tratamento personalizadas com base noutros dados, como o perfil genético do paciente. Este tipo de obtenção de informações fornece respostas mais ricas em contexto e baseadas em provas do que a correspondência de palavras-chave.
Serviços financeiros: unificar dados financeiros
As empresas de serviços financeiros usam grafos de conhecimentos para dar aos seus analistas uma vista unificada e estruturada dos dados de origens distintas, como relatórios de analistas, reuniões de investidores e avaliações de risco. Os grafos de conhecimento identificam entidades de dados importantes, como empresas e executivos, e mapeiam as relações cruciais entre as entidades. Esta abordagem oferece uma rede de dados rica e interligada, o que permite uma análise financeira mais detalhada e eficiente. Os analistas podem descobrir informações anteriormente ocultas, como dependências complexas da cadeia de abastecimento, membros de conselhos de administração que se sobrepõem entre concorrentes e exposição a riscos geopolíticos complexos.
Serviços jurídicos: pesquisa de casos e análise de precedentes
No setor jurídico, o GraphRAG pode ser usado para gerar recomendações jurídicas personalizadas com base em precedentes, estatutos, jurisprudência, atualizações regulamentares e documentos internos. Quando os advogados se preparam para casos, podem fazer perguntas detalhadas sobre argumentos legais específicos, decisões anteriores em casos semelhantes ou as implicações de nova legislação. O GraphRAG tira partido da interligação dos conhecimentos jurídicos disponíveis para identificar precedentes relevantes e explicar a respetiva aplicabilidade. Também pode sugerir contra-argumentos ao analisar as relações entre conceitos legais, estatutos e interpretações judiciais. Com esta abordagem, os profissionais jurídicos podem obter estatísticas mais completas e precisas do que os métodos convencionais de obtenção de conhecimentos.
Indústria transformadora e cadeia de abastecimento: desbloquear o conhecimento institucional
As operações de fabrico e da cadeia de abastecimento requerem um elevado grau de precisão. Os conhecimentos necessários para manter o nível de precisão exigido estão frequentemente ocultos em milhares de documentos de procedimentos operacionais padrão (POP) estáticos e densos. Quando uma linha de produção ou uma máquina numa fábrica falha, ou se ocorrer um problema logístico, os engenheiros e os técnicos perdem frequentemente tempo crítico a pesquisar documentos PDF não relacionados para diagnosticar e resolver o problema. Os grafos de conhecimentos e a IA conversacional podem ser combinados para transformar o conhecimento institucional oculto num parceiro de diagnóstico interativo.
Alternativas de design
A arquitetura descrita neste documento é modular. Pode adaptar determinados componentes da arquitetura para usar produtos, ferramentas e tecnologias alternativos, consoante os seus requisitos.
Criar o Gráfico de Conhecimento
Pode usar a ferramenta LLMGraphTransformer
do LangChain para criar um gráfico de conhecimentos
de raiz. Ao especificar o esquema do gráfico com parâmetros como LLMGraphTransformer
, allowed_nodes
, allowed_relationships
, node_properties
e relationship_properties
, pode melhorar a qualidade do gráfico de conhecimentos resultante. No entanto, o LLMGraphTransformer
pode extrair entidades de domínios genéricos, pelo que pode não ser adequado para domínios de nicho, como cuidados de saúde ou produtos farmacêuticos. Além disso, se a sua organização já tiver um processo robusto para criar gráficos de conhecimentos, o subsistema de carregamento de dados apresentado nesta arquitetura de referência é opcional.
Armazenar o Gráfico de Conhecimento e as incorporações de vetores
A arquitetura neste documento usa o Spanner como o armazenamento de dados para o gráfico de conhecimentos e as incorporações de vetores. Se os seus grafos de conhecimentos empresariais já existirem noutro local (como numa plataforma como o Neo4j), pode considerar usar uma base de dados vetorial para as incorporações. No entanto, esta abordagem requer um esforço de gestão adicional e pode custar mais. O Spanner oferece um armazenamento de dados consolidado e consistente a nível global para estruturas de grafos e incorporações de vetores. Um arquivo de dados deste tipo permite uma gestão de dados unificada, o que ajuda a otimizar o custo, o desempenho, a segurança, a governação e a eficiência operacional.
Tempo de execução do agente
Nesta arquitetura de referência, o agente é implementado no Vertex AI Agent Engine, que fornece um tempo de execução gerido para agentes de IA. Outras opções que pode considerar incluem o Cloud Run e o Google Kubernetes Engine (GKE). Uma discussão dessas opções está fora do âmbito deste documento.
Superfície de referência com RAG
Conforme abordado na secção Exemplos de utilização, o GraphRAG permite a obtenção inteligente de dados para fundamentação em muitos cenários. No entanto, se os dados de origem que usa para aumentar os comandos não tiverem inter-relações complexas, a RAG pode ser uma escolha adequada para a sua aplicação de IA generativa.
As seguintes arquiteturas de referência mostram como pode criar a infraestrutura necessária para a RAG em Google Cloud usando bases de dados geridas com vetores ou produtos de pesquisa vetorial especializados:
- Infraestrutura RAG para IA generativa com a Vertex AI e a pesquisa vetorial
- Infraestrutura de RAG para IA generativa com o Vertex AI e o AlloyDB para PostgreSQL
- Infraestrutura de RAG para IA generativa com o GKE e o Cloud SQL
- Infraestrutura RAG para IA generativa com o Google Agentspace e a Vertex AI.
Considerações de design
Esta secção descreve os fatores de design, as práticas recomendadas e as recomendações a ter em conta quando usa esta arquitetura de referência para desenvolver uma topologia que satisfaça os seus requisitos específicos de segurança, fiabilidade, custo e desempenho.
As orientações nesta secção não são exaustivas. Consoante os requisitos da sua carga de trabalho e os Google Cloud produtos e funcionalidades de terceiros que usa, podem existir fatores de design e compromissos adicionais que deve considerar.
Segurança, privacidade e conformidade
Esta secção descreve as considerações e as recomendações de design para criar uma topologia que cumpra os requisitos de segurança e conformidade da sua carga de trabalho. Google Cloud
Produto | Considerações e recomendações de design |
---|---|
Vertex AI | A Vertex AI suporta Google Cloud controlos de segurança que pode usar para cumprir os seus requisitos de residência de dados, encriptação de dados, segurança de rede e transparência de acesso. Para mais informações, consulte a seguinte documentação:
Os modelos de IA generativa podem produzir respostas prejudiciais, especialmente quando são explicitamente solicitadas para tal. Para melhorar a segurança e mitigar o potencial de utilização indevida, pode configurar filtros de conteúdo para atuarem como barreiras a respostas prejudiciais. Para mais informações, consulte o artigo Filtros de segurança e de conteúdo. |
Gráfico do Spanner | Por predefinição, os dados armazenados no Spanner Graph são encriptados através da encriptação em repouso do Google Cloud Google-owned and Google-managed encryption keys. Se precisar de usar chaves de encriptação que controla e gere, pode usar chaves de encriptação geridas pelo cliente (CMEKs). Para mais informações, consulte o artigo Acerca das CMEK. |
Funções do Cloud Run | Por predefinição, o Cloud Run encripta os dados através da utilização de Google-owned and Google-managed encryption keys. Para proteger os seus contentores com chaves que controla, pode usar CMEKs. Para mais informações, consulte o artigo Usar chaves de encriptação geridas pelo cliente. Para garantir que apenas as imagens de contentores autorizadas são implementadas no Cloud Run, pode usar a autorização binária. O Cloud Run ajuda a cumprir os requisitos de residência dos dados. As suas funções do Cloud Run são executadas na região selecionada. |
Cloud Storage |
Por predefinição, os dados armazenados no Cloud Storage são encriptados através de Google-owned and Google-managed encryption keys. Se necessário, pode usar CMEKs ou as suas próprias chaves que gere através de um método de gestão externo, como chaves de encriptação fornecidas pelo cliente (CSEKs). Para mais informações, consulte Opções de encriptação de dados. O Cloud Storage suporta dois métodos para conceder aos utilizadores acesso aos seus contentores e objetos: gestão de identidade e de acesso (IAM) e listas de controlo de acesso (ACLs). Na maioria dos casos, recomendamos a utilização do IAM, que lhe permite conceder autorizações ao nível do contentor e do projeto. Para mais informações, consulte o artigo Vista geral do controlo de acesso. Os dados que carrega para o subsistema de carregamento de dados através do Cloud Storage podem incluir dados confidenciais. Pode usar a proteção de dados confidenciais para descobrir, classificar e remover a identificação de dados confidenciais. Para mais informações, consulte o artigo Usar a proteção de dados confidenciais com o Cloud Storage. O Cloud Storage ajuda a cumprir os requisitos de residência dos dados. Os dados são armazenados ou replicados na região que especificar. |
Pub/Sub | Por predefinição, o Pub/Sub encripta todas as mensagens, tanto em repouso como em trânsito, através da Google-owned and Google-managed encryption keys. O Pub/Sub suporta a utilização de CMEKs para a encriptação de mensagens na camada de aplicação. Para mais informações, consulte o artigo Configure a encriptação de mensagens. Se tiver requisitos de residência de dados, para garantir que os dados das mensagens são armazenados em localizações específicas, pode configurar políticas de armazenamento de mensagens. |
Cloud Logging | Os registos de auditoria da atividade do administrador estão ativados por predefinição para todos os Google Cloud serviços que são usados nesta arquitetura de referência. Estes registos registam chamadas API ou outras ações que modificam a configuração ou os metadados dosGoogle Cloud recursos. Para os Google Cloud serviços usados nesta arquitetura, pode ativar os registos de auditoria de acesso a dados. Estes registos permitem-lhe acompanhar as chamadas API que leem a configuração ou os metadados de recursos ou pedidos de utilizadores para criar, modificar ou ler dados de recursos fornecidos pelo utilizador. Para ajudar a cumprir os requisitos de residência dos dados, pode configurar o Cloud Logging para armazenar dados de registo na região que especificar. Para mais informações, consulte o artigo Regionalize os seus registos. |
Para ver princípios e recomendações de segurança específicos das cargas de trabalho de IA e ML, consulte o artigo Perspetiva de IA e ML: segurança no Google Cloud Well-Architected Framework.
Fiabilidade
Esta secção descreve as considerações e as recomendações de design para criar e operar uma infraestrutura fiável para a sua implementação no Google Cloud.
Produto | Considerações e recomendações de design |
---|---|
Vertex AI | O Vertex AI suporta a quota partilhada dinâmica (DSQ) para modelos Gemini. O DSQ ajuda a gerir de forma flexível os pedidos de pagamento conforme o uso e elimina a necessidade de gerir a quota manualmente ou pedir aumentos de quota. O DSQ atribui dinamicamente os recursos disponíveis para um determinado modelo e região entre os clientes ativos. Com o DSQ, não existem limites de quota predefinidos para clientes individuais. Se o número de pedidos exceder a capacidade atribuída, é devolvido o código de erro 429. Para cargas de trabalho críticas para a empresa e que requerem consistentemente um elevado débito, pode reservar o débito através do débito aprovisionado. Se os dados puderem ser partilhados em várias regiões ou países, pode usar um ponto final global. |
Gráfico do Spanner | O Spanner foi concebido para oferecer uma elevada disponibilidade de dados e escalabilidade global. Para ajudar a garantir a disponibilidade, mesmo durante uma indisponibilidade da região, o Spanner oferece configurações multirregionais, que replicam os dados em várias zonas em várias regiões. Além destas capacidades de resiliência incorporadas, o Spanner oferece as seguintes funcionalidades para suportar estratégias abrangentes de recuperação de desastres:
Para mais informações, consulte o artigo Vista geral da recuperação de desastres. |
Funções do Cloud Run | O Cloud Run é um serviço regional. Os dados são armazenados de forma síncrona em várias zonas numa região. O tráfego é automaticamente balanceado por carga nas zonas. Se ocorrer uma indisponibilidade da zona, o Cloud Run continua a ser executado e os dados não são perdidos. Se ocorrer uma indisponibilidade na região, o serviço deixa de ser executado até que a Google resolva a indisponibilidade. |
Cloud Storage | Pode criar contentores do Cloud Storage num de três tipos de localização: regional, de duas regiões ou multirregional. Os dados armazenados em contentores regionais são replicados de forma síncrona em várias zonas numa região. Para uma maior disponibilidade, pode usar contentores de duas regiões ou multirregionais, onde os dados são replicados de forma assíncrona entre regiões. |
Pub/Sub | Para evitar erros durante períodos de picos transitórios no tráfego de mensagens, pode limitar a taxa de pedidos de publicação configurando o controlo de fluxo nas definições do publicador. Para processar tentativas de publicação com falhas, ajuste as variáveis de pedido de repetição conforme necessário. Para mais informações, consulte o artigo Pedidos de repetição. |
Todos os produtos na arquitetura | Depois de implementar a sua carga de trabalho no Google Cloud, use o Active Assist para receber recomendações para otimizar ainda mais a fiabilidade dos seus recursos de nuvem. Reveja as recomendações e aplique-as conforme adequado para o seu ambiente. Para mais informações, consulte o artigo Encontre recomendações no Centro de Recomendações. |
Para ver princípios e recomendações de fiabilidade específicos das cargas de trabalho de IA e AA, consulte a secção Perspetiva de IA e AA: fiabilidade no Well-Architected Framework.
Otimização de custos
Esta secção fornece orientações para otimizar o custo de configuração e funcionamento de uma topologia que cria através desta arquitetura de referência. Google Cloud
Produto | Considerações e recomendações de design |
---|---|
Vertex AI | Para analisar e gerir os custos do Vertex AI, recomendamos que crie uma base de consultas por segundo (QPS) e tokens por segundo (TPS) e monitorize estas métricas após a implementação. A base também ajuda no planeamento da capacidade. Por exemplo, a base ajuda a determinar quando o débito processado é necessário. Selecionar o modelo adequado para a sua aplicação de IA generativa é uma decisão crítica que afeta diretamente os custos e o desempenho. Para identificar o modelo que oferece um equilíbrio ideal entre o desempenho e o custo para o seu exemplo de utilização específico, teste os modelos de forma iterativa. Recomendamos que comece com o modelo mais rentável e avance gradualmente para opções mais avançadas. O comprimento dos seus comandos (entrada) e das respostas geradas (saída) afeta diretamente o desempenho e o custo. Escreva comandos que sejam curtos, diretos e ofereçam contexto suficiente. Crie comandos para receber respostas concisas do modelo. Por exemplo, inclua expressões como "resume em 2 frases" ou "lista 3 pontos-chave". Para mais informações, consulte as práticas recomendadas para o design de comandos. Para reduzir o custo dos pedidos que contêm conteúdo repetido com um número elevado de tokens de entrada, use a colocação em cache de contexto. Quando relevante, considere a previsão em lote. Os pedidos em lote são faturados a um preço inferior ao dos pedidos padrão. |
Gráfico do Spanner | Use o escalador automático gerido para ajustar dinamicamente a capacidade de computação das bases de dados de grafos do Spanner com base na utilização da CPU e nas necessidades de armazenamento. Muitas vezes, é necessária uma capacidade mínima, mesmo para cargas de trabalho pequenas. Para uma capacidade de computação previsível, estável ou de base, compre descontos por utilização garantida (DUGs). Os CUDs oferecem descontos significativos em troca de um compromisso de um determinado gasto por hora na capacidade de computação. Quando copia cópias de segurança para diferentes regiões para recuperação de desastres ou conformidade, considere os custos de saída da rede. Para ajudar a reduzir os custos, copie apenas as cópias de segurança essenciais. |
Funções do Cloud Run | Quando cria funções do Cloud Run, pode especificar a quantidade de memória e CPU a atribuir. Para controlar os custos, comece com as atribuições de CPU e memória predefinidas (mínimas). Para melhorar o desempenho, pode aumentar a atribuição configurando o limite de CPU e o limite de memória. Para mais informações, consulte a seguinte documentação: Se conseguir prever os requisitos de CPU e memória, pode poupar dinheiro com os CUDs. |
Cloud Storage | Para o contentor do Cloud Storage no subsistema de carregamento de dados, escolha uma classe de armazenamento adequada com base nos requisitos da sua carga de trabalho para retenção de dados e frequência de acesso. Por exemplo, para controlar os custos de armazenamento, pode escolher a classe Standard e usar a Gestão do ciclo de vida de objetos. Esta abordagem permite a mudança automática de objetos para uma classe de armazenamento de menor custo ou a eliminação automática de objetos com base em condições especificadas. |
Cloud Logging | Para controlar o custo do armazenamento de registos, pode fazer o seguinte:
|
Todos os produtos na arquitetura | Depois de implementar a sua carga de trabalho no Google Cloud, use o Active Assist para receber recomendações para otimizar ainda mais o custo dos seus recursos na nuvem. Reveja as recomendações e aplique-as conforme adequado para o seu ambiente. Para mais informações, consulte o artigo Encontre recomendações no Centro de Recomendações. |
Para estimar o custo dos seus Google Cloud recursos, use a Google Cloud calculadora de preços.
Para ver princípios e recomendações de otimização de custos específicos das cargas de trabalho de IA e ML, consulte o artigo Perspetiva de IA e ML: otimização de custos no Well-Architected Framework.
Otimização do desempenho
Esta secção descreve as considerações e as recomendações de design para criar uma topologia no Google Cloud que cumpra os requisitos de desempenho das suas cargas de trabalho.
Produto | Considerações e recomendações de design |
---|---|
Vertex AI |
Selecionar o modelo adequado para a sua aplicação de IA generativa é uma decisão crítica que afeta diretamente os custos e o desempenho. Para identificar o modelo que oferece um equilíbrio ideal entre o desempenho e o custo para o seu exemplo de utilização específico, teste os modelos de forma iterativa. Recomendamos que comece com o modelo mais rentável e avance gradualmente para opções mais avançadas. O comprimento dos seus comandos (entrada) e das respostas geradas (saída) afeta diretamente o desempenho e o custo. Escreva comandos que sejam curtos, diretos e ofereçam contexto suficiente. Crie comandos para receber respostas concisas do modelo. Por exemplo, inclua expressões como "resume em 2 frases" ou "lista 3 pontos-chave". Para mais informações, consulte as práticas recomendadas para o design de comandos. O otimizador de comandos da Vertex AI permite-lhe melhorar e otimizar rapidamente o desempenho dos comandos em grande escala e elimina a necessidade de reescrever manualmente. O otimizador ajuda a adaptar os comandos de forma eficiente em diferentes modelos. |
Gráfico do Spanner | Para ver recomendações de otimização do desempenho do Spanner Graph, consulte a seguinte documentação: |
Funções do Cloud Run | Por predefinição, a cada instância da função do Cloud Run é atribuído um CPU e 256 MiB de memória. Consoante os seus requisitos de desempenho, pode configurar limites de CPU e memória. Para mais informações, consulte a seguinte documentação: Para mais orientações sobre a otimização do desempenho, consulte as sugestões gerais de desenvolvimento do Cloud Run. |
Cloud Storage | Para carregar ficheiros grandes, pode usar carregamentos compostos paralelos. Com esta estratégia, o ficheiro grande é dividido em partes. Os fragmentos são carregados para o Cloud Storage em paralelo e, em seguida, os dados são recompostos na nuvem. Quando a largura de banda da rede e a velocidade do disco não são fatores limitativos, os carregamentos compostos paralelos podem ser mais rápidos do que as operações de carregamento normais. No entanto, esta estratégia tem algumas limitações e implicações de custos. Para mais informações, consulte o artigo Carregamentos compostos paralelos. |
Todos os produtos na arquitetura | Depois de implementar a sua carga de trabalho no Google Cloud, use o Active Assist para receber recomendações para otimizar ainda mais o desempenho dos seus recursos na nuvem. Reveja as recomendações e aplique-as conforme adequado para o seu ambiente. Para mais informações, consulte o artigo Encontre recomendações no Centro de Recomendações. |
Para ver princípios e recomendações de otimização do desempenho específicos para cargas de trabalho de IA e ML, consulte Perspetiva de IA e ML: otimização do desempenho no Well-Architected Framework.
Implementação
Para explorar como o GraphRAG funciona no Google Cloud, transfira e execute o seguinte bloco de notas do Jupyter a partir do GitHub: GraphRAG no Google Cloud com o Spanner Graph e o Vertex AI Agent Engine.
O que se segue?
- Crie aplicações GraphRAG com o Spanner Graph e o LangChain
- Escolha modelos e infraestrutura para as suas aplicações de IA generativa
- Infraestrutura RAG para IA generativa com a Vertex AI e a pesquisa vetorial
- Infraestrutura de RAG para IA generativa com o Vertex AI e o AlloyDB para PostgreSQL
- Infraestrutura de RAG para IA generativa com o GKE e o Cloud SQL
- Infraestrutura de RAG para IA generativa com o Google Agentspace e o Vertex AI
- Para saber mais sobre os princípios de arquitetura e as recomendações para cargas de trabalho de IA no Google Cloud, reveja o Well-Architected Framework: perspetiva de IA e AA.
- Para ver mais arquiteturas de referência, diagramas e práticas recomendadas, explore o Centro de arquitetura na nuvem.
Colaboradores
Autores:
- Tristan Li | Principal Architect, AI/ML
- Kumar Dhanagopal | Cross-Product Solution Developer
Outros colaboradores:
- Ahsif Sheikh | Engenheiro de clientes de IA
- Ashish Chauhan | AI Customer Engineer
- Greg Brosman | Gestor de produtos
- Lukas Bruderer | Product Manager, Cloud AI
- Nanditha Embar | Engenheira de clientes de IA
- Piyush Mathur | Product Manager, Spanner
- Smitha Venkat | Engenheira de clientes de IA