Computação confidencial para análise de dados e IA

Last reviewed 2024-12-20 UTC

Este documento oferece uma visão geral geral da computação confidencial, incluindo como ela pode ser usada para colaboração de dados segura e aprendizado federado. O documento também fornece informações sobre os serviços de computação confidencial no Google Cloud e referências de arquitetura para diferentes casos de uso.

Este documento tem como objetivo ajudar executivos de tecnologia a entender o potencial de negócios da computação confidencial com IA generativa e aplicada em vários setores, incluindo serviços financeiros e de saúde.

Visão geral da computação confidencial

As práticas de segurança de dados se concentram tradicionalmente na proteção de dados em repouso e em trânsito por meio de criptografia. A computação confidencial adiciona uma nova camada de proteção ao abordar a vulnerabilidade dos dados durante o uso ativo. Essa tecnologia garante que as informações sensíveis permaneçam confidenciais mesmo enquanto são processadas, ajudando a preencher uma lacuna crítica na segurança de dados.

Um ambiente de computação confidencial implementa a proteção dos dados em uso com um ambiente de execução confiável (TEE) baseado em hardware. Um TEE é uma área segura em um processador que protege a confidencialidade e a integridade do código e dos dados carregados nele. O TEE funciona como uma sala segura para operações sensíveis, o que reduz o risco de dados, mesmo que o sistema seja comprometido. Com a computação confidencial, os dados podem ser mantidos criptografados na memória durante o processamento.

Por exemplo, você pode usar a computação confidencial para análises de dados e aprendizado de máquina para:

  • Privacidade aprimorada:realize análises em conjuntos de dados sensíveis (por exemplo, registros médicos ou dados financeiros) sem expor os dados à infraestrutura subjacente ou às partes envolvidas no cálculo.
  • Colaboração segura:treine modelos de aprendizado de máquina em conjunto ou realize análises nos conjuntos de dados combinados de várias partes sem revelar dados individuais entre si. A computação confidencial aumenta a confiança e permite o desenvolvimento de modelos mais robustos e generalizáveis, principalmente em setores como saúde e finanças.
  • Melhoria na segurança de dados:mitigue o risco de violações de dados e acesso não autorizado, garantindo a conformidade com regulamentações de proteção de dados, como o Regulamento geral de proteção de dados (GDPR, na sigla em inglês) ou a Lei de Portabilidade e Responsabilidade de Seguros de Saúde (HIPAA, na sigla em inglês).
  • Maior confiança e transparência:forneça provas verificáveis de que as computações são realizadas nos dados pretendidos e em um ambiente seguro, aumentando a confiança entre as partes interessadas.

Como funciona um ambiente de computação confidencial

Os ambientes de computação confidencial têm as seguintes propriedades:

  • Criptografia de execução:o processador mantém todos os dados do ambiente de computação confidencial criptografados na memória. Qualquer componente do sistema ou invasor de hardware que tente ler dados confidenciais do ambiente de computação diretamente da memória só vai encontrar dados criptografados. Da mesma forma, a criptografia impede a modificação de dados de ambiente de computação confidencial por meio de acesso direto à memória.
  • Isolamento:o processador bloqueia o acesso baseado em software ao ambiente de computação confidencial. O sistema operacional e outros aplicativos só podem se comunicar com o ambiente de computação confidencial por interfaces específicas.
  • Atestado:no contexto da computação confidencial, o atestado verifica a confiabilidade do ambiente de computação confidencial. Com a atestado, os usuários podem conferir a evidência de que a computação confidencial está protegendo os dados deles, porque o atestado permite autenticar a instância do TEE.

    Durante o processo de atestado, o chip da CPU que oferece suporte ao TEE produz um relatório assinado criptograficamente (conhecido como um relatório de atestado) da medição da instância. Em seguida, a medição é enviada a um serviço de atestado. Uma atestado para o isolamento de processo autentica um aplicativo. Um atestado de isolamento de VM autentica uma VM, o firmware virtual usado para iniciar a VM ou ambos.

  • Segurança do ciclo de vida dos dados:a computação confidencial cria um ambiente de processamento seguro para fornecer proteção com suporte de hardware para dados em uso.

Tecnologia de computação confidencial

As tecnologias a seguir permitem a computação confidencial:

  • Enclaves seguros, também conhecidos como computação confidencial baseada em aplicativos
  • VMs e GPUs confidenciais, também conhecidas como computação confidencial baseada em VM

OGoogle Cloud usa a VM confidencial para ativar a computação confidencial. Para mais informações, consulte Implementar computação confidencial no Google Cloud.

Enclaves seguros

Um enclave seguro é um ambiente de computação que oferece isolamento para código e dados do sistema operacional usando isolamento baseado em hardware ou isolando uma VM inteira ao colocar o hipervisor na base de computação confiável (TCB, na sigla em inglês). Os enclaves seguros foram criados para garantir que nem mesmo usuários com acesso físico ou raiz às máquinas e ao sistema operacional possam descobrir o conteúdo da memória do enclave seguro ou adulterar a execução do código dentro do enclave. Um exemplo de enclave seguro é a extensão de guarda de software da Intel (SGX).

VMs e GPUs confidenciais

Uma VM confidencial é um tipo de VM que usa criptografia de memória baseada em hardware para ajudar a proteger dados e aplicativos. A VM confidencial oferece isolamento e atestado para melhorar a segurança. As tecnologias de computação de VM confidenciais incluem AMD SEV, AMD SEV-SNP, Intel TDX, Arm CCA, IBM Z, IBM LinuxONE e GPU Confidential da Nvidia.

As GPUs confidenciais ajudam a proteger dados e acelerar a computação, principalmente em ambientes compartilhados e em nuvem. Eles usam técnicas de criptografia e isolamento com base em hardware para ajudar a proteger os dados enquanto eles são processados na GPU, garantindo que nem mesmo o provedor de nuvem ou agentes maliciosos possam acessar informações sensíveis.

Casos de uso por setor

As seções a seguir mostram exemplos de casos de uso de computação confidencial para vários setores.

Saúde e ciências biológicas

A computação confidencial permite o compartilhamento e a análise seguros de dados entre organizações, preservando a privacidade do paciente. A computação confidencial permite que organizações de saúde participem de pesquisas colaborativas, modelagem de doenças, descoberta de medicamentos e planos de tratamento personalizados.

A tabela a seguir descreve alguns exemplos de uso da computação confidencial na saúde.

Caso de uso Descrição

Predição e detecção precoce de doenças

Os hospitais treinam um modelo de aprendizado federado para detectar lesões cancerígenas com base em dados de imagens médicas (por exemplo, ressonâncias magnéticas ou tomografias em vários hospitais ou regiões hospitalares), mantendo a confidencialidade do paciente.

Monitoramento de pacientes em tempo real

Os provedores de cuidados de saúde analisam dados de dispositivos de saúde vestíveis e apps de saúde para dispositivos móveis para monitoramento e alertas em tempo real. Por exemplo, os dispositivos vestíveis coletam dados sobre níveis de glicose, atividade física e hábitos alimentares para fornecer recomendações personalizadas e avisos antecipados sobre flutuações de açúcar no sangue.

Descoberta de medicamentos colaborativa

As empresas farmacêuticas treinam modelos em conjuntos de dados proprietários para acelerar a descoberta de medicamentos, melhorando a colaboração e protegendo a propriedade intelectual.

Serviços financeiros

A computação confidencial permite que as instituições financeiras criem um sistema financeiro mais seguro e resiliente.

A tabela a seguir descreve alguns exemplos de uso de computação confidencial em serviços financeiros.

Caso de uso Descrição

Crimes financeiros

As instituições financeiras podem colaborar com os esforços de combate à lavagem de dinheiro (AML) ou de modelos gerais de fraude compartilhando informações sobre transações suspeitas enquanto protegem a privacidade do cliente. Com a computação confidencial, as instituições podem analisar esses dados compartilhados de maneira segura e treinar os modelos para identificar e interromper esquemas complexos de lavagem de dinheiro com mais eficiência.

Avaliação de risco de crédito que preserva a privacidade

Os credores podem avaliar o risco de crédito usando uma gama mais ampla de fontes de dados, incluindo dados de outras instituições financeiras ou até mesmo de entidades não financeiras. Com a computação confidencial, os credores podem acessar e analisar esses dados sem expô-los a partes não autorizadas, melhorando a precisão dos modelos de pontuação de crédito e mantendo a privacidade dos dados.

Descoberta de preços que preservam a privacidade

No mundo financeiro, especialmente em áreas como mercados de balcão ou ativos não líquidos, o preço preciso é crucial. A computação confidencial permite que várias instituições calculem preços precisos em colaboração, sem revelar dados sensíveis umas às outras.

Setor público

A computação confidencial permite que os governos criem serviços mais transparentes, eficientes e eficazes, mantendo o controle e a soberania dos dados.

A tabela a seguir descreve alguns exemplos de uso da computação confidencial no setor público.

Caso de uso Descrição

Soberania digital

A computação confidencial garante que os dados sejam sempre criptografados, mesmo durante o processamento. Ele permite migrações seguras de dados de cidadãos para a nuvem, com os dados sendo protegidos mesmo quando hospedados em infraestrutura externa, em ambientes híbridos, públicos ou de várias nuvens. A computação confidencial oferece suporte e fortalece a soberania e a autonomia digitais, com mais controle e proteção de dados em uso para que as chaves de criptografia não sejam acessíveis pelo provedor de nuvem.

Análises confidenciais de várias agências

A computação confidencial permite a análise de dados de várias partes em várias agências governamentais (por exemplo, saúde, impostos e educação) ou em vários governos em diferentes regiões ou países. A computação confidencial ajuda a garantir que os limites de confiança e a privacidade dos dados sejam protegidos, além de permitir a análise de dados (usando a prevenção contra perda de dados (DLP), análises em grande escala e mecanismos de políticas) e o treinamento e a veiculação de IA.

IA confiável

Os dados do governo são essenciais e podem ser usados para treinar modelos de IA particulares de forma confiável e melhorar os serviços internos e as interações com os cidadãos. A computação confidencial permite frameworks de IA confiáveis, com instruções confidenciais ou treinamento de geração aumentada de recuperação (RAG, na sigla em inglês) para manter os dados e modelos dos cidadãos privados e seguros.

Cadeia de suprimentos

A computação confidencial permite que as organizações gerenciem a cadeia de suprimentos e a sustentabilidade colaborem e compartilhem insights, mantendo a privacidade dos dados.

A tabela a seguir descreve alguns exemplos de uso de computação confidencial em cadeias de suprimento.

Caso de uso Descrição

Previsão de demanda e otimização de inventário

Com a computação confidencial, cada empresa treina o próprio modelo de previsão de demanda com os dados de vendas e inventário. Esses modelos são agregados de forma segura em um modelo global, fornecendo uma visão mais precisa e holística dos padrões de demanda em toda a cadeia de suprimentos.

Avaliação de risco do fornecedor que preserva a privacidade

Cada organização envolvida na avaliação de risco do fornecedor (por exemplo, compradores, instituições financeiras e auditores) treina o próprio modelo de avaliação de risco com os próprios dados. Esses modelos são agregados para criar um perfil de risco abrangente e que preserva a privacidade do fornecedor, permitindo a identificação antecipada de possíveis riscos, a melhoria da resiliência da cadeia de suprimentos e uma melhor tomada de decisões na seleção e no gerenciamento de fornecedores.

Acompanhamento e redução da pegada de carbono

A computação confidencial oferece uma solução para enfrentar os desafios de privacidade de dados e transparência nos esforços de rastreamento e redução da pegada de carbono. A computação confidencial permite que as organizações compartilhem e analisem dados sem revelar a forma bruta, o que permite que elas tomem decisões informadas e tomem medidas eficazes para um futuro mais sustentável.

Publicidade digital

A publicidade digital deixou de usar cookies de terceiros e passou a usar alternativas mais seguras para a privacidade, como o Sandbox de privacidade. O Sandbox de privacidade oferece suporte a casos de uso publicitário essenciais, limitando o rastreamento entre sites e aplicativos. O Sandbox de privacidade usa TEEs para garantir o processamento seguro de dados dos usuários por empresas de publicidade.

É possível usar TEEs nos seguintes casos de uso de publicidade digital:

  • Algoritmos de correspondência:encontrar correspondências ou relações nos conjuntos de dados.
  • Atribuição:vinculação de efeitos ou eventos às causas prováveis.
  • Agregação:calcular resumos ou estatísticas com base nos dados brutos.

Implementar a computação confidencial no Google Cloud

OGoogle Cloud inclui os seguintes serviços que permitem a computação confidencial:

  • VM confidencial:ative a criptografia dos dados em uso para cargas de trabalho que usam VMs.
  • GKE confidencial:ative a criptografia de dados em uso para cargas de trabalho que usam contêineres.
  • Dataflow confidencial:ative a criptografia de dados em uso para análise de streaming e machine learning.
  • Dataproc confidencial:ative a criptografia dos dados em uso para processamento de dados.
  • Espaço confidencial:ative a criptografia de dados em uso para análise conjunta de dados e aprendizado de máquina.

Esses serviços permitem reduzir o limite de confiança para que menos recursos tenham acesso aos seus dados confidenciais. Por exemplo, em um ambiente Google Cloud sem computação confidencial, o limite de confiança inclui a Google Cloud (hardware, hipervisor e SO do host) e o SO convidado. Em um ambiente Google Cloud que inclui a Computação confidencial (sem Confidential Space), o limite de confiança inclui apenas o SO convidado e o aplicativo. Em um ambiente Google Cloud com Confidential Space, o limite de confiança é apenas o aplicativo e o espaço de memória associado a ele. A tabela a seguir mostra como o limite de confiança é reduzido com a computação confidencial e o Confidential Space.

Elementos Dentro do limite de confiança sem usar a computação confidencial Dentro do limite de confiança ao usar a Computação confidencial Dentro do limite de confiança ao usar o Confidential Space

Stack de nuvem e administradores

Sim

Não

Não

BIOS e firmware

Sim

Não

Não

SO do host e hipervisor

Sim

Não

Não

VM guest admin

Sim

Sim

Não

SO convidado da VM

Sim

Sim

Sim, medido e atestado

Aplicativos

Sim

Sim

Sim, medido e atestado

Dados confidenciais

Sim

Sim

Sim

O espaço confidencial cria uma área segura em uma VM para oferecer o mais alto nível de isolamento e proteção para dados e aplicativos sensíveis. Os principais benefícios de segurança do Confidential Space incluem:

  • Defesa em profundidade:adiciona uma camada extra de segurança às tecnologias de computação confidencial.
  • Superfície de ataque reduzida:isola os aplicativos de possíveis vulnerabilidades no SO convidado.
  • Controle aprimorado:oferece controle granular de acesso e permissões no ambiente seguro.
  • Confiança maior:oferece maior garantia de confidencialidade e integridade dos dados.

O Confidential Space foi criado para processar cargas de trabalho altamente sensíveis, especialmente em setores regulamentados ou cenários que envolvem colaborações entre várias partes, em que a privacidade dos dados é fundamental.

Referências de arquitetura

É possível implementar a computação confidencial no Google Cloud para abordar os seguintes casos de uso:

  • Análises confidenciais
  • IA confidencial
  • Aprendizado federado confidencial

As seções a seguir fornecem mais informações sobre a arquitetura desses casos de uso, incluindo exemplos de empresas financeiras e de saúde.

Arquitetura de análise confidencial para instituições de saúde

A arquitetura de análise confidencial demonstra como várias instituições de saúde (como provedores, biofarmacêuticos e instituições de pesquisa) podem trabalhar juntas para acelerar a pesquisa de medicamentos. Essa arquitetura usa técnicas de computação confidencial para criar um ambiente digital limpo para executar análises colaborativas confidenciais.

Essa arquitetura tem os seguintes benefícios:

  • Insights aprimorados:a análise colaborativa permite que as organizações de saúde tenham insights mais amplos e reduzam o tempo de lançamento para a descoberta de medicamentos aprimorada.
  • Privacidade de dados:os dados de transações sensíveis permanecem criptografados e nunca são expostos a outros participantes ou ao TEE, garantindo a confidencialidade.
  • Compliance regulatório:a arquitetura ajuda as instituições de saúde a obedecer às regulamentações de proteção de dados, mantendo um controle rígido sobre os dados.
  • Confiança e colaboração:a arquitetura permite a colaboração segura entre instituições concorrentes, promovendo um esforço coletivo para descobrir medicamentos.

O diagrama a seguir mostra essa arquitetura.

Diagrama da arquitetura de análise confidencial para instituições de saúde.

Os principais componentes desta arquitetura incluem:

  • Servidor de agregação OLAP do TEE:um ambiente seguro e isolado em que o treinamento e a inferência do modelo de machine learning ocorrem. Os dados e o código no TEE são protegidos contra acesso não autorizado, mesmo pelo sistema operacional ou provedor de nuvem subjacente.
  • Parceiros de colaboração:cada instituição de saúde participante tem um ambiente local que atua como intermediário entre os dados particulares da instituição e o TEE.
  • Dados criptografados específicos do provedor:cada instituição de saúde armazena os próprios dados criptografados e privados do paciente, incluindo prontuários eletrônicos. Esses dados permanecem criptografados durante o processo de análise, o que garante a privacidade deles. Os dados só são liberados para o TEE após a validação das declarações de atestado dos provedores individuais.
  • Cliente do Google Analytics:as instituições de saúde participantes podem executar consultas confidenciais nos dados para receber insights imediatos.

Arquitetura de IA confidencial para instituições financeiras

Este padrão de arquitetura demonstra como as instituições financeiras podem treinar um modelo de detecção de fraudes de forma colaborativa usando rótulos de fraude para preservar a confidencialidade dos dados de transações sensíveis. A arquitetura usa técnicas de computação confidencial para permitir o aprendizado de máquina seguro e multiparte.

Essa arquitetura tem os seguintes benefícios:

  • Detecção de fraude aprimorada:o treinamento colaborativo usa um conjunto de dados maior e mais diverso, o que resulta em um modelo de detecção de fraudes mais preciso e eficaz.
  • Privacidade de dados:os dados de transações sensíveis permanecem criptografados e nunca são expostos a outros participantes ou ao TEE, garantindo a confidencialidade.
  • Compliance regulamentar:a arquitetura ajuda as instituições financeiras a cumprir as regulamentações de proteção de dados, mantendo um controle rígido sobre os dados.
  • Confiança e colaboração:essa arquitetura permite a colaboração segura entre instituições concorrentes, promovendo um esforço coletivo para combater fraudes financeiras.

O diagrama a seguir mostra essa arquitetura.

Diagrama da arquitetura de análise confidencial para instituições financeiras.

Os principais componentes dessa arquitetura incluem:

  • Servidor de agregação OLAP do TEE:um ambiente seguro e isolado em que o treinamento e a inferência do modelo de machine learning ocorrem. Os dados e o código no TEE são protegidos contra acesso não autorizado, mesmo pelo sistema operacional ou provedor de nuvem subjacente.
  • Treinamento de modelo de TEE:o modelo de base de fraude global é empacotado como contêineres para executar o treinamento de ML. No TEE, o modelo global é treinado usando os dados criptografados de todos os bancos participantes. O processo de treinamento usa técnicas como o aprendizado federado ou a computação segura de várias partes para garantir que nenhum dado bruto seja exposto.
  • Parceiros colaboradores:cada instituição financeira participante tem um ambiente local que atua como um intermediário entre os dados privados da instituição e o TEE.
  • Dados criptografados específicos do banco:cada banco tem seus próprios dados de transação privados e criptografados, que incluem rótulos de fraude. Esses dados permanecem criptografados durante todo o processo, garantindo a privacidade dos dados. Os dados só são liberados para o TEE após a validação das declarações de atestado de bancos individuais.
  • Repositório de modelos:um modelo de detecção de fraude pré-treinado que serve como ponto de partida para o treinamento colaborativo.
  • Modelo e pesos globais treinados para fraudes (simbolizados pela linha verde): o modelo de detecção de fraudes aprimorado, junto com os pesos aprendidos, é trocado com segurança pelos bancos participantes. Em seguida, eles podem implantar esse modelo aprimorado localmente para detectar fraudes nas próprias transações.

Arquitetura de aprendizado federado confidencial para instituições financeiras

O aprendizado federado oferece uma solução avançada para clientes que valorizam a privacidade e a soberania de dados rigorosas. A arquitetura de aprendizado federado confidencial oferece uma maneira segura, escalonável e eficiente de usar dados para aplicativos de IA. Essa arquitetura leva os modelos ao local onde os dados são armazenados, em vez de centralizar os dados em um único local, reduzindo os riscos associados a vazamentos de dados.

Esse padrão de arquitetura demonstra como várias instituições financeiras podem treinar um modelo de detecção de fraudes de forma colaborativa, preservando a confidencialidade dos dados de transações sensíveis com rótulos de fraude. Ele usa o aprendizado federado com técnicas de computação confidencial para permitir o aprendizado de máquina seguro e de várias partes sem o treinamento de movimentação de dados.

Essa arquitetura tem os seguintes benefícios:

  • Privacidade e segurança de dados aprimoradas:o aprendizado federado garante a privacidade e a localidade de dados, garantindo que os dados sensíveis permaneçam em cada site. Além disso, as instituições financeiras podem usar técnicas de preservação de privacidade, como criptografia homomórfica e filtros de privacidade diferencial, para proteger ainda mais os dados transferidos (como os pesos do modelo).
  • Melhor precisão e diversidade:ao treinar com várias fontes de dados de diferentes clientes, as instituições financeiras podem desenvolver um modelo global robusto e generalizável para representar melhor os conjuntos de dados heterogêneos.
  • Escalabilidade e eficiência de rede:com a capacidade de realizar treinamentos na borda, as instituições podem ampliar o aprendizado federado em todo o mundo. Além disso, as instituições só precisam transferir os pesos do modelo, e não conjuntos de dados inteiros, o que permite o uso eficiente de recursos de rede.

O diagrama a seguir mostra essa arquitetura.

Diagrama da arquitetura de aprendizado federado confidencial.

Os principais componentes dessa arquitetura incluem:

  • Servidor federado no cluster do TEE:um ambiente seguro e isolado em que o servidor de aprendizado federado orquestra a colaboração de vários clientes enviando primeiro um modelo inicial para os clientes de aprendizado federado. Os clientes realizam o treinamento nos conjuntos de dados locais e enviam as atualizações do modelo de volta ao servidor de aprendizado federado para agregação e formação de um modelo global.
  • Repositório de modelos de aprendizado federado:um modelo de detecção de fraude pré-treinado que serve como ponto de partida para o aprendizado federado.
  • Mecanismo de inferência de aplicativo local:um aplicativo que executa tarefas, realiza cálculos e aprendizados locais com conjuntos de dados locais e envia os resultados de volta ao servidor de aprendizado federado para agregação segura.
  • Dados particulares locais:cada banco tem seus próprios dados de transação particulares e criptografados, que incluem rótulos de fraude. Esses dados permanecem criptografados durante todo o processo, garantindo a privacidade dos dados.
  • Protocolo de agregação seguro (simbolizado pela linha azul pontilhada): o servidor de aprendizado federado não precisa acessar a atualização de nenhum banco individual para treinar o modelo. Ele requer apenas as médias ponderadas por elemento dos vetores de atualização, extraídas de um subconjunto aleatório de bancos ou sites. O uso de um protocolo de agregação seguro para calcular essas médias ponderadas ajuda a garantir que o servidor possa aprender apenas que um ou mais bancos no subconjunto selecionado aleatoriamente escreveram uma determinada palavra, mas não quais bancos, preservando a privacidade de cada participante no processo de aprendizado federado.
  • Modelo global treinado para detectar fraudes e pesos agregados (simbolizado pela linha verde): o modelo de detecção de fraudes aprimorado, junto com os pesos aprendidos, é enviado com segurança aos bancos participantes. Os bancos podem implantar esse modelo aprimorado localmente para detectar fraudes nas próprias transações.

A seguir

Colaboradores