Desidentificação de dados confidenciais do Cloud Storage

Nesta página, descrevemos como a proteção de dados sensíveis pode criar cópias desidentificadas de dados armazenados no Cloud Storage. Ele também lista as limitações dessa operação e os pontos que você precisa considerar antes de começar.

Para informações sobre como usar a proteção de dados sensíveis para criar cópias desidentificadas dos dados do Cloud Storage, consulte os seguintes artigos:

Sobre a desidentificação

A desidentificação é o processo de remover informações de identificação dos dados. O objetivo é permitir o uso e o compartilhamento de informações pessoais, como informações de saúde, financeiras ou demográficas, atendendo aos requisitos de privacidade. Para mais informações sobre desidentificação, consulte Como desidentificar dados confidenciais.

Para informações mais detalhadas sobre transformações de desidentificação na proteção de dados confidenciais, consulte Referência de transformação. Para mais informações sobre como a proteção de dados sensíveis edita dados sensíveis de imagens, consulte Inspeção e edição de imagens.

Quando usar esse recurso

Esse recurso é útil se os arquivos que você usa nas suas operações comerciais contêm dados confidenciais, como informações de identificação pessoal (PII). Esse recurso permite usar e compartilhar informações como parte dos processos comerciais, mantendo partes confidenciais de dados ocultas.

Processo de desidentificação

Nesta seção, descrevemos o processo de desidentificação na proteção de dados sensíveis para conteúdo no Cloud Storage.

Para usar esse recurso, crie um job de inspeção (DlpJob) configurado para fazer cópias desidentificadas dos arquivos do Cloud Storage. A proteção de dados sensíveis verifica os arquivos no local especificado, inspecionando-os de acordo com a configuração. À medida que inspeciona cada arquivo, a proteção de dados sensíveis desidentifica todos os dados que correspondem aos seus critérios e, em seguida, grava o conteúdo em um novo arquivo. O novo arquivo sempre tem o mesmo nome do arquivo original. Ele armazena esse novo arquivo em um diretório de saída especificado por você. Se um arquivo for incluído na verificação, mas nenhum dado corresponder aos critérios de desidentificação e não houver erros no processamento, o arquivo será copiado, sem alterações, para o diretório de saída.

O diretório de saída definido precisa estar em um bucket do Cloud Storage diferente do bucket que contém os arquivos de entrada. No diretório de saída, a proteção de dados sensíveis cria uma estrutura de arquivos que espelha a estrutura de arquivos do diretório de entrada.

Por exemplo, suponha que você definiu os seguintes diretórios de entrada e saída:

  • Diretório de entrada: gs://input-bucket/folder1/folder1a
  • Diretório de saída: gs://output-bucket/output-directory

Durante a desidentificação, a proteção de dados sensíveis armazena os arquivos desidentificados em gs://output-bucket/output-directory/folder1/folder1a.

Se houver um arquivo no diretório de saída com o mesmo nome de um arquivo desidentificado, ele será substituído. Para que os arquivos atuais não sejam substituídos, altere o diretório de saída antes de executar esta operação. Outra opção é ativar o controle de versões de objetos no bucket de saída.

As listas de controle de acesso (ACLs) no nível dos arquivos originais são copiadas para os novos arquivos, independentemente de dados confidenciais terem sido encontrados e desidentificados. No entanto, se o bucket de saída estiver configurado apenas para permissões uniformes no nível do bucket, e não para permissões refinadas (no nível do objeto), as ACLs não serão copiadas para os arquivos desidentificados.

Veja no diagrama a seguir o processo de desidentificação de quatro arquivos armazenados em um bucket do Cloud Storage. Cada arquivo é copiado independentemente de a proteção de dados sensíveis detectar algum dado confidencial. Cada arquivo copiado tem o mesmo nome do original.

Desidentificação de arquivos armazenados no Cloud Storage.
Desidentificação de arquivos armazenados no Cloud Storage (clique para ampliar).

Preços

Para informações sobre preços, consulte Inspeção e transformação de dados no armazenamento.

Tipos de arquivos compatíveis

A proteção de dados sensíveis pode desidentificar os seguintes grupos de tipos de arquivos:

  • CSV
  • Imagem
  • Texto
  • TSV

Comportamento de desidentificação padrão

Se você quiser definir como a proteção de dados sensíveis transforma as descobertas, forneça modelos de desidentificação para os seguintes tipos de arquivos:

  • Arquivos não estruturados, como arquivos de texto com texto de formato livre
  • Arquivos estruturados, como arquivos CSV
  • Imagens

Se você não fornecer nenhum modelo de desidentificação, a proteção de dados sensíveis transformará as descobertas da seguinte maneira:

  • Em arquivos estruturados e não estruturados, a proteção de dados confidenciais substitui todas as descobertas pelo infoType correspondente, conforme descrito em Substituição do InfoType.
  • Nas imagens, a proteção de dados sensíveis cobre todas as descobertas com uma caixa preta.

Limitações e considerações

Considere os pontos a seguir antes de criar cópias desidentificadas dos dados do Cloud Storage.

Espaço em disco

Esta operação só é compatível com conteúdo armazenado no Cloud Storage.

Essa operação faz uma cópia de cada arquivo durante a inspeção da proteção de dados sensíveis. Ela não modifica nem remove o conteúdo original. Os dados copiados ocuparão aproximadamente a mesma quantidade de espaço em disco que os dados originais.

Acesso de gravação ao armazenamento

Como a proteção de dados sensíveis cria uma cópia dos arquivos originais, o agente de serviço do projeto precisa ter acesso de gravação no bucket de saída do Cloud Storage.

Amostragem e definição de limites de descoberta

Esta operação não é compatível com amostragem. Especificamente, não é possível limitar quanto de cada arquivo a proteção de dados sensíveis verifica e desidentifica. Ou seja, se você estiver usando a API Cloud Data Loss Prevention, não vai conseguir usar bytesLimitPerFile e bytesLimitPerFilePercent no objeto CloudStorageOptions da DlpJob.

Além disso, não é possível controlar o número máximo de descobertas a serem retornadas. Se você estiver usando a API DLP, não vai ser possível definir um objeto FindingLimits no DlpJob.

Requisito para inspecionar dados

Ao executar o job de inspeção, a proteção de dados sensíveis primeiro inspeciona os dados, de acordo com sua configuração de inspeção, antes de realizar a desidentificação. Ele não pode pular o processo de inspeção.

Requisito para usar extensões de arquivo

A proteção de dados sensíveis depende de extensões para identificar os tipos de arquivos no diretório de entrada. É possível que ele não desidentifique arquivos que não têm extensões, mesmo que sejam de tipos compatíveis.

Arquivos ignorados

Ao desidentificar arquivos no armazenamento, a proteção de dados sensíveis ignora os seguintes arquivos:

  • Arquivos com mais de 60.000 KB. Se você tiver arquivos grandes que excedam esse limite, divida-os em blocos menores.
  • Arquivos de tipos incompatíveis Para ver uma lista de tipos de arquivos compatíveis, consulte Tipos de arquivos compatíveis nesta página.
  • Tipos de arquivo que você excluiu intencionalmente da configuração de desidentificação. Se você estiver usando a API DLP, os tipos de arquivo excluídos do campo file_types_to_transform da ação Deidentify da DlpJob serão ignorados.
  • Arquivos que encontraram erros de transformação.

Ordem das linhas de saída em tabelas desidentificadas

Não há garantia de que a ordem das linhas em uma tabela desidentificada corresponda à ordem das linhas na tabela original. Se você quiser comparar a tabela original com a desidentificada, não poderá confiar no número da linha para identificar as linhas correspondentes. Se você pretende comparar linhas das tabelas, use um identificador exclusivo para identificar cada registro.

Chaves temporárias

Se você escolher um método criptográfico como o método de transformação, primeiro será necessário criar uma chave encapsulada usando o Cloud Key Management Service. Em seguida, forneça essa chave no modelo de desidentificação. Chaves transitórias (brutas) não são aceitas.

A seguir