Desidentificação de dados confidenciais do Cloud Storage

{}

Nesta página, descrevemos como a proteção de dados confidenciais pode criar cópias desidentificadas de dados armazenados no Cloud Storage. Ele também lista as limitações dessa operação e os pontos que você precisa considerar antes de começar.

Para informações sobre como usar a proteção de dados confidenciais para criar cópias desidentificadas dos dados do Cloud Storage, consulte os seguintes artigos:

Sobre a desidentificação

A desidentificação é o processo de remover informações de identificação dos dados. O objetivo é permitir o uso e o compartilhamento de informações pessoais, como informações de saúde, financeiras ou demográficas, atendendo aos requisitos de privacidade. Para mais informações sobre desidentificação, consulte Como desidentificar dados confidenciais.

Para informações mais detalhadas sobre transformações de desidentificação na Proteção de dados confidenciais, consulte Referência de transformação. Para mais informações sobre como a proteção de dados confidenciais edita dados confidenciais de imagens, consulte Inspeção e edição de imagens.

Quando usar esse recurso

Esse recurso é útil se os arquivos usados nas operações comerciais contiverem dados confidenciais, como informações de identificação pessoal (PII). Esse recurso permite usar e compartilhar informações como parte dos processos comerciais, mantendo partes confidenciais de dados ocultas.

Processo de desidentificação

Nesta seção, descrevemos o processo de desidentificação na proteção de dados confidenciais para conteúdo no Cloud Storage.

Para usar esse recurso, crie um job de inspeção (DlpJob) configurado para fazer cópias desidentificadas dos arquivos do Cloud Storage. A Proteção de dados confidenciais verifica os arquivos no local especificado, inspecionando-os de acordo com a configuração. Ao inspecionar cada arquivo, a proteção de dados confidenciais desidentifica todos os dados que correspondem aos critérios de dados confidenciais e, em seguida, grava o conteúdo em um novo arquivo. O novo arquivo sempre tem o mesmo nome do arquivo original. Ele armazena esse novo arquivo em um diretório de saída especificado por você. Se um arquivo for incluído na verificação, mas nenhum dado corresponder aos critérios de desidentificação e não houver erros no processamento, o arquivo será copiado, sem alterações, para o diretório de saída.

O diretório de saída definido precisa estar em um bucket do Cloud Storage diferente do bucket que contém os arquivos de entrada. No diretório de saída, a proteção de dados confidenciais cria uma estrutura de arquivos que espelha a estrutura de arquivos do diretório de entrada.

Por exemplo, suponha que você definiu os seguintes diretórios de entrada e saída:

  • Diretório de entrada: gs://input-bucket/folder1/folder1a
  • Diretório de saída: gs://output-bucket/output-directory

Durante a desidentificação, a proteção de dados confidenciais armazena os arquivos desidentificados em gs://output-bucket/output-directory/folder1/folder1a.

Se houver um arquivo no diretório de saída com o mesmo nome de um arquivo desidentificado, ele será substituído. Se você não quiser que os arquivos atuais sejam substituídos, altere o diretório de saída antes de executar esta operação. Se preferir, ative o controle de versões do objeto no bucket de saída.

As listas de controle de acesso (ACLs) no nível dos arquivos originais são copiadas para os novos arquivos, independentemente de os dados confidenciais terem sido encontrados e desidentificados. No entanto, se o bucket de saída estiver configurado apenas para permissões uniformes no nível do bucket, e não para permissões refinadas no nível do objeto, as ACLs não serão copiadas para os arquivos desidentificados.

O diagrama a seguir mostra o processo de desidentificação de quatro arquivos armazenados em um bucket do Cloud Storage. Cada arquivo é copiado, independentemente de a proteção de dados confidenciais detectar dados confidenciais. Cada arquivo copiado é nomeado da mesma forma que o original.

Desidentificação de arquivos armazenados no Cloud Storage.
Desidentificação de arquivos armazenados no Cloud Storage (clique para ampliar).

Preços

Para informações sobre preços, consulte Inspeção e transformação de dados no armazenamento.

Tipos de arquivos compatíveis

A proteção de dados confidenciais pode desidentificar os seguintes grupos de tipos de arquivos:

  • CSV
  • Imagem
  • Texto
  • TSV

Comportamento de desidentificação padrão

Se você quiser definir como a proteção de dados confidenciais transforma as descobertas, forneça modelos de desidentificação para os seguintes tipos de arquivos:

  • Arquivos não estruturados, como arquivos de texto com formato livre
  • Arquivos estruturados, como CSV
  • Imagens

Se você não fornecer nenhum modelo de desidentificação, a proteção de dados confidenciais transforma as descobertas da seguinte maneira:

  • Em arquivos não estruturados e estruturados, a proteção de dados confidenciais substitui todas as descobertas pelo infoType correspondente, conforme descrito em Substituição de InfoType.
  • Nas imagens, a proteção de dados confidenciais cobre todas as descobertas com uma caixa preta.

Limitações e considerações

Considere os pontos a seguir antes de criar cópias desidentificadas dos dados do Cloud Storage.

Espaço em disco

Esta operação só é compatível com conteúdo armazenado no Cloud Storage.

Essa operação cria uma cópia de cada arquivo durante a inspeção da Proteção de dados confidenciais. Ela não modifica nem remove o conteúdo original. Os dados copiados ocupam aproximadamente a mesma quantidade de espaço em disco que os dados originais.

Acesso de gravação ao armazenamento

Como a proteção de dados confidenciais cria uma cópia dos arquivos originais, o agente de serviço do projeto precisa ter acesso de gravação no bucket de saída do Cloud Storage.

Amostragem e definição de limites de descoberta

Esta operação não é compatível com amostragem. Especificamente, não é possível limitar quanto de cada arquivo a proteção de dados confidenciais verifica e desidentifica. Ou seja, se você estiver usando a API Cloud Data Loss Prevention, não poderá usar bytesLimitPerFile e bytesLimitPerFilePercent no objeto CloudStorageOptions da DlpJob.

Além disso, não é possível controlar o número máximo de descobertas a serem retornadas. Se você estiver usando a API DLP, não será possível definir um objeto FindingLimits no DlpJob.

Requisito para inspecionar os dados

Ao executar o job de inspeção, a proteção de dados confidenciais primeiro inspeciona os dados, de acordo com a configuração da inspeção, antes de executar a desidentificação. Ele não pode pular o processo de inspeção.

Requisito para usar extensões de arquivo

A proteção de dados confidenciais depende de extensões de arquivo para identificar os tipos dos arquivos no diretório de entrada. Talvez ele não desidentifique arquivos que não tenham extensões de arquivo, mesmo que esses arquivos sejam de tipos compatíveis.

Arquivos ignorados

Ao desidentificar arquivos no armazenamento, a proteção de dados confidenciais ignora os seguintes arquivos:

  • Arquivos com mais de 60.000 KB. Se você tiver arquivos grandes que excedem esse limite, considere dividi-los em blocos menores.
  • Arquivos de tipos não compatíveis. Para ver uma lista de tipos de arquivos compatíveis, consulte Tipos de arquivos compatíveis nesta página.
  • Tipos de arquivo que você excluiu intencionalmente da configuração de desidentificação. Se você estiver usando a API DLP, os tipos de arquivo excluídos do campo file_types_to_transform da ação Deidentify do DlpJob serão ignorados.
  • Arquivos que encontraram erros de transformação.

Ordem das linhas de saída em tabelas desidentificadas

Não há garantia de que a ordem das linhas em uma tabela desidentificada corresponda à ordem das linhas na tabela original. Se você quiser comparar a tabela original com a desidentificada, não será possível confiar no número da linha para identificar as linhas correspondentes. Se você pretende comparar linhas das tabelas, use um identificador exclusivo para identificar cada registro.

Chaves temporárias

Se você escolher um método criptográfico como seu método de transformação, primeiro crie uma chave encapsulada usando o Cloud Key Management Service. Depois, forneça essa chave no seu modelo de desidentificação. Chaves transitórias (brutas) não são aceitas.

A seguir