Desidentificação de dados sensíveis do Cloud Storage

Esta página descreve como a Proteção de dados sensíveis pode criar cópias desidentificadas de dados armazenados no Cloud Storage. Ele também lista as limitações dessa operação e os pontos que você precisa considerar antes de começar.

Para saber como usar a Proteção de Dados Sensíveis para criar cópias desidentificadas dos seus dados do Cloud Storage, consulte:

Sobre a desidentificação

A desidentificação é o processo de remoção de informações de identificação dos dados. O objetivo é permitir o uso e o compartilhamento de informações pessoais, como informações de saúde, financeiras ou demográficas, atendendo aos requisitos de privacidade. Para mais informações sobre a desidentificação, consulte Como desidentificar dados sensíveis.

Para mais informações detalhadas sobre as transformações de desidentificação na Proteção de Dados Sensíveis, consulte a Referência de transformação. Para mais informações sobre como a Proteção de dados sensíveis edita dados sensíveis de imagens, consulte Inspeção e edição de imagens.

Quando usar esse recurso

Esse recurso é útil se os arquivos usados nas operações comerciais contêm dados sensíveis, como informações de identificação pessoal (PII). Esse recurso permite usar e compartilhar informações como parte dos seus processos de negócios, mantendo dados sensíveis ocultos.

Processo de desidentificação

Esta seção descreve o processo de desidentificação na Proteção de dados sensíveis para conteúdo no Cloud Storage.

Para usar esse recurso, crie um job de inspeção (DlpJob) configurado para fazer cópias desidentificadas dos arquivos do Cloud Storage. A Proteção de dados sensíveis verifica os arquivos no local especificado e os inspeciona de acordo com a configuração. À medida que inspeciona cada arquivo, a Proteção de dados sensíveis desidentifica todos os dados que correspondem aos seus critérios de dados sensíveis e grava o conteúdo em um novo arquivo. O novo arquivo sempre tem o mesmo nome do arquivo original. Ele armazena esse novo arquivo em um diretório de saída especificado. Se um arquivo for incluído na verificação, mas nenhum dado corresponder aos critérios de desidentificação e não houver erros no processamento, o arquivo será copiado, sem alterações, para o diretório de saída.

O diretório de saída definido precisa estar em um bucket do Cloud Storage diferente do que contém os arquivos de entrada. No diretório de saída, a Proteção de dados sensíveis cria uma estrutura de arquivos que reflete a estrutura do diretório de entrada.

Por exemplo, suponha que você defina os seguintes diretórios de entrada e saída:

  • Diretório de entrada: gs://input-bucket/folder1/folder1a
  • Diretório de saída: gs://output-bucket/output-directory

Durante a desidentificação, a Proteção de dados sensíveis armazena os arquivos desidentificados em gs://output-bucket/output-directory/folder1/folder1a.

Se um arquivo no diretório de saída tiver o mesmo nome de um arquivo desidentificado, ele será substituído. Se você não quiser que os arquivos sejam substituídos, mude o diretório de saída antes de executar essa operação. Como alternativa, considere ativar o controle de versão de objeto no bucket de saída.

As listas de controle de acesso (ACLs) de nível de arquivo dos arquivos originais são copiadas para os novos arquivos, independentemente de dados sensíveis terem sido encontrados e desidentificados. No entanto, se o bucket de saída estiver configurado apenas para permissões uniformes no nível do bucket e não para permissões detalhadas (no nível do objeto), as ACLs não serão copiadas para os arquivos desidentificados.

O diagrama a seguir mostra o processo de desidentificação de quatro arquivos armazenados em um bucket do Cloud Storage. Cada arquivo é copiado mesmo que a Proteção de dados sensíveis não detecte dados sensíveis. Cada arquivo copiado tem o mesmo nome do original.

Desidentificação de arquivos armazenados no Cloud Storage.
Desidentificação de arquivos armazenados no Cloud Storage (clique para ampliar).

Preços

Para informações sobre preços, consulte Inspeção e transformação de dados no armazenamento.

Tipos de arquivos compatíveis

A Proteção de Dados Sensíveis pode desidentificar os seguintes grupos de tipos de arquivo:

  • CSV
  • Imagem
  • Texto
  • TSV

Comportamento padrão de desidentificação

Se você quiser definir como a Proteção de dados sensíveis transforma as descobertas, forneça modelos de desidentificação para os seguintes tipos de arquivos:

  • Arquivos não estruturados, como arquivos de texto com texto em formato livre
  • Arquivos estruturados, como CSV
  • Imagens

Se você não fornecer um modelo de desidentificação, a Proteção de dados sensíveis vai transformar as descobertas da seguinte maneira:

  • Em arquivos estruturados e não estruturados, a Proteção de dados sensíveis substitui todas as descobertas pelo infoType correspondente, conforme descrito em Substituição de infoType.
  • Nas imagens, a Proteção de dados sensíveis abrange todas as descobertas com uma caixa preta.

Limitações e considerações

Considere os seguintes pontos antes de criar cópias desidentificadas dos dados do Cloud Storage.

Espaço em disco

Essa operação só é compatível com conteúdo armazenado no Cloud Storage.

Essa operação faz uma cópia de cada arquivo conforme a proteção de dados confidenciais o inspeciona. Ele não modifica nem remove o conteúdo original. Os dados copiados vão ocupar aproximadamente a mesma quantidade de espaço em disco extra que os dados originais.

Acesso de gravação ao armazenamento

Como a Proteção de dados sensíveis cria uma cópia dos arquivos originais, o agente de serviço do seu projeto precisa ter acesso de gravação no bucket de saída do Cloud Storage.

Limites de amostragem e de definição

Esta operação não tem suporte para amostragem. Especificamente, não é possível limitar a quantidade de cada arquivo que a Proteção de dados sensíveis verifica e desidentifica. Ou seja, se você estiver usando a API Cloud Data Loss Prevention, não poderá usar bytesLimitPerFile e bytesLimitPerFilePercent no objeto CloudStorageOptions do DlpJob.

Além disso, não é possível controlar o número máximo de descobertas que serão retornadas. Se você estiver usando a API DLP, não será possível definir um objeto FindingLimits no DlpJob.

O requisito de inspeção de dados

Ao executar o job de inspeção, a proteção de dados confidenciais primeiro inspeciona os dados de acordo com a configuração de inspeção antes de fazer a desidentificação. Não é possível pular o processo de inspeção.

O requisito de usar extensões de arquivo

A Proteção de dados sensíveis depende de extensões de arquivo para identificar os tipos de arquivos no diretório de entrada. Talvez ele não remova a identificação de arquivos que não têm extensões, mesmo que sejam de tipos compatíveis.

Arquivos ignorados

Ao desidentificar arquivos no armazenamento, a Proteção de dados sensíveis pula os seguintes arquivos:

  • Arquivos com mais de 60.000 KB. Se você tiver arquivos grandes que excedam esse limite, considere dividi-los em blocos menores.
  • Arquivos de tipos sem suporte. Para conferir uma lista de tipos de arquivos aceitos, consulte Tipos de arquivos compatíveis nesta página.
  • Tipos de arquivos que você excluiu intencionalmente da configuração de desidentificação. Se você estiver usando a API DLP, os tipos de arquivo excluídos do campo file_types_to_transform da ação Deidentify do DlpJob serão ignorados.
  • Arquivos que apresentaram erros de transformação.

Ordem das linhas de saída em tabelas desidentificadas

Não há garantia de que a ordem das linhas em uma tabela desidentificada corresponde à ordem das linhas na tabela original. Se você quiser comparar a tabela original com a tabela desidentificada, não poderá usar o número da linha para identificar as linhas correspondentes. Se você pretende comparar linhas das tabelas, use um identificador exclusivo para identificar cada registro.

Chaves temporárias

Se você escolher um método criptográfico como método de transformação, primeiro crie uma chave encapsulada usando o Cloud Key Management Service. Em seguida, forneça essa chave no modelo de desidentificação. Chaves temporárias (brutas) não são aceitas.

A seguir