Desidentificação de dados confidenciais no armazenamento

Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.
{}

O Cloud Data Loss Prevention pode desidentificar dados confidenciais do conteúdo armazenado no Cloud Storage.

A desidentificação é o processo de remoção de informações de identificação dos dados. O objetivo é permitir o uso e o compartilhamento de informações pessoais, como informações financeiras, de saúde ou informações demográficas, enquanto atende aos requisitos de privacidade. Para mais informações sobre a desidentificação, consulte Como desidentificar dados confidenciais.

Neste tópico, descrevemos o processo de desidentificação de conteúdo armazenado no Cloud Storage. Ele também lista as limitações dessa operação e os pontos que você precisa considerar antes de começar.

Para informações mais detalhadas sobre as transformações de desidentificação no Cloud DLP, consulte Referência de transformação. Para mais informações sobre como o Cloud DLP edita dados confidenciais de imagens, consulte Inspeção e edição de imagens.

Processo de desidentificação

Nesta seção, descrevemos o processo de desidentificação no Cloud DLP para conteúdo no Cloud Storage.

Para desidentificar dados confidenciais no armazenamento, crie um job de inspeção (DlpJob) que esteja configurado para desidentificar as descobertas. O Cloud DLP verifica os arquivos no local especificado, inspecionando-os de acordo com a configuração. Ao inspecionar cada arquivo, o Cloud DLP desidentifica todos os dados que correspondem aos seus critérios para dados confidenciais e, em seguida, grava o conteúdo em um novo arquivo. O novo arquivo sempre tem o mesmo nome do arquivo original. Ele armazena esse novo arquivo em um diretório de saída especificado. Se um arquivo for incluído na verificação, mas nenhum dado corresponder aos critérios de desidentificação e não houver erros no processamento, o arquivo será copiado, inalterado, para o diretório de saída.

O diretório de saída definido precisa estar em um bucket do Cloud Storage diferente do bucket que contém os arquivos de entrada. No diretório de saída, o Cloud DLP cria uma estrutura de arquivos que espelha a estrutura de arquivos do diretório de entrada.

Por exemplo, suponha que você defina os seguintes diretórios de entrada e saída:

  • Diretório de entrada: gs://input-bucket/folder1/folder1a
  • Diretório de saída: gs://output-bucket/output-directory

Durante a desidentificação, o Cloud DLP armazena os arquivos desidentificados em gs://output-bucket/output-directory/folder1/folder1a.

Se um arquivo existir no diretório de saída com o mesmo nome de um arquivo desidentificado, esse arquivo será substituído. Se você não quiser que os arquivos existentes sejam substituídos, altere o diretório de saída antes de executar esta operação. Se preferir, ative o controle de versões do objeto no bucket de saída.

As listas de controle de acesso (ACLs) dos arquivos originais são copiadas para os novos arquivos, independentemente de os dados confidenciais serem encontrados e desidentificados. Entretanto, se o bucket de saída estiver configurado somente para permissões uniformes no nível do bucket e não para permissões granulares (nível do objeto), as ACLs não serão copiadas para os arquivos desidentificados.

O diagrama a seguir mostra o processo de desidentificação de quatro arquivos armazenados em um bucket do Cloud Storage. Cada arquivo é copiado, independentemente de o Cloud DLP detectar dados confidenciais. Cada arquivo copiado tem o mesmo nome do original.

Diagrama mostrando a desidentificação de arquivos armazenados no Cloud Storage
Diagrama que mostra a desidentificação de arquivos armazenados no Cloud Storage (clique para ampliar)

Quando usar este serviço

Esse serviço é útil se os arquivos que você usa nas operações de negócios contêm dados confidenciais, como informações de identificação pessoal (PII). Com esse recurso, é possível usar e compartilhar informações como parte dos processos da sua empresa, mantendo os dados confidenciais ocultos.

Preços

Para informações sobre preços, consulte Inspeção e transformação de dados no armazenamento.

Tipos de arquivos compatíveis

O Cloud DLP pode desidentificar os seguintes grupos de tipos de arquivos:

  • CSV
  • Image
  • Texto
  • TSV

Comportamento de desidentificação padrão

Se quiser definir como o Cloud DLP transforma as descobertas, forneça modelos de desidentificação para os seguintes tipos de arquivos:

  • Arquivos não estruturados, como arquivos de texto com texto em formato livre
  • Arquivos estruturados, como arquivos CSV
  • Imagens

Se você não fornecer um modelo de desidentificação, o Cloud DLP transformará as descobertas da seguinte maneira:

  • Em arquivos estruturados e não estruturados, o Cloud DLP substitui todas as descobertas pelos infoTypes correspondentes, conforme descrito em Substituição de infoTypes.
  • Nas imagens, o Cloud DLP cobre todas as descobertas com uma caixa preta.

Limitações e considerações

Considere os pontos a seguir antes de iniciar uma operação de desidentificação no armazenamento.

Espaço em disco

Esta operação é compatível apenas com conteúdo armazenado no Cloud Storage.

Essa operação faz uma cópia de cada arquivo enquanto o Cloud DLP o inspeciona. Ela não modifica nem remove o conteúdo original. Os dados copiados ocupam aproximadamente a mesma quantidade de espaço em disco adicional que os dados originais.

Acesso de gravação ao armazenamento

Como o Cloud DLP cria uma cópia dos arquivos originais, o agente de serviço do projeto precisa ter acesso de gravação no bucket de saída do Cloud Storage.

Amostragem e definição de limites de descoberta

Esta operação não é compatível com amostragem. Especificamente, não é possível limitar o volume de cada arquivo que o Cloud DLP verifica e desidentifica. Ou seja, se você usa a API Cloud Data Loss Prevention, não é possível usar bytesLimitPerFile e bytesLimitPerFilePercent no objeto CloudStorageOptions do DlpJob.

Além disso, não é possível controlar o número máximo de descobertas a serem retornadas. Se você estiver usando a API DLP, não será possível definir um objeto FindingLimits no DlpJob.

Requisito para inspecionar dados

Ao executar o job de inspeção, o Cloud DLP primeiro inspeciona os dados, de acordo com a configuração de inspeção, antes de executar a desidentificação. Ele não pode pular o processo de inspeção.

Requisito para usar extensões de arquivo

O Cloud DLP depende de extensões de arquivo para identificar os tipos de arquivo no seu diretório de entrada. Ele pode não desidentificar arquivos que não têm extensões de arquivo, mesmo que esses tipos sejam compatíveis.

Arquivos ignorados

Ao desidentificar arquivos no armazenamento, o Cloud DLP ignora os seguintes arquivos:

  • Arquivos com mais de 60.000 KB. Se você tiver arquivos grandes que excedem esse limite, divida-os em blocos menores.
  • Arquivos de tipos não compatíveis. Consulte a lista de Tipos de arquivos compatíveis nesta página.
  • Tipos de arquivo que você propositalmente excluiu da configuração de desidentificação. Se você estiver usando a API DLP, os tipos de arquivo excluídos do campo file_types_to_transform da ação Deidentify de DlpJob serão ignorados.
  • Arquivos que encontraram erros de transformação.

Chaves transitórias

Se você escolher um método criptográfico como método de transformação, primeiro crie uma chave encapsulada usando o Cloud Key Management Service. Em seguida, forneça essa chave no seu modelo de desidentificação. Chaves transitórias (brutas) não são suportadas.

A seguir