Esta página descreve como a Proteção de dados sensíveis pode criar cópias desidentificadas de dados armazenados no Cloud Storage. Ele também lista as limitações dessa operação e os pontos que você precisa considerar antes de começar.
Para saber como usar a Proteção de Dados Sensíveis para criar cópias desidentificadas dos seus dados do Cloud Storage, consulte:
- Criar cópias desidentificadas dos dados armazenados no Cloud Storage usando o console do Google Cloud
- Criar cópias desidentificadas dos dados armazenados no Cloud Storage usando a API
Sobre a desidentificação
A desidentificação é o processo de remoção de informações de identificação dos dados. O objetivo é permitir o uso e o compartilhamento de informações pessoais, como informações de saúde, financeiras ou demográficas, atendendo aos requisitos de privacidade. Para mais informações sobre a desidentificação, consulte Como desidentificar dados sensíveis.
Para mais informações detalhadas sobre as transformações de desidentificação na Proteção de Dados Sensíveis, consulte a Referência de transformação. Para mais informações sobre como a Proteção de dados sensíveis edita dados sensíveis de imagens, consulte Inspeção e edição de imagens.
Quando usar esse recurso
Esse recurso é útil se os arquivos usados nas operações comerciais contêm dados sensíveis, como informações de identificação pessoal (PII). Esse recurso permite usar e compartilhar informações como parte dos seus processos de negócios, mantendo dados sensíveis ocultos.
Processo de desidentificação
Esta seção descreve o processo de desidentificação na Proteção de dados sensíveis para conteúdo no Cloud Storage.
Para usar esse recurso, crie um job de inspeção (DlpJob
) configurado para fazer cópias desidentificadas dos arquivos do Cloud Storage.
A Proteção de dados sensíveis verifica os arquivos no local especificado e os inspeciona
de acordo com a configuração. À medida que inspeciona cada arquivo,
a Proteção de dados sensíveis desidentifica todos os dados que correspondem aos seus critérios de
dados sensíveis e grava o conteúdo em um novo arquivo. O novo arquivo sempre tem
o mesmo nome do arquivo original.
Ele armazena esse novo arquivo em um diretório de saída especificado. Se um arquivo for
incluído na verificação, mas nenhum dado corresponder aos critérios de desidentificação e
não houver erros no processamento, o arquivo será copiado, sem alterações, para
o diretório de saída.
O diretório de saída definido precisa estar em um bucket do Cloud Storage diferente do que contém os arquivos de entrada. No diretório de saída, a Proteção de dados sensíveis cria uma estrutura de arquivos que reflete a estrutura do diretório de entrada.
Por exemplo, suponha que você defina os seguintes diretórios de entrada e saída:
- Diretório de entrada:
gs://input-bucket/folder1/folder1a
- Diretório de saída:
gs://output-bucket/output-directory
Durante a desidentificação, a Proteção de dados sensíveis armazena os arquivos desidentificados
em gs://output-bucket/output-directory/folder1/folder1a
.
Se um arquivo no diretório de saída tiver o mesmo nome de um arquivo desidentificado, ele será substituído. Se você não quiser que os arquivos sejam substituídos, mude o diretório de saída antes de executar essa operação. Como alternativa, considere ativar o controle de versão de objeto no bucket de saída.
As listas de controle de acesso (ACLs) de nível de arquivo dos arquivos originais são copiadas para os novos arquivos, independentemente de dados sensíveis terem sido encontrados e desidentificados. No entanto, se o bucket de saída estiver configurado apenas para permissões uniformes no nível do bucket e não para permissões detalhadas (no nível do objeto), as ACLs não serão copiadas para os arquivos desidentificados.
O diagrama a seguir mostra o processo de desidentificação de quatro arquivos armazenados em um bucket do Cloud Storage. Cada arquivo é copiado mesmo que a Proteção de dados sensíveis não detecte dados sensíveis. Cada arquivo copiado tem o mesmo nome do original.
Preços
Para informações sobre preços, consulte Inspeção e transformação de dados no armazenamento.
Tipos de arquivos compatíveis
A Proteção de Dados Sensíveis pode desidentificar os seguintes grupos de tipos de arquivo:
- CSV
- Imagem
- Texto
- TSV
Comportamento padrão de desidentificação
Se você quiser definir como a Proteção de dados sensíveis transforma as descobertas, forneça modelos de desidentificação para os seguintes tipos de arquivos:
- Arquivos não estruturados, como arquivos de texto com texto em formato livre
- Arquivos estruturados, como CSV
- Imagens
Se você não fornecer um modelo de desidentificação, a Proteção de dados sensíveis vai transformar as descobertas da seguinte maneira:
- Em arquivos estruturados e não estruturados, a Proteção de dados sensíveis substitui todas as descobertas pelo infoType correspondente, conforme descrito em Substituição de infoType.
- Nas imagens, a Proteção de dados sensíveis abrange todas as descobertas com uma caixa preta.
Limitações e considerações
Considere os seguintes pontos antes de criar cópias desidentificadas dos dados do Cloud Storage.
Espaço em disco
Essa operação só é compatível com conteúdo armazenado no Cloud Storage.
Essa operação faz uma cópia de cada arquivo conforme a Proteção de dados sensíveis o inspeciona. Ele não modifica nem remove o conteúdo original. Os dados copiados vão ocupar aproximadamente a mesma quantidade de espaço em disco extra que os dados originais.
Acesso de gravação ao armazenamento
Como a Proteção de dados sensíveis cria uma cópia dos arquivos originais, o agente de serviço do seu projeto precisa ter acesso de gravação no bucket de saída do Cloud Storage.
Limites de amostragem e de definição
Esta operação não tem suporte para amostragem. Especificamente, não é possível limitar a quantidade
de cada arquivo que a Proteção de dados sensíveis verifica e desidentifica. Ou seja, se você estiver
usando a API Cloud Data Loss Prevention, não
poderá usar bytesLimitPerFile
e bytesLimitPerFilePercent
no
objeto CloudStorageOptions
do DlpJob
.
Além disso, não é possível controlar o número máximo de descobertas que serão retornadas.
Se você estiver usando a API DLP, não será possível definir um objeto FindingLimits
no DlpJob
.
Requisito para inspecionar dados
Ao executar o job de inspeção, a proteção de dados confidenciais primeiro inspeciona os dados de acordo com a configuração de inspeção antes de realizar a desidentificação. Não é possível pular o processo de inspeção.
O requisito de usar extensões de arquivo
A Proteção de dados sensíveis depende de extensões de arquivo para identificar os tipos de arquivos no diretório de entrada. Talvez ele não remova a identificação de arquivos que não têm extensões, mesmo que sejam de tipos compatíveis.
Arquivos ignorados
Ao desidentificar arquivos no armazenamento, a Proteção de dados sensíveis pula os seguintes arquivos:
- Arquivos com mais de 60.000 KB. Se você tiver arquivos grandes que excedam esse limite, considere dividi-los em blocos menores.
- Arquivos de tipos sem suporte. Para conferir uma lista de tipos de arquivos aceitos, consulte Tipos de arquivos compatíveis nesta página.
- Tipos de arquivos que você excluiu intencionalmente da configuração de
desidentificação. Se você estiver usando a API DLP, os tipos de arquivo
excluídos do campo
file_types_to_transform
da açãoDeidentify
doDlpJob
serão ignorados. - Arquivos que apresentaram erros de transformação.
Ordem das linhas de saída em tabelas desidentificadas
Não há garantia de que a ordem das linhas em uma tabela desidentificada corresponde à ordem das linhas na tabela original. Se você quiser comparar a tabela original com a tabela desidentificada, não poderá usar o número da linha para identificar as linhas correspondentes. Se você pretende comparar linhas das tabelas, use um identificador exclusivo para identificar cada registro.
Chaves temporárias
Se você escolher um método criptográfico como método de transformação, primeiro crie uma chave encapsulada usando o Cloud Key Management Service. Em seguida, forneça essa chave no modelo de desidentificação. Chaves temporárias (brutas) não são aceitas.
A seguir
- Saiba como desidentificar dados sensíveis armazenados no Cloud Storage usando a API DLP.
- Saiba como desidentificar dados sensíveis armazenados no Cloud Storage usando o console do Google Cloud.
- Faça o codelab Criar uma cópia desidentificada dos dados no Cloud Storage.
- Saiba como inspecionar o armazenamento em busca de dados sensíveis.