Nesta página, descrevemos como a proteção de dados confidenciais pode criar cópias desidentificadas de dados armazenados no Cloud Storage. Ele também lista as limitações dessa operação e os pontos que você precisa considerar antes de começar.
Para informações sobre como usar a proteção de dados confidenciais para criar cópias desidentificadas dos dados do Cloud Storage, consulte os seguintes artigos:
- Criar cópias desidentificadas de dados armazenados no Cloud Storage usando o console do Google Cloud
- Criar cópias desidentificadas dos dados armazenados no Cloud Storage usando a API
Sobre a desidentificação
A desidentificação é o processo de remover informações de identificação dos dados. O objetivo é permitir o uso e o compartilhamento de informações pessoais, como informações de saúde, financeiras ou demográficas, atendendo aos requisitos de privacidade. Para mais informações sobre desidentificação, consulte Como desidentificar dados confidenciais.
Para informações mais detalhadas sobre transformações de desidentificação na Proteção de dados confidenciais, consulte Referência de transformação. Para mais informações sobre como a proteção de dados confidenciais edita dados confidenciais de imagens, consulte Inspeção e edição de imagens.
Quando usar esse recurso
Esse recurso é útil se os arquivos usados nas operações comerciais contiverem dados confidenciais, como informações de identificação pessoal (PII). Esse recurso permite usar e compartilhar informações como parte dos processos comerciais, mantendo partes confidenciais de dados ocultas.
Processo de desidentificação
Nesta seção, descrevemos o processo de desidentificação na proteção de dados confidenciais para conteúdo no Cloud Storage.
Para usar esse recurso, crie um
job de inspeção (DlpJob
) configurado para fazer cópias desidentificadas
dos arquivos do Cloud Storage.
A Proteção de dados confidenciais verifica os arquivos no local especificado, inspecionando-os
de acordo com a configuração. Ao inspecionar cada arquivo,
a proteção de dados confidenciais desidentifica todos os dados que correspondem aos critérios de
dados confidenciais e, em seguida, grava o conteúdo em um novo arquivo. O novo arquivo sempre tem
o mesmo nome do arquivo original.
Ele armazena esse novo arquivo em um diretório de saída especificado por você. Se um arquivo for incluído na verificação, mas nenhum dado corresponder aos critérios de desidentificação e não houver erros no processamento, o arquivo será copiado, sem alterações, para o diretório de saída.
O diretório de saída definido precisa estar em um bucket do Cloud Storage diferente do bucket que contém os arquivos de entrada. No diretório de saída, a proteção de dados confidenciais cria uma estrutura de arquivos que espelha a estrutura de arquivos do diretório de entrada.
Por exemplo, suponha que você definiu os seguintes diretórios de entrada e saída:
- Diretório de entrada:
gs://input-bucket/folder1/folder1a
- Diretório de saída:
gs://output-bucket/output-directory
Durante a desidentificação, a proteção de dados confidenciais armazena os arquivos desidentificados
em gs://output-bucket/output-directory/folder1/folder1a
.
Se houver um arquivo no diretório de saída com o mesmo nome de um arquivo desidentificado, ele será substituído. Se você não quiser que os arquivos atuais sejam substituídos, altere o diretório de saída antes de executar esta operação. Se preferir, ative o controle de versões do objeto no bucket de saída.
As listas de controle de acesso (ACLs) no nível dos arquivos originais são copiadas para os novos arquivos, independentemente de os dados confidenciais terem sido encontrados e desidentificados. No entanto, se o bucket de saída estiver configurado apenas para permissões uniformes no nível do bucket, e não para permissões refinadas no nível do objeto, as ACLs não serão copiadas para os arquivos desidentificados.
O diagrama a seguir mostra o processo de desidentificação de quatro arquivos armazenados em um bucket do Cloud Storage. Cada arquivo é copiado, independentemente de a proteção de dados confidenciais detectar dados confidenciais. Cada arquivo copiado é nomeado da mesma forma que o original.
Preços
Para informações sobre preços, consulte Inspeção e transformação de dados no armazenamento.
Tipos de arquivos compatíveis
A proteção de dados confidenciais pode desidentificar os seguintes grupos de tipos de arquivos:
- CSV
- Imagem
- Texto
- TSV
Comportamento de desidentificação padrão
Se você quiser definir como a proteção de dados confidenciais transforma as descobertas, forneça modelos de desidentificação para os seguintes tipos de arquivos:
- Arquivos não estruturados, como arquivos de texto com formato livre
- Arquivos estruturados, como CSV
- Imagens
Se você não fornecer nenhum modelo de desidentificação, a proteção de dados confidenciais transforma as descobertas da seguinte maneira:
- Em arquivos não estruturados e estruturados, a proteção de dados confidenciais substitui todas as descobertas pelo infoType correspondente, conforme descrito em Substituição de InfoType.
- Nas imagens, a proteção de dados confidenciais cobre todas as descobertas com uma caixa preta.
Limitações e considerações
Considere os pontos a seguir antes de criar cópias desidentificadas dos dados do Cloud Storage.
Espaço em disco
Esta operação só é compatível com conteúdo armazenado no Cloud Storage.
Essa operação cria uma cópia de cada arquivo durante a inspeção da Proteção de dados confidenciais. Ela não modifica nem remove o conteúdo original. Os dados copiados ocupam aproximadamente a mesma quantidade de espaço em disco que os dados originais.
Acesso de gravação ao armazenamento
Como a proteção de dados confidenciais cria uma cópia dos arquivos originais, o agente de serviço do projeto precisa ter acesso de gravação no bucket de saída do Cloud Storage.
Amostragem e definição de limites de descoberta
Esta operação não é compatível com amostragem. Especificamente, não é possível limitar quanto
de cada arquivo a proteção de dados confidenciais verifica e desidentifica. Ou seja, se você estiver usando a API Cloud Data Loss Prevention, não poderá usar bytesLimitPerFile
e bytesLimitPerFilePercent
no objeto CloudStorageOptions
da DlpJob
.
Além disso, não é possível controlar o número máximo de descobertas a serem retornadas.
Se você estiver usando a API DLP, não será possível definir um objeto FindingLimits
no DlpJob
.
Requisito para inspecionar os dados
Ao executar o job de inspeção, a proteção de dados confidenciais primeiro inspeciona os dados, de acordo com a configuração da inspeção, antes de executar a desidentificação. Ele não pode pular o processo de inspeção.
Requisito para usar extensões de arquivo
A proteção de dados confidenciais depende de extensões de arquivo para identificar os tipos dos arquivos no diretório de entrada. Talvez ele não desidentifique arquivos que não tenham extensões de arquivo, mesmo que esses arquivos sejam de tipos compatíveis.
Arquivos ignorados
Ao desidentificar arquivos no armazenamento, a proteção de dados confidenciais ignora os seguintes arquivos:
- Arquivos com mais de 60.000 KB. Se você tiver arquivos grandes que excedem esse limite, considere dividi-los em blocos menores.
- Arquivos de tipos não compatíveis. Para ver uma lista de tipos de arquivos compatíveis, consulte Tipos de arquivos compatíveis nesta página.
- Tipos de arquivo que você excluiu intencionalmente da configuração de desidentificação. Se você estiver usando a API DLP, os tipos de arquivo excluídos do campo
file_types_to_transform
da açãoDeidentify
doDlpJob
serão ignorados. - Arquivos que encontraram erros de transformação.
Ordem das linhas de saída em tabelas desidentificadas
Não há garantia de que a ordem das linhas em uma tabela desidentificada corresponda à ordem das linhas na tabela original. Se você quiser comparar a tabela original com a desidentificada, não será possível confiar no número da linha para identificar as linhas correspondentes. Se você pretende comparar linhas das tabelas, use um identificador exclusivo para identificar cada registro.
Chaves temporárias
Se você escolher um método criptográfico como seu método de transformação, primeiro crie uma chave encapsulada usando o Cloud Key Management Service. Depois, forneça essa chave no seu modelo de desidentificação. Chaves transitórias (brutas) não são aceitas.
A seguir
- Saiba como desidentificar dados confidenciais armazenados no Cloud Storage usando a API DLP.
- Saiba como desidentificar dados confidenciais armazenados no Cloud Storage usando o console do Google Cloud.
- Siga as etapas do codelab Como criar uma cópia desidentificada de dados no Cloud Storage.
- Saiba como inspecionar o armazenamento de dados confidenciais.