Criar cópias desidentificadas dos dados armazenados no Cloud Storage usando o console do Google Cloud

Esta página descreve como inspecionar um diretório do Cloud Storage e criar cópias desidentificadas dos arquivos com suporte usando a Proteção de dados sensíveis no console do Google Cloud.

Essa operação ajuda a garantir que os arquivos usados nos processos de negócios não contenham dados sensíveis, como informações de identificação pessoal (PII). A Proteção de dados sensíveis pode inspecionar arquivos em um bucket do Cloud Storage para encontrar dados sensíveis e criar cópias desidentificadas desses arquivos em um bucket separado. Você pode usar as cópias desidentificadas nos processos de negócios.

Para mais informações sobre o que acontece quando você desidentifica dados no armazenamento, consulte Desidentificação de dados sensíveis no armazenamento.

Antes de começar

Esta página pressupõe o seguinte:

Saiba mais sobre as limitações e pontos a serem considerados para essa operação.

A inspeção de armazenamento requer o seguinte escopo OAuth: https://www.googleapis.com/auth/cloud-platform. Para mais informações, consulte Como autenticar na API DLP.

Papéis do IAM obrigatórios

Se todos os recursos dessa operação estiverem no mesmo projeto, o papel de agente de serviço da API DLP (roles/dlp.serviceAgent) no agente de serviço será suficiente. Com essa função, é possível fazer o seguinte:

  • Criar o job de inspeção
  • Ler os arquivos no diretório de entrada
  • Gravar os arquivos desidentificados no diretório de saída
  • Gravar os detalhes da transformação em uma tabela do BigQuery

Os recursos relevantes incluem o job de inspeção, os modelos de desidentificação, o bucket de entrada, o bucket de saída e a tabela de detalhes da transformação.

Se você precisar ter os recursos em projetos separados, verifique se o agente de serviço do seu projeto também tem os seguintes papéis:

  • O papel de Leitor de objetos do Storage (roles/storage.objectViewer) no bucket de entrada ou no projeto que o contém.
  • O papel Criador de objetos do Storage (roles/storage.objectCreator) no bucket de saída ou no projeto que o contém.
  • O papel de editor de dados do BigQuery (roles/bigquery.dataEditor) na tabela de detalhes da transformação ou no projeto que a contém.

Para conceder uma função ao agente de serviço, consulte Conceder um único papel. Também é possível controlar o acesso nos seguintes níveis:

Visão geral

Para criar cópias desidentificadas dos seus arquivos do Cloud Storage, configure um job de inspeção que procure dados sensíveis de acordo com os critérios especificados. Em seguida, no job de inspeção, ative a ação Fazer uma cópia desidentificada. É possível definir modelos de desidentificação que determinam como a Proteção de dados sensíveis precisa transformar as descobertas. Se você não fornecer nenhum modelo de desidentificação, a Proteção de dados sensíveis vai transformar as descobertas conforme descrito em Comportamento padrão de desidentificação.

Se você ativar a ação Fazer uma cópia desidentificada, por padrão, a proteção de dados sensíveis vai transformar todos os tipos de arquivo com suporte incluídos na verificação. No entanto, é possível configurar o job para transformar apenas um subconjunto dos tipos de arquivo aceitos.

Opcional: criar modelos de desidentificação

Se você quiser controlar como as descobertas são transformadas, crie os modelos a seguir. Esses modelos fornecem instruções sobre como transformar descobertas em arquivos estruturados, não estruturados e imagens.

  • Modelo de desidentificação:um modelo de desidentificação padrão a ser usado para arquivos não estruturados, como arquivos de texto de formato livre. Esse tipo de modelo de desidentificação não pode conter transformações de registro, que têm suporte apenas para conteúdo estruturado. Se esse modelo não estiver presente, a Proteção de dados sensíveis vai usar o método infoType replacement para transformar arquivos não estruturados.

  • Modelo de desidentificação estruturado:um modelo de desidentificação a ser usado para arquivos estruturados, como CSVs. Esse modelo de desidentificação pode conter transformações de registro. Se esse modelo não estiver presente, a Proteção de dados sensíveis vai usar o modelo de desidentificação padrão que você criou. Se ele também não estiver presente, a Proteção de dados sensíveis vai usar o método de substituição de infoType para transformar arquivos estruturados.

  • Modelo de edição de imagem:um modelo de desidentificação para uso em imagens. Se esse modelo não estiver presente, a Proteção de dados sensíveis vai editar todas as descobertas em imagens com uma caixa preta.

Saiba como criar um modelo de desidentificação.

Criar um job de inspeção com uma ação de desidentificação

  1. No console do Google Cloud, acesse a página Criar job ou gatilho de job.

    Acesse Criar job ou gatilho de jobs

  2. Insira as informações de job da Proteção de dados sensíveis e clique em Continuar para concluir cada etapa.

As seções a seguir descrevem como preencher as seções relevantes da página.

Escolher dados de entrada

Na seção Escolher dados de entrada, faça o seguinte:

  1. Opcional: em Nome, insira um identificador para o job de inspeção.
  2. Em Local do recurso, selecione Global ou a região em que você quer armazenar o job de inspeção.
  3. Em Local, selecione Google Cloud Storage.
  4. Em URL, insira o caminho para o diretório de entrada. O diretório de entrada contém os dados que você quer verificar, por exemplo, gs://input-bucket/folder1/folder1a. Se você quiser verificar o diretório de entrada de forma recursiva, adicione uma barra final ao URL e selecione Verificar recursivamente.
  5. Na seção Sampling, na lista Sampling method, selecione No sampling.

    A amostragem não é compatível com jobs e acionadores de jobs configurados com desidentificação.

Configurar detecção

Na seção Configurar detecção, escolha os tipos de dados sensíveis a serem inspecionados. Eles são chamados de infoTypes. Selecione na lista de infoTypes predefinidos ou selecione um modelo, se houver. Para mais detalhes, consulte Configurar a detecção.

Adicionar ações

Na seção Adicionar ações, faça o seguinte:

  1. Ative a opção Fazer uma cópia desidentificada.
  2. Opcional: em Modelo de desidentificação, insira o nome completo do recurso do modelo de desidentificação padrão, se você criou um.
  3. Opcional: em Modelo de desidentificação estruturado, insira o nome completo do recurso do modelo de desidentificação para arquivos estruturados, se você tiver criado um. Caso contrário, a Proteção de dados sensíveis vai usar o modelo padrão, se você tiver criado um.
  4. Opcional: em Modelo de edição de imagem, insira o nome completo do recurso do modelo de edição de imagem para imagens, se você tiver criado um.
  5. Opcional: se você quiser que a Proteção de dados sensíveis armazene os detalhes da transformação em uma tabela do BigQuery, selecione Exportar detalhes da transformação para o BigQuery e preencha as seguintes informações:

    • ID do projeto: o projeto que contém a tabela do BigQuery.
    • ID do conjunto de dados: o conjunto de dados que contém a tabela do BigQuery.
    • ID da tabela: a tabela em que a Proteção de dados sensíveis precisa armazenar detalhes sobre cada transformação. A Proteção de Dados Sensíveis cria essa tabela com o ID de tabela fornecido. Se você não fornecer um ID de tabela, o sistema vai criar um automaticamente.

    Essa tabela não armazena o conteúdo desidentificado.

    Quando os dados são gravados em uma tabela do BigQuery, o uso do faturamento e da cota é aplicado ao projeto que contém a tabela de destino.

  6. Em Local de saída do Cloud Storage, insira o URL do diretório do Cloud Storage em que você quer armazenar os arquivos desidentificados. Esse diretório não pode estar no mesmo bucket do Cloud Storage que o diretório de entrada.

  7. Opcional: em Tipos de arquivo, selecione os tipos de arquivos que você quer transformar.

Para mais informações sobre outras ações que você pode adicionar, consulte Adicionar ações.

Programar

Na seção Programação, especifique se você quer tornar esse job recorrente:

  • Para executar a verificação apenas uma vez, mantenha o campo definido como Nenhum.
  • Para programar a execução periódica das verificações, clique em Criar um acionador para executar o job em uma programação periódica.

Para mais informações, consulte Programar.

Revisão

  1. Na seção Programação, revise a configuração do job e, se necessário, edite-o.

  2. Clique em Criar.

Se você não tiver programado o job, a Proteção de dados sensíveis vai iniciá-lo imediatamente. Depois que o job for concluído, o sistema vai redirecionar você para a página Detalhes do job, onde você poderá conferir os resultados das operações de inspeção e desidentificação.

Se você tiver optado por exportar os detalhes da transformação para uma tabela do BigQuery, ela será preenchida. Ela contém uma linha para cada transformação feita pela Proteção de Dados Sensíveis. Para cada transformação, os detalhes incluem uma descrição, um código de sucesso ou erro, detalhes de erro, o número de bytes transformados, o local do conteúdo transformado e o nome do job de inspeção em que a Proteção de dados sensíveis fez a transformação. Esta tabela não contém o conteúdo desidentificado.

Confirmar que os arquivos foram desidentificados

  1. Na página Detalhes do job, clique na guia Configuração.
  2. Para conferir os arquivos desidentificados no diretório de saída, clique no link no campo Bucket de saída para dados desidentificados do Cloud Storage.
  3. Para conferir a tabela do BigQuery que contém os detalhes da transformação, clique no link no campo Detalhes da transformação.

    Para informações sobre como consultar uma tabela do BigQuery, consulte Como executar consultas interativas.

A seguir