Criar cópias desidentificadas de dados armazenados no Cloud Storage usando o console do Google Cloud

Nesta página, descrevemos como inspecionar um diretório do Cloud Storage e criar cópias desidentificadas dos arquivos compatíveis usando a proteção de dados sensíveis no console do Google Cloud.

Essa operação ajuda a garantir que os arquivos usados nos processos dos seus negócios não contenham dados confidenciais, como informações de identificação pessoal (PII). A proteção de dados confidenciais pode inspecionar dados confidenciais em arquivos em um bucket do Cloud Storage e criar cópias desidentificadas desses arquivos em um bucket separado. Você pode usar as cópias desidentificadas nos seus processos comerciais.

Para mais informações sobre o que acontece quando você desidentifica dados no armazenamento, consulte Desidentificação de dados confidenciais no armazenamento.

Antes de começar

Nesta página, pressupomos o seguinte:

Saiba mais sobre as limitações e os pontos de consideração dessa operação.

A inspeção de armazenamento requer o seguinte escopo do OAuth: https://www.googleapis.com/auth/cloud-platform. Para mais informações, consulte Como autenticar na API DLP.

Papéis do IAM obrigatórios

Se todos os recursos dessa operação estiverem no mesmo projeto, o papel de Agente de serviço da API DLP (roles/dlp.serviceAgent) no agente de serviço será suficiente. Com esse papel, você pode fazer o seguinte:

  • Criar o job de inspeção
  • Ler os arquivos no diretório de entrada
  • Gravar os arquivos desidentificados no diretório de saída
  • Gravar os detalhes da transformação em uma tabela do BigQuery

Os recursos relevantes incluem o job de inspeção, os modelos de desidentificação, o bucket de entrada, o bucket de saída e a tabela de detalhes da transformação.

Se você precisa ter os recursos em projetos separados, verifique se o agente de serviço do projeto também tem os seguintes papéis:

  • O papel Leitor de objetos do Storage (roles/storage.objectViewer) no bucket de entrada ou no projeto que o contém.
  • O papel Criador de objetos do Storage (roles/storage.objectCreator) no bucket de saída ou no projeto que o contém.
  • O papel Editor de dados do BigQuery (roles/bigquery.dataEditor) na tabela de detalhes da transformação ou no projeto que a contém.

Para conceder um papel ao seu agente de serviço, que é uma conta serviço gerenciado pelo Google, consulte Conceder um único papel. Também é possível controlar o acesso nos seguintes níveis:

Visão geral

Para criar cópias desidentificadas dos arquivos do Cloud Storage, configure um job de inspeção que procure dados confidenciais de acordo com os critérios especificados. Em seguida, no job de inspeção, ative a ação Fazer uma cópia desidentificada. É possível definir modelos de desidentificação que ditam como a proteção de dados sensíveis precisa transformar as descobertas. Se você não fornecer nenhum modelo de desidentificação, a proteção de dados confidenciais transformará as descobertas conforme descrito em Comportamento de desidentificação padrão.

Se você ativar a ação Fazer uma cópia desidentificada, por padrão, a proteção de dados confidenciais transformará todos os tipos de arquivo compatíveis incluídos na verificação. No entanto, é possível configurar o job para transformar apenas um subconjunto dos tipos de arquivos compatíveis.

Opcional: criar modelos de desidentificação

Se você quiser controlar como as descobertas são transformadas, crie os modelos a seguir. Esses modelos fornecem instruções sobre como transformar descobertas em arquivos estruturados, arquivos não estruturados e imagens.

  • Modelo de desidentificação: um modelo de desidentificação padrão a ser usado para arquivos não estruturados, como arquivos de texto de formato livre. Esse tipo de modelo de desidentificação não pode conter transformações de registro, que são compatíveis apenas com conteúdo estruturado. Se esse modelo não estiver presente, a proteção de dados sensíveis usará o método de substituição de infoType para transformar arquivos não estruturados.

  • Modelo de desidentificação estruturado: um modelo de desidentificação a ser usado para arquivos estruturados, como arquivos CSV. Esse modelo de desidentificação pode conter transformações de registro. Se esse modelo não estiver presente, a proteção de dados sensíveis vai usar o modelo de desidentificação padrão que você criou. Se isso também não estiver presente, a proteção de dados sensíveis usará o método de substituição de infoType para transformar arquivos estruturados.

  • Modelo de edição de imagem:um modelo de desidentificação a ser usado para imagens. Se esse modelo não estiver presente, a proteção de dados sensíveis editará todas as descobertas em imagens com uma caixa preta.

Saiba como criar um modelo de desidentificação.

Criar um job de inspeção com uma ação de desidentificação

  1. No console do Google Cloud, acesse a página Criar job ou gatilho de jobs.

    Acessar "Criar job ou gatilho de jobs"

  2. Insira as informações do job de proteção de dados sensíveis e clique em Continuar para concluir cada etapa.

As seções abaixo descrevem como preencher as seções relevantes da página.

Escolher dados de entrada

Na seção Escolher dados de entrada, faça o seguinte:

  1. Opcional: em Nome, insira um identificador para o job de inspeção.
  2. Em Local do recurso, selecione Global ou a região em que você quer armazenar o job de inspeção.
  3. Em Local, selecione Google Cloud Storage.
  4. Em URL, digite o caminho para o diretório de entrada. O diretório de entrada contém os dados que você quer verificar, por exemplo, gs://input-bucket/folder1/folder1a. Se você quiser verificar o diretório de entrada de maneira recursiva, adicione uma barra final ao URL e selecione Verificar recursivamente.
  5. Na seção Amostragem, na lista Método de amostragem, selecione Sem amostragem.

    A amostragem não é compatível com jobs e gatilhos de jobs configurados com desidentificação.

Configurar detecção

Na seção Configurar detecção, escolha os tipos de dados confidenciais que serão inspecionados. Eles são chamados de infoTypes. Selecione na lista de infoTypes predefinidos ou selecione um modelo, se houver. Para mais detalhes, consulte Configurar a detecção.

Adicionar ações

Na seção Adicionar ações, faça o seguinte:

  1. Ative a opção Fazer uma cópia desidentificada.
  2. Opcional: em Modelo de desidentificação, insira o nome completo do recurso do modelo de desidentificação padrão, caso você tenha criado um.
  3. Opcional: em Modelo de desidentificação estruturado, insira o nome completo do recurso do modelo de desidentificação para arquivos estruturados, se você tiver criado um. Se não o fez, a proteção de dados sensíveis usará o modelo padrão, se você tiver criado um.
  4. Opcional: em Modelo de edição de imagem, insira o nome completo do recurso do modelo de edição de imagem para imagens, se você tiver criado um.
  5. Opcional: se você quiser que a proteção de dados confidenciais armazene os detalhes da transformação em uma tabela do BigQuery, selecione Exportar detalhes da transformação para o BigQuery e preencha o seguinte:

    • ID do projeto: o projeto que contém a tabela do BigQuery.
    • ID do conjunto de dados: o conjunto de dados que contém a tabela do BigQuery.
    • ID da tabela: a tabela em que a proteção de dados sensíveis precisa armazenar detalhes sobre cada transformação. A proteção de dados sensíveis cria a tabela com o ID fornecido. Se você não fornecer um ID de tabela, o sistema criará um automaticamente.

    Esta tabela não armazena o conteúdo real desidentificado.

    Quando os dados são gravados em uma tabela do BigQuery, o faturamento e o uso de cota são aplicados ao projeto que contém a tabela de destino.

  6. Em Local de saída do Cloud Storage, insira o URL do diretório do Cloud Storage em que você quer armazenar os arquivos desidentificados. Esse diretório não pode estar no mesmo bucket do Cloud Storage que o diretório de entrada.

  7. Opcional: em Tipos de arquivo, selecione os tipos de arquivos que você quer transformar.

Para mais informações sobre outras ações que você pode adicionar, consulte Adicionar ações.

Programação

Na seção Programação, especifique se você quer tornar esse job um job recorrente:

  • Para executar a verificação apenas uma vez, mantenha o campo definido como None.
  • Para programar verificações para serem executadas periodicamente, clique em Criar um gatilho para executar o job em uma programação periódica.

Para mais informações, consulte Programar.

Revisão

  1. Na seção Programar, revise a configuração do job e, se necessário, edite o job.

  2. Clique em Criar.

Se você optou por não programar o job, a proteção de dados sensíveis começará a executá-lo imediatamente. Depois que o job for concluído, o sistema redirecionará você para a página Detalhes do job, em que será possível ver os resultados das operações de inspeção e desidentificação.

Se você optou por exportar os detalhes da transformação para uma tabela do BigQuery, a tabela estará preenchida. Ela contém uma linha para cada transformação feita pela proteção de dados sensíveis. Para cada transformação, os detalhes incluem uma descrição, um código de sucesso ou erro, todos os detalhes do erro, o número de bytes transformados, o local do conteúdo transformado e o nome do job de inspeção em que a proteção de dados sensíveis fez a transformação. Esta tabela não tem o conteúdo real desidentificado.

Confirmar se os arquivos foram desidentificados

  1. Na página Detalhes do job, clique na guia Configuração.
  2. Para exibir os arquivos desidentificados no diretório de saída, clique no link no campo Bucket de saída para dados desidentificados do Cloud Storage.
  3. Para ver a tabela do BigQuery que contém os detalhes da transformação, clique no link no campo Detalhes da transformação.

    Para informações sobre como consultar uma tabela do BigQuery, consulte Como executar consultas interativas.

A seguir