Encobrir dados confidenciais


Neste tutorial, mostramos como usar o plugin do Cloud Data Fusion para o Cloud DLP editar dados confidenciais.

Cenário

Considere o seguinte cenário, em que algumas informações sensíveis do cliente precisam ser editadas:

Sua equipe de suporte documenta os detalhes de cada caso de suporte processado em um tíquete de suporte. Todas as informações nos tíquetes de suporte são extraídas para um arquivo CSV. Os técnicos de suporte não devem documentar informações de clientes consideradas confidenciais, mas às vezes fazem isso por engano. Você percebe que os números de telefone de alguns clientes são exibidos no arquivo CSV.

Você quer analisar o arquivo CSV e ocultar todos os números de telefone. Você cria um pipeline do Cloud Data Fusion que edita os dados confidenciais do cliente usando o plug-in do Cloud DLP.

Neste tutorial, você criará um pipeline que faz o seguinte:

  • Edita os números de telefone dos clientes mascarando-os com o caractere #.
  • Armazena os dados confidenciais mascarados e os não confidenciais em um bucket do Cloud Storage.

Objetivos

  • Conectar o Cloud Data Fusion a uma origem do Cloud Storage.
  • Implantar o plug-in do Cloud DLP.
  • Criar um modelo personalizado do Cloud DLP.
  • Usar o plug-in de transformação "Editar" para mascarar dados confidenciais do cliente.
  • Gravar os dados de saída no Cloud Storage.

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  5. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  6. Ative as APIs Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc.

    Ative as APIs

  7. Crie uma instância do Cloud Data Fusion.

Receber permissões do Cloud DLP

  1. No console do Google Cloud, abra a página IAM.

    Abra a página do IAM

  2. Na tabela de permissões, na coluna Principal, encontre a conta de serviço que corresponde ao formato service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com.

  3. Clique em Editar.

  4. Clique em Adicionar outro papel.

  5. Use a barra de pesquisa para pesquisar e selecione DLP Administrator.

  6. Clique em Salvar.

  7. Verifique se o Administrador do DLP aparece na coluna Papel.

Ao usar o Cloud Data Fusion, você usa o console do Google Cloud e a IU separada do Cloud Data Fusion. Nele, é possível criar um projeto, além de criar e excluir instâncias do Cloud Data Fusion. Na IU do Cloud Data Fusion, é possível usar as várias páginas, como o Studio ou o Administrador, para usar os recursos do Cloud Data Fusion.

  1. No console do Google Cloud, abra a página Instâncias.

    Abrir a página "Instâncias"

  2. Na coluna Ações da instância, clique no link Visualizar instância. A IU do Cloud Data Fusion será aberta em uma nova guia do navegador.

Criar o pipeline

Crie um pipeline que edite dados confidenciais do cliente. O pipeline que você cria faz o seguinte:

  • Lê os dados de entrada usando o plug-in de origem do Cloud Storage.
  • Implanta o plug-in do Cloud DLP pelo Hub.
  • Grava os dados de saída usando um plug-in de coletor do Cloud Storage.

Carregar os dados do cliente

Neste tutorial, usamos o conjunto de dados de entrada, CallCenterRecords.csv, fornecido em um bucket do Cloud Storage disponível publicamente.

  1. Abra a instância do Cloud Data Fusion e clique em Menu > Studio.

  2. No menu Origem, clique no plug-in do Cloud Storage.

    Selecione o plug-in.

  3. No nó do Cloud Storage, clique em Propriedades.

  4. No campo Nome de referência, insira um nome.

  5. No campo Caminho, digite gs://datafusion-sample-datasets/CallCenterRecords.csv.

  6. No campo Formato, selecione CSV.

  7. Para o Esquema de saída, exclua os campos offset e body. Clique em Adicionar e preencha os seguintes campos:

    • Data
    • Banco
    • Estado
    • Zip
    • Observações

    Insira as propriedades de origem.

  8. Clique em Validar para verificar se há erros.

  9. Clique em Fechar.

Editar dados confidenciais

O plug-in de edição do Cloud DLP identifica registros confidenciais no fluxo de entrada de dados e aplica transformações definidas por você a esses registros. Um registro de dados será considerado confidencial se corresponder aos filtros predefinidos do Cloud DLP escolhidos ou a um modelo personalizado definido por você.

Neste tutorial, você quer editar os números de telefone dos clientes que alguns técnicos de suporte da sua equipe anotaram acidentalmente. Eles inseriram as informações confidenciais na seção Observações dos tíquetes de suporte, que aparece como a coluna Observações no arquivo CSV. Crie um modelo personalizado do Cloud DLP e, em seguida, forneça o ID do modelo no menu de propriedades do plug-in.

Implantar o plug-in do Cloud DLP

  1. Na sua instância do Cloud Data Fusion, clique em Hub.

  2. Clique no plug-in Cloud DLP.

  3. Selecione Implantar.

  4. Clique em Finish.

  5. Clique em Fechar para sair da caixa de diálogo do Cloud DLP.

  6. Clique em Fechar para sair do Hub.

Criar um modelo personalizado

  1. No console do Google Cloud, acesse a página do Cloud DLP.

    Acessar o Cloud DLP

  2. No menu Criar, escolha Modelo. imagem

  3. No campo ID do modelo, insira um ID.

  4. Clique em Continuar.

  5. No campo Configurar detecção, clique em Gerenciar infotypes.

  6. Na guia Incorporado, use o filtro para pesquisar "número de telefone".

    Filtro

  7. Selecione PHONE_NUMBER.

  8. Clique em Concluído > Criar.

Saiba mais sobre como criar modelos do Cloud DLP.

Aplicar a transformação de edição do Cloud DLP

  1. Acesse a página do Studio no Cloud Data Fusion e clique para expandir o menu Transformar.

  2. Clique no plug-in Editar do Cloud DLP.

    Clique no plug-in para adicioná-lo ao pipeline.

  3. Arraste uma seta de conexão do nó do Cloud Storage para o nó Editar.

    Conecte os dois nós.

  4. Mantenha o ponteiro sobre o nó Editar e clique em Propriedades.

    1. Defina Modelo personalizado como Yes.

    2. No campo ID do modelo, digite o ID do modelo personalizado que você criou.

    3. No campo Correspondência, aplique Mascaramento em Modelo personalizado, em Observações.

    4. No campo Mascaramento de caractere, digite #.

      Máscara.

    5. Clique em Validar para verificar se há erros.

    6. Clique em Fechar.

Armazenar os dados de saída

Armazene os resultados do pipeline em um arquivo do Cloud Storage.

  1. Na página do Studio, clique para expandir o menu Coletor.

  2. Clique em Cloud Storage.

  3. Arraste uma seta de conexão do nó Editar para o nó do Cloud Storage2.

    Conecte o nó do Redact ao segundo nó do Cloud Storage.

  4. Mantenha o ponteiro do mouse sobre o nó Cloud Storage2 e clique em Propriedades.

    1. No campo Nome de referência, insira um nome.

    2. No campo Caminho, insira o caminho de um bucket do Cloud Storage em que você quer armazenar os resultados do pipeline. O Cloud Data Fusion cria o bucket para você. Siga as diretrizes de nomenclatura de buckets.

    3. No campo Formato, selecione CSV.

    4. Clique em Validar para garantir que não haja erros.

    5. Clique em Fechar.

Executar o pipeline no modo de visualização

Execute o pipeline no modo de visualização antes de implantá-lo.

  1. Clique em Visualizar e em Executar.

    Executar o pipeline.

    Clique em Executar para exibir o status do pipeline, que começa com Iniciando, depois muda para Parar e, em seguida, para Executar.

  2. Quando a execução da visualização for concluída, no nó Editar, clique em Visualizar dados para ver uma comparação lado a lado dos dados de entrada e saída. Verifique se os números de telefone foram mascarados com o caractere #.

    Confira se os números de telefone estão mascarados.

Editar outro tipo de dado

Ao examinar os resultados da execução da visualização, você percebe que ainda há informações confidenciais que aparecem na coluna Observações: endereços de e-mail. Você também edita o modelo do Cloud DLP para editar endereços de e-mail.

  1. No console do Google Cloud, acesse a página do Cloud DLP.

    Abrir a página do Cloud DLP

  2. Na guia Configuração, selecione o modelo.

  3. Clique em Editar.

  4. Clique em Gerenciar infotipos.

  5. Na guia Incorporado, use o filtro para pesquisar "OU" "endereço de e-mail".

    Filtro

  6. Selecione todos e clique em Concluído.

  7. Clique em Salvar.

  8. Mais uma vez, execute o pipeline no modo de visualização. O Cloud Data Fusion usará automaticamente o modelo atualizado do Cloud DLP.

  9. Verifique se os números de telefone e os endereços de e-mail foram mascarados com o caractere #.

    Verificar se os dados estão mascarados.

Implantar e executar o pipeline

  1. Verifique se o modo Visualizar está desmarcado.

  2. Clique em Salvar. Ao clicar em Salvar, será solicitado que você nomeie o pipeline. Em seguida, clique em OK.

  3. Selecione Implantar.

  4. Quando a implantação for concluída, clique em Executar. A execução do pipeline pode levar alguns minutos. Enquanto espera, observe o Status do pipeline mudar de Provisionando para Iniciando para Em execução para Desprovisionando para Concluído.

Ver os resultados

  1. No console do Google Cloud, acesse a página "Cloud Storage".

    Acesse o Cloud Storage

  2. No navegador do Storage, navegue até o bucket do Cloud Storage do coletor especificado nas propriedades do plug-in do Cloud Storage do coletor.

  3. Em URL do link, clique no link para fazer o download do arquivo CSV com os resultados. Confira se os números de telefone e os endereços de e-mail estão mascarados com o caractere #.

    Verificar se os dados estão mascarados.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Excluir a instância do Cloud Data Fusion

Siga estas instruções para excluir a instância do Cloud Data Fusion.

Exclua o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. No Console do Google Cloud, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

A seguir