Ocultar dados confidenciais


Neste tutorial, mostramos como usar o plug-in do Cloud Data Fusion para o Cloud DLP editar dados confidenciais.

Cenário

Considere o seguinte cenário, em que algumas informações sensíveis de clientes precisam ser editados:

Sua equipe de suporte documenta os detalhes de cada caso de suporte processado em um tíquete de suporte. Todas as informações nos tíquetes de suporte são extraídas para um arquivo CSV. Os técnicos de suporte não devem documentar informações de clientes consideradas confidenciais, mas às vezes fazem isso por engano. Você percebe que os números de telefone de alguns clientes são exibidos no arquivo CSV.

Você quer analisar o arquivo CSV e ocultar todos os números de telefone. Você cria um pipeline do Cloud Data Fusion que edita os dados confidenciais do cliente usando o plug-in do Cloud DLP.

Neste tutorial, você criará um pipeline que faz o seguinte:

  • Edita os números de telefone dos clientes mascarando-os com o caractere #.
  • Armazena os dados confidenciais mascarados e os não confidenciais em um bucket do Cloud Storage.

Objetivos

  • Conectar o Cloud Data Fusion a uma origem do Cloud Storage.
  • Implantar o plug-in do Cloud DLP.
  • Criar um modelo personalizado do Cloud DLP.
  • Usar o plug-in de transformação "Editar" para mascarar dados confidenciais do cliente.
  • Gravar os dados de saída no Cloud Storage.

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.

    Enable the APIs

  7. Crie uma instância do Cloud Data Fusion.

Receber permissões do Cloud DLP

  1. No console do Google Cloud, abra a página IAM.

    Abra a página do IAM

  2. Na tabela de permissões, na coluna Membro, encontre a conta de serviço que corresponde ao formato service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com.

  3. Clique em Editar.

  4. Clique em Adicionar outro papel.

  5. Use a barra de pesquisa para pesquisar e selecione Administrador do DLP.

  6. Clique em Save.

  7. Verifique se o Administrador do DLP aparece na coluna Papel.

Ao usar o Cloud Data Fusion, você usa o console do Google Cloud e a IU separada do Cloud Data Fusion. No console do Google Cloud, pode criar um projeto do console do Google Cloud e criar e excluir instâncias do Cloud Data Fusion. Na IU do Cloud Data Fusion, é possível usar as várias páginas, como o Studio ou o Administrador, para usar os recursos do Cloud Data Fusion.

  1. No console do Google Cloud, abra a página Instâncias.

    Abrir a página "Instâncias"

  2. Na coluna Ações da instância, clique no link Visualizar instância. A IU do Cloud Data Fusion será aberta em uma nova guia do navegador.

Criar o pipeline

Crie um pipeline que edite dados confidenciais do cliente. O pipeline que você cria faz o seguinte:

  • Lê os dados de entrada usando o plug-in de origem do Cloud Storage.
  • Implanta o plug-in do Cloud DLP no Hub.
  • Grava os dados de saída usando um plug-in de coletor do Cloud Storage.

Carregar os dados do cliente

Neste tutorial, usamos o conjunto de dados de entrada, CallCenterRecords.csv, fornecido em um bucket do Cloud Storage disponível publicamente.

  1. Abra sua instância do Cloud Data Fusion e clique em Menu > Studio.

  2. No menu Origem, clique no plug-in Cloud Storage.

    Selecione o plug-in.

  3. No nó do Cloud Storage, clique em Propriedades.

  4. No campo Nome de referência, insira um nome.

  5. No campo Caminho, digite gs://datafusion-sample-datasets/CallCenterRecords.csv.

  6. No campo Formato, selecione CSV.

  7. No Esquema de saída, exclua os campos offset e body. Clique em Adicionar e insira os seguintes campos:

    • Data
    • Banco
    • State
    • Zip
    • Observações

    Insira as propriedades de origem.

  8. Clique em Validar para verificar se há erros.

  9. Clique em Fechar.

Editar dados confidenciais

O plug-in Redact do Cloud DLP identifica registros confidenciais no fluxo de entrada de dados e aplica transformações definidas a esses registros. Um registro de dados é considerado confidencial se corresponder a filtros predefinidos do Cloud DLP escolhidos ou a um modelo personalizado definido por você.

Neste tutorial, você quer editar os números de telefone dos clientes que alguns técnicos de suporte da sua equipe anotaram acidentalmente. Eles inseriram as informações confidenciais na seção Observações dos tíquetes de suporte, que aparece como a coluna Observações no arquivo CSV. Crie um modelo personalizado do Cloud DLP e forneça o ID do modelo no menu de propriedades do plug-in.

Implantar o plug-in do Cloud DLP

  1. Na instância do Cloud Data Fusion, clique em Hub.

  2. Clique no plug-in do Cloud DLP.

  3. Clique em Implantar.

  4. Clique em Concluir.

  5. Clique em Fechar para sair do Cloud DLP. caixa de diálogo.

  6. Clique em Close para sair do Hub.

Criar um modelo personalizado

  1. No console do Google Cloud, acesse a página do Cloud DLP.

    Acessar o Cloud DLP

  2. No menu Criar, escolha Modelo. imagem

  3. No campo ID do modelo, insira um ID para o modelo.

  4. Clique em Continuar.

  5. No campo Configurar detecção, clique em Gerenciar InfoTypes.

  6. Na guia Incorporado, use o filtro para pesquisar "número de telefone".

    Filtro.

  7. Selecione PHONE_NUMBER.

  8. Clique em Concluído > Criar.

Saiba mais sobre como criar modelos do Cloud DLP.

Aplicar a transformação de edição do Cloud DLP

  1. Acesse a página Studio do Cloud Data Fusion e clique para expanda o menu Transformar.

  2. Clique no plug-in Redact do Cloud DLP.

    Clique no plug-in para adicioná-lo ao pipeline.

  3. Arraste uma seta de conexão do nó Cloud Storage para o nó Editar.

    Conecte os dois nós.

  4. Mantenha o ponteiro sobre o nó Editar e clique em Propriedades.

    1. Defina Modelo personalizado como Yes.

    2. No campo ID do modelo, insira o ID do modelo personalizado que você criados.

    3. No campo Correspondência , aplique Mascaramento em Modelo personalizado em Observações.

    4. No campo Masking Character, insira #.

      Máscara

    5. Clique em Validar para verificar se há erros.

    6. Clique em Fechar.

Armazenar os dados de saída

Armazene os resultados do pipeline em um arquivo do Cloud Storage.

  1. Na página do Studio, clique para expandir o menu Coletor.

  2. Clique em Cloud Storage.

  3. Arraste uma seta de conexão do nó Encobrir até o nó do Cloud Storage2.

    Conecte o nó Redact ao segundo nó do Cloud Storage.

  4. Mantenha o ponteiro do mouse sobre o nó do Cloud Storage2 e clique em Propriedades.

    1. No campo Nome de referência, insira um nome.

    2. No campo Caminho, insira o caminho de um bucket do Cloud Storage em que você gostaria de armazenar os resultados do pipeline. O Cloud Data Fusion cria o bucket para você. Siga as diretrizes de nomenclatura de bucket.

    3. No campo Formato, selecione CSV.

    4. Clique em Validar para garantir que não haja erros.

    5. Clique em Fechar.

Executar o pipeline no modo de visualização

Execute o pipeline no modo de visualização antes de implantá-lo.

  1. Clique em Visualizar e em Executar.

    Executar o pipeline.

    Clicar em Run exibe o status do pipeline, que começa com Starting, depois muda para Stop e depois para Run.

  2. Quando a execução da visualização for concluída, no nó Editar, clique em Visualizar dados para ver uma comparação lado a lado dos dados de entrada e saída. Conferir que os números de telefone foram mascarados com o caractere #.

    Verifique se os números de telefone estão mascarados.

Editar outro tipo de dado

Ao examinar os resultados da execução da visualização, você percebe que ainda há informações confidenciais que aparecem na coluna Observações: endereços de e-mail. Você também edita o modelo do Cloud DLP para editar endereços de e-mail.

  1. No console do Google Cloud, acesse a página do Cloud DLP.

    Abrir a página do Cloud DLP

  2. Na guia Configuração, selecione seu modelo.

  3. Clique em Editar.

  4. Clique em Gerenciar infotipos.

  5. Na guia Incorporado, use o filtro para pesquisar "OU" "endereço de e-mail".

    Filtro.

  6. Selecione todos e clique em Concluído.

  7. Clique em Save.

  8. Mais uma vez, execute o pipeline no modo de visualização. O Cloud Data Fusion usará automaticamente o modelo atualizado do Cloud DLP.

  9. Verifique se os números de telefone e os endereços de e-mail foram mascarados com o caractere #.

    Verifique se os dados estão mascarados.

Implantar e executar o pipeline

  1. Verifique se o modo Visualizar está desmarcado.

  2. Clique em Save. Ao clicar em Salvar, será solicitado que você nomeie o pipeline. Em seguida, clique em OK.

  3. Clique em Implantar.

  4. Quando a implantação for concluída, clique em Executar. A execução do pipeline pode levar alguns minutos. Enquanto espera, observe o Status do pipeline mudar de Provisionando para Iniciando para Em execução para Desprovisionando para Concluído.

Ver os resultados

  1. No console do Google Cloud, acesse a página "Cloud Storage".

    Acesse o Cloud Storage

  2. No navegador do Storage, navegue até o bucket do Cloud Storage do coletor especificado nas propriedades do plug-in do Cloud Storage do coletor.

  3. Em URL do link, clique no link para fazer o download do arquivo CSV com os resultados. Verifique se os números de telefone e os endereços de e-mail foram mascarados com o caractere #.

    Verificar se os dados estão mascarados.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Excluir a instância do Cloud Data Fusion

Siga estas instruções para excluir a instância do Cloud Data Fusion.

Exclua o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

A seguir