Como editar dados confidenciais

Neste tutorial, mostramos como usar o plug-in do Cloud Data Fusion para o Cloud DLP editar dados confidenciais.

Cenário

Considere o cenário a seguir, em que algumas informações confidenciais do cliente precisam ser editadas:

Sua equipe de suporte documenta os detalhes de cada caso de suporte processado em um tíquete de suporte. Todas as informações nos tíquetes de suporte são extraídas para um arquivo CSV. Os técnicos de suporte não devem documentar informações de clientes consideradas confidenciais, mas às vezes fazem isso por engano. Você percebe que os números de telefone de alguns clientes são exibidos no arquivo CSV.

Você quer analisar o arquivo CSV e ocultar todos os números de telefone. Você cria um pipeline do Cloud Data Fusion que edita os dados confidenciais do cliente usando o plug-in do Cloud DLP.

Neste tutorial, você criará um pipeline que faz o seguinte:

  • Edita os números de telefone dos clientes mascarando-os com o caractere #.
  • Armazena os dados confidenciais mascarados e os não confidenciais em um bucket do Cloud Storage.

Objetivos

  • Conectar o Cloud Data Fusion a uma origem do Cloud Storage.
  • Implantar o plug-in do Cloud DLP.
  • Criar um modelo personalizado do Cloud DLP.
  • Usar o plug-in de transformação "Editar" para mascarar dados confidenciais do cliente.
  • Gravar os dados de saída no Cloud Storage.

Custos

Neste tutorial, usamos os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como verificar se o faturamento está ativado em um projeto.

  4. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  5. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como verificar se o faturamento está ativado em um projeto.

  6. Ative as APIs Cloud Data Fusion, Cloud Storage, BigQuery, and Cloud Dataproc.

    Ative as APIs

  7. Crie uma instância do Cloud Data Fusion.

Receber permissões do Cloud DLP

  1. No Console do Cloud, acesse a página "IAM".

    Abra a página do IAM

  2. Na tabela de permissões, na coluna Principal, encontre a conta de serviço que corresponde ao formato service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com.

  3. Clique no botão "Editar" à direita da conta de serviço.

  4. Clique em Adicionar outro papel.

  5. Clique na lista suspensa exibida.

  6. Use a barra de pesquisa para selecionar Administrador do DLP.

  7. Clique em Save.

  8. Verifique se o Administrador do DLP aparece na coluna Papel.

Com o Cloud Data Fusion, você usa o Console do Cloud e a IU separada do Cloud Data Fusion. No Console do Cloud, é possível criar um projeto do Console do Cloud e criar e excluir instâncias do Cloud Data Fusion. Na IU do Cloud Data Fusion, é possível usar as várias páginas, como o Studio ou o Administrador, para usar os recursos do Cloud Data Fusion.

  1. No Console do Cloud, abra a página Instâncias.

    Abrir a página "Instâncias"

  2. Na coluna Ações da instância, clique no link Visualizar instância. A IU do Cloud Data Fusion será aberta em uma nova guia do navegador.

Criar o pipeline

Crie um pipeline que edite dados confidenciais do cliente. O pipeline que você cria faz o seguinte:

  • Lê os dados de entrada usando o plug-in de origem do Cloud Storage.
  • Implanta o plug-in do Cloud DLP a partir do Hub e aplica o plug-in de transformação do Redact.
  • Grava os dados de saída usando um plug-in de coletor do Cloud Storage.

Carregar os dados do cliente

Neste tutorial, usamos o conjunto de dados de entrada, CallCenterRecords.csv, fornecido em um bucket do Cloud Storage disponível publicamente.

  1. Na IU do Cloud Data Fusion, clique no menu e navegue até a página Studio.

  2. No menu Origem, clique no plug-in GCS.

    imagem

  3. Mantenha o ponteiro sobre o nó do GCS exibido e clique em Propriedades.

  4. Em Nome de referência, insira um nome de referência.

  5. Em Caminho, digite gs://datafusion-sample-datasets/CallCenterRecords.csv.

  6. Em Formato, selecione CSV.

  7. Em Esquema de saída, remova os campos corpo e offset. Clique em + para adicionar os seguintes campos:

    • Data
    • Banco
    • Estado
    • Zip
    • Observações
  8. Verifique se todos os tipos de dado são do tipo string. Para alterar o tipo, clique no tipo e selecione string na lista suspensa exibida.

    imagem

  9. Clique em Validar para garantir que não haja erros.

  10. Clique no botão X no canto superior direito da caixa de diálogo.

Editar dados confidenciais

O plug-in de transformação do Redact identifica registros confidenciais no fluxo de entrada de dados e aplica transformações definidas a esses registros. Um registro de dados é considerado confidencial se corresponder a filtros predefinidos do Cloud DLP escolhidos ou a um modelo personalizado definido por você.

Neste tutorial, você quer editar os números de telefone dos clientes que alguns técnicos de suporte da sua equipe anotaram acidentalmente. Eles inseriram as informações confidenciais na seção Observações dos tíquetes de suporte, que aparece como a coluna Observações no arquivo CSV. Crie um modelo personalizado do Cloud DLP e forneça o ID do modelo no menu de propriedades do plug-in de transformação do Redact.

Implantar o plug-in do Cloud DLP

  1. Na IU do Cloud Data Fusion, clique em Hub no canto superior direito.

  2. Clique no plug-in Prevenção contra perda de dados.

  3. Clique em Deploy.

  4. Clique em Finish.

  5. Clique no botão X no canto superior direito do Cloud DLP | Implantar.

  6. Clique no botão X para sair do Hub.

Criar um modelo personalizado

  1. No Console do Cloud, abra o Cloud DLP.

    Abrir a página do Cloud DLP

  2. No menu Criar, escolha Modelo. imagem

  3. Em Definir modelo, no campo ID do modelo, insira um ID para seu modelo. Você precisará do ID do modelo mais tarde no tutorial.

  4. Clique em Continuar.

  5. Em Configurar detecção, clique em Gerenciar infotipos.

  6. Na guia Incorporado, use o filtro para pesquisar "número de telefone".

    imagem

  7. Selecione PHONE_NUMBER.

  8. Clique em Concluído.

  9. Clique em Criar.

Saiba mais sobre como criar modelos do Cloud DLP.

Aplicar a transformação de edição

  1. De volta à IU do Cloud Data Fusion, na página Studio, clique para expandir o menu Transformar.

  2. Clique no plug-in de transformação Editar.

    imagem

  3. Arraste uma seta de conexão do nó GCS para o nó Editar.

    imagem

  4. Mantenha o ponteiro sobre o nó Editar e clique em Propriedades.

    1. Defina Modelo personalizado como Sim.

    2. Em ID do modelo, insira o ID do modelo personalizado que você criou.

    3. Em Correspondência, aplique Mascaramento em Modelo personalizado em Observações.

    4. Em Caractere de mascaramento, digite #.

      imagem

    5. Clique em Validar para garantir que não haja erros.

    6. Clique no botão X no canto superior direito da caixa de diálogo.

Armazenar os dados de saída

Armazene os resultados do pipeline em um arquivo do Cloud Storage.

  1. Na IU do Cloud Data Fusion, na página Studio, clique para expandir o menu Coletor.

  2. Clique em GCS.

  3. Arraste uma seta de conexão do nó Editar para o nó GCS2.

    imagem

  4. Mantenha o ponteiro sobre o nó do GCS2 e clique em Propriedades.

    1. Em Nome de referência, insira um nome de referência.

    2. Em Caminho, insira o caminho de um intervalo do Cloud Storage em que você quer armazenar os resultados do pipeline. O Cloud Data Fusion cria o bucket do Cloud Storage para você. Siga as diretrizes de nomenclatura de bucket.

    3. Em Formato, selecione CSV.

      imagem

    4. Clique em Validar para garantir que não haja erros.

    5. Clique no botão X no canto superior direito da caixa de diálogo.

Executar o pipeline no modo de visualização

Execute o pipeline no modo de visualização antes de implantá-lo.

  1. Clique em Visualizar e em Executar.

    imagem

    O botão Executar exibe o status do pipeline, que começa com Iniciando, depois muda para Interromper e depois para Executar.

  2. Quando a execução da visualização for concluída, no nó Editar, clique em Visualizar dados para ver uma comparação lado a lado dos dados de entrada e saída. Verifique se os números de telefone foram mascarados com o caractere #.

    imagem

Editar outro tipo de dado

Ao examinar os resultados da execução da visualização, você percebe que ainda há informações confidenciais que aparecem na coluna Observações: endereços de e-mail. Você também edita o modelo do Cloud DLP para editar endereços de e-mail.

  1. No Console do Cloud, acesse a página do Cloud DLP.

    Abrir a página do Cloud DLP

  2. Na guia Configuração, selecione seu modelo.

  3. Clique em Edit.

  4. Clique em Gerenciar infotipos.

  5. Na guia Incorporado, use o filtro para pesquisar "OU" "endereço de e-mail".

    imagem

  6. Selecione todos e clique em Concluído.

  7. Clique em Save.

  8. Mais uma vez, execute o pipeline no modo de visualização. O Cloud Data Fusion usará automaticamente o modelo atualizado do Cloud DLP.

  9. Verifique se os números de telefone e os endereços de e-mail foram mascarados com o caractere #.

    image

Implantar e executar o pipeline

  1. Verifique se o modo Visualizar está desmarcado.

  2. Clique em Save. Ao clicar em Salvar, será solicitado que você nomeie o pipeline. Em seguida, clique em OK.

    imagem

  3. Clique em Deploy.

  4. Quando a implantação for concluída, clique em Executar. A execução do pipeline pode levar alguns minutos. Enquanto espera, observe o Status do pipeline mudar de Provisionando para Iniciando para Em execução para Desprovisionando para Concluído.

Veja os resultados

  1. No Console do Cloud, acesse a página do Cloud Storage.

    Abrir a página do Cloud Storage

  2. No navegador do Storage, navegue até o bucket do Cloud Storage do coletor especificado nas propriedades do plug-in do Cloud Storage do coletor.

  3. Em URL do link, clique no link para fazer o download do arquivo CSV com os resultados. Verifique se os números de telefone e endereços de e-mail foram mascarados com o caractere #.

    imagem

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Excluir a instância do Cloud Data Fusion

Siga estas instruções para excluir a instância do Cloud Data Fusion.

Excluir o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. No console do Cloud, acesse a página Gerenciar recursos:

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

A seguir