Como editar dados confidenciais

Neste tutorial, mostramos como usar o plug-in do Cloud Data Fusion para o Cloud DLP editar dados confidenciais.

Cenário

Considere o cenário a seguir, em que algumas informações confidenciais do cliente precisam ser editadas:

Sua equipe de suporte documenta os detalhes de cada caso de suporte processado em um tíquete de suporte. Todas as informações no tíquete de suporte são enviadas para um arquivo CSV. Os técnicos de suporte não devem documentar informações de clientes consideradas confidenciais, mas às vezes fazem isso por engano. Você percebe que os números de telefone de alguns clientes são exibidos no arquivo CSV.

Você quer analisar o arquivo CSV e ocultar todos os números de telefone. Você cria um pipeline do Cloud Data Fusion que edita os dados confidenciais do cliente usando o plug-in do Cloud DLP.

Neste tutorial, você criará um pipeline que faz o seguinte:

  • Edita os números de telefone dos clientes mascarando-os com o caractere #.
  • Armazena os dados confidenciais mascarados e os não confidenciais em um bucket do Cloud Storage.

Objetivos

  • Conectar o Cloud Data Fusion a uma origem do Cloud Storage.
  • Implantar o plug-in do Cloud DLP.
  • Criar um modelo personalizado do Cloud DLP.
  • Usar o plug-in de transformação "Editar" para mascarar dados confidenciais do cliente.
  • Gravar os dados de saída no Cloud Storage.

Custos

Neste tutorial, há componentes faturáveis do Google Cloud, a saber:

Use a calculadora de preços para gerar uma estimativa de custos baseada na projeção de uso. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.

  4. Ative as APIs Cloud Data Fusion, Cloud Storage, BigQuery, and Cloud Dataproc.

    Ative as APIs

  5. Crie uma instância do Cloud Data Fusion.

Receber permissões do Cloud DLP

  1. No Console do Cloud, acesse a página IAM.

    Abra a página do IAM

  2. Na tabela de permissões, na coluna Membro, encontre a conta de serviço que corresponde ao formato service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com.

  3. Clique no botão "Editar" à direita da conta de serviço.

  4. Clique em Adicionar outro papel.

  5. Clique na lista suspensa exibida.

  6. Use a barra de pesquisa para pesquisar e selecione Administrador do DLP.

  7. Clique em Save.

  8. Verifique se a opção Administrador do DLP aparece na coluna Papel.

Ao usar o Cloud Data Fusion, você usa o Console do Cloud e a IU separada do Cloud Data Fusion. No Console do Cloud, é possível criar um projeto do Console do Cloud e criar e excluir instâncias do Cloud Data Fusion. Na IU do Cloud Data Fusion, é possível usar as várias páginas, como Studio ou Wrangler, para usar os recursos do Cloud Data Fusion.

  1. No Console do Cloud, abra a página Instâncias.

    Abrir a página "Instâncias"

  2. Na coluna Ações da instância, clique no link Ver instância. A IU do Cloud Data Fusion será aberta em uma nova guia do navegador.

Criar o pipeline

Crie um pipeline que edite dados confidenciais do cliente. O pipeline que você cria faz o seguinte:

  • Lê os dados de entrada usando o plug-in de origem do Cloud Storage.
  • Implanta o plug-in do Cloud DLP a partir do Hub e aplica o plug-in de transformação do Redact.
  • Grava os dados de saída usando um plug-in de coletor do Cloud Storage.

Carregar os dados do cliente

Neste tutorial, usamos o conjunto de dados de entrada, CallCenterRecords.csv, fornecido em um bucket do Cloud Storage disponível publicamente.

  1. Na IU do Cloud Data Fusion, clique no menu e navegue até a página Studio.

  2. No menu Origem, clique no plug-in GCS.

    image

  3. Mantenha o ponteiro do mouse sobre o nó GCS que aparece e clique em Propriedades.

  4. Em Nome de referência, insira um nome de referência.

  5. Em Caminho, digite gs://datafusion-sample-datasets/CallCenterRecords.csv.

  6. Em Formato, selecione CSV.

  7. Em Esquema de saída, em Nome, digite o seguinte clicando no botão de adição para cada tipo de dados:

    • Dat
    • Banco
    • State
    • Zip
    • Notas
  8. Verifique se todos os tipos de dado são do tipo string. Para alterar o tipo, clique em Tipo e selecione String na lista suspensa.

  9. Marque a caixa Nulo para cada tipo de dado. Isso garante que o pipeline não falhe quando encontrar um valor nulo (vazio).

    image

  10. Clique em Validar para garantir que não haja erros.

  11. Clique no botão X no canto superior direito da caixa de diálogo.

Editar dados confidenciais

O plug-in de transformação do Redact identifica registros confidenciais no fluxo de entrada de dados e aplica transformações definidas a esses registros. Um registro de dados é considerado confidencial se corresponder a filtros predefinidos do Cloud DLP escolhidos ou a um modelo personalizado definido por você.

Neste tutorial, você quer editar os números de telefone dos clientes que alguns técnicos de suporte da sua equipe anotaram acidentalmente. Eles inseriram as informações confidenciais na seção Observações dos tíquetes de suporte, que aparece como a coluna Observações no arquivo CSV. Crie um modelo personalizado do Cloud DLP e forneça o ID do modelo no menu de propriedades do plug-in de transformação do Redact.

Implantar o plug-in do Cloud DLP

  1. Na IU do Cloud Data Fusion, clique em Hub no canto superior direito.

  2. Clique no plug-in Prevenção contra perda de dados.

  3. Clique em Deploy.

  4. Clique em Finish.

  5. Clique no botão X no canto superior direito do Cloud DLP. Implantar.

  6. Clique no botão X para sair do Hub.

Criar um modelo personalizado

  1. No Console do Cloud, abra o Cloud DLP.

    Abrir a página do Cloud DLP

  2. No menu Criar, escolha Modelo. image

  3. Em Definir modelo, no campo Código do modelo, insira um código para o modelo. Você precisará do ID do modelo mais tarde no tutorial.

  4. Clique em Continuar.

  5. Em Configurar detecção, clique em Gerenciar infoTypes.

  6. Na guia Incorporado, use o filtro para pesquisar "número de telefone".

    image

  7. Selecione PHONE_NUMBER.

  8. Clique em Done.

  9. Clique em Criar.

Saiba mais sobre como criar modelos do Cloud DLP.

Aplicar a transformação de edição

  1. De volta à IU do Cloud Data Fusion, na página Studio, clique para expandir o menu Transform.

  2. Clique no plug-in de transformação Editar.

    image

  3. Arraste uma seta de conexão do nó do GCS para o nó do Redact.

    image

  4. Mantenha o ponteiro do mouse sobre o nó Edição e clique em Propriedades.

    1. Defina Modelo personalizado como Sim.

    2. Em ID do modelo, insira o ID do modelo personalizado que você criou.

    3. Em Correspondência, aplique Mascaramento em Modelo personalizado nas Observações.

    4. Em Caractere de mascaramento, digite #.

      image

    5. Clique em Validar para garantir que não haja erros.

    6. Clique no botão X no canto superior direito da caixa de diálogo.

Armazenar os dados de saída

Armazene os resultados do pipeline em um arquivo do Cloud Storage.

  1. Na IU do Cloud Data Fusion, na página Studio, clique para expandir o menu Coletor.

  2. Clique em GCS.

  3. Arraste uma seta de conexão do nó Redact para o nó GCS2.

    image

  4. Mantenha o ponteiro do mouse sobre o nó GCS2 e clique em Propriedades.

    1. Em Nome de referência, insira um nome de referência.

    2. Em Caminho, insira o caminho de um intervalo do Cloud Storage em que você quer armazenar os resultados do pipeline. O Cloud Data Fusion cria o bucket do Cloud Storage para você. Siga as diretrizes de nomenclatura de bucket.

    3. Em Formato, selecione CSV.

      image

    4. Clique em Validar para garantir que não haja erros.

    5. Clique no botão X no canto superior direito da caixa de diálogo.

Executar o pipeline no modo de visualização

Execute o pipeline no modo de visualização antes de implantá-lo.

  1. Clique em Visualizar e em Executar.

    image

    AExecutar exibe o status do pipeline, que começa com Iniciando e depois volta paraParar e depois paraExecutar ,

  2. Quando a execução da visualização for concluída, no nó Edição, clique em Visualizar dados para ver uma comparação lado a lado dos dados de entrada e saída. Verifique se os números de telefone foram mascarados com o caractere #.

    image

Editar outro tipo de dado

Ao examinar os resultados da execução da visualização, você percebe que ainda há informações confidenciais que aparecem na coluna Observações: endereços de e-mail. Você também edita o modelo do Cloud DLP para editar endereços de e-mail.

  1. No Console do Cloud, acesse a página do Cloud DLP.

    Abrir a página do Cloud DLP

  2. Na guia Configuração, selecione seu modelo.

  3. Clique em Edit.

  4. Clique em Gerenciar infotipos.

  5. Na guia Incorporado, use o filtro para pesquisar "OU" "endereço de e-mail".

    image

  6. Selecione todos e clique em Concluído.

  7. Clique em Save.

  8. Mais uma vez, execute o pipeline no modo de visualização. O Cloud Data Fusion usará automaticamente o modelo atualizado do Cloud DLP.

  9. Verifique se os números de telefone e os endereços de e-mail foram mascarados com o caractere #.

    image

Implantar e executar o pipeline

  1. Verifique se o modo Visualizar está desmarcado.

  2. Clique em Save. Clique em Salvar para nomear o pipeline. Em seguida, clique em OK.

    image

  3. Clique em Deploy.

  4. Quando a implantação for concluída, clique em Executar. A execução do pipeline pode levar alguns minutos. Enquanto espera, observe o Status da transição do pipeline de Provisionamento para Início para Em execução. para Desprovisionar em Concluído.

Ver os resultados

  1. No Console do Cloud, acesse a página do Cloud Storage.

    Abrir a página do Cloud Storage

  2. No navegador do Storage, navegue até o bucket do Cloud Storage do coletor especificado nas propriedades do plug-in do Cloud Storage do coletor.

  3. Em URL do link, clique no link para fazer o download do arquivo CSV com os resultados. Verifique se os números de telefone e os endereços de e-mail foram mascarados com o caractere #.

    imagem

Limpeza

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Excluir a instância do Cloud Data Fusion

Siga estas instruções para excluir a instância do Cloud Data Fusion.

Exclua o projeto

O jeito mais fácil de evitar cobranças é excluir o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. No Console do Cloud, acesse a página Gerenciar recursos:

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

A seguir