Oculte dados confidenciais


Este tutorial mostra como usar o plug-in do Cloud Data Fusion para o Cloud DLP para ocultar dados confidenciais.

Cenário

Considere o seguinte cenário, no qual algumas informações confidenciais dos clientes têm de ser ocultadas:

A sua equipa de apoio técnico documenta os detalhes de cada registo de apoio técnico que processa num pedido de apoio técnico. Todas as informações no pedido de apoio técnico são extraídas para um ficheiro CSV. Os técnicos de apoio técnico não devem documentar informações dos clientes consideradas confidenciais, mas, por vezes, fazem-no por engano. Repara que no ficheiro CSV aparecem os números de telefone de alguns clientes.

Quer analisar o ficheiro CSV e ocultar todos os números de telefone. Cria um pipeline do Cloud Data Fusion que oculta os dados de clientes sensíveis através do plug-in Cloud DLP.

Neste tutorial, vai criar um pipeline que faz o seguinte:

  • Oculta os números de telefone dos clientes, substituindo-os pelo caráter #.
  • Armazena os dados confidenciais ocultados e os dados não confidenciais num contentor do Cloud Storage.

Objetivos

  • Associe o Cloud Data Fusion a uma origem do Cloud Storage.
  • Implemente o plug-in do Cloud DLP.
  • Crie um modelo do DLP na nuvem personalizado.
  • Use o plug-in de transformação Ocultar para mascarar dados de clientes confidenciais.
  • Escrever os dados de saída no Cloud Storage.

Custos

Neste documento, usa os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custos com base na sua utilização projetada, use a calculadora de preços.

Os novos Google Cloud utilizadores podem ser elegíveis para uma avaliação gratuita.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  7. Crie uma instância do Cloud Data Fusion.
  8. Obtenha autorizações do Cloud DLP

    1. Na Google Cloud consola, aceda à página IAM.

      Abra a página IAM

    2. Na tabela de autorizações, na coluna Principal, encontre a conta de serviço que corresponde ao formato service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com.

    3. Clique em Editar.

    4. Clique em Adicionar outra função.

    5. Use a barra de pesquisa para pesquisar e, em seguida, selecione Administrador da DLP.

    6. Clique em Guardar.

    7. Verifique se Administrador da DLP aparece na coluna Função.

    Quando usa o Cloud Data Fusion, usa a Google Cloud consola e a IU do Cloud Data Fusion separada. Na Google Cloud consola, pode criar um Google Cloud projeto da consola e criar e eliminar instâncias do Cloud Data Fusion. Na IU do Cloud Data Fusion, pode usar as várias páginas, como Studio ou Wrangler, para usar as funcionalidades do Cloud Data Fusion.

    1. Na Google Cloud consola, abra a página Instâncias.

      Abra a página Instâncias

    2. Na coluna Ações da instância, clique no link Ver instância. A IU do Cloud Data Fusion é aberta num novo separador do navegador.

Crie o pipeline

Crie um pipeline que oculte dados confidenciais de clientes. O pipeline que cria faz o seguinte:

  • Lê os dados de entrada através do plug-in de origem do Cloud Storage.
  • Implementa o plugin do Cloud DLP a partir do Hub.
  • Escreve os dados de saída através de um plug-in de destino do Cloud Storage.

Carregue os dados de clientes

Este tutorial usa o conjunto de dados de entrada, CallCenterRecords.csv, fornecido num contentor do Cloud Storage disponível publicamente.

  1. Abra a instância do Cloud Data Fusion e clique em Menu > Studio.

  2. No menu Origem, clique no plug-in Cloud Storage.

    Selecione o plug-in.

  3. No nó Cloud Storage, clique em Propriedades.

  4. No campo Nome de referência, introduza um nome.

  5. No campo Caminho, introduza gs://datafusion-sample-datasets/CallCenterRecords.csv.

  6. No campo Formato, selecione CSV.

  7. Para o esquema de saída, elimine os campos offset e body. Clique em Adicionar e introduza os seguintes campos:

    • Data
    • Banco
    • Estado
    • Código postal
    • Notas

    Introduza propriedades de origem.

  8. Clique em Validar para verificar se existem erros.

  9. Clique em Fechar.

Oculte dados confidenciais

O plug-in Redact do Cloud DLP identifica registos confidenciais no seu fluxo de entrada de dados e aplica transformações que define a esses registos. Um registo de dados é considerado confidencial se corresponder aos filtros predefinidos do Cloud DLP que escolher ou a um modelo personalizado que definir.

Neste tutorial, quer ocultar os números de telefone dos clientes que alguns técnicos de apoio técnico da sua equipa anotaram acidentalmente. Introduziram as informações confidenciais na secção Notas dos pedidos de apoio técnico, que aparece como a coluna Notas no ficheiro CSV. Cria um modelo do Cloud DLP personalizado e, em seguida, fornece o ID do modelo no menu de propriedades do plug-in.

Implemente o plugin Cloud DLP

  1. Na sua instância do Cloud Data Fusion, clique em Hub.

  2. Clique no plugin Cloud DLP.

  3. Clique em Implementar.

  4. Clique em Concluir.

  5. Clique em Fechar para sair da caixa de diálogo do Cloud DLP.

  6. Clique em Fechar para sair do Hub.

Crie um modelo personalizado

  1. Na Google Cloud consola, aceda à página Cloud DLP.

    Aceda ao Cloud DLP

  2. No menu Criar, escolha Modelo. imagem

  3. No campo ID do modelo, introduza um ID para o seu modelo.

  4. Clique em Continuar.

  5. No campo Configurar deteção, clique em Gerir tipos de informações.

  6. No separador Integrado, use o filtro para pesquisar "número de telefone".

    Filtro.

  7. Selecione PHONE_NUMBER.

  8. Clique em Concluído > Criar.

Saiba mais sobre como criar modelos de DLP na nuvem.

Aplique a transformação de ocultação do Cloud DLP

  1. Aceda à página Studio do Cloud Data Fusion e clique para expandir o menu Transformar.

  2. Clique no plugin Redact do Cloud DLP.

    Clique no plug-in para o adicionar ao seu pipeline.

  3. Arraste uma seta de ligação do nó Cloud Storage para o nó Ocultar.

    Ligue os dois nós.

  4. Mantenha o ponteiro sobre o nó Ocultar e clique em Propriedades.

    1. Defina o modelo personalizado como Yes.

    2. No campo ID do modelo, introduza o ID do modelo personalizado que criou.

    3. No campo Correspondência , aplique a ocultação no modelo personalizado nas Notas.

    4. No campo Caráter de ocultação, introduza #.

      Máscara.

    5. Clique em Validar para verificar se existem erros.

    6. Clique em Fechar.

Armazene os dados de saída

Armazenar os resultados do pipeline num ficheiro do Cloud Storage.

  1. Na página Studio, clique para expandir o menu Sink.

  2. Clique em Cloud Storage.

  3. Arraste uma seta de ligação do nó Ocultar para o nó Cloud Storage2.

    Ligue o nó Ocultar ao segundo nó do Cloud Storage.

  4. Mantenha o ponteiro sobre o nó Cloud Storage2 e clique em Propriedades.

    1. No campo Nome de referência, introduza um nome.

    2. No campo Caminho, introduza o caminho de um contentor do Cloud Storage onde quer armazenar os resultados do pipeline. O Cloud Data Fusion cria o contentor para si. Certifique-se de que segue as diretrizes de nomenclatura de contentores.

    3. No campo Formato, selecione CSV.

    4. Clique em Validar para garantir que não existem erros.

    5. Clique em Fechar.

Execute o pipeline no modo de pré-visualização

Execute o pipeline no modo de pré-visualização antes de o implementar.

  1. Clique em Pré-visualizar e, de seguida, em Executar.

    Execute a conduta.

    Se clicar em Executar, é apresentado o estado do pipeline, que começa com A iniciar, passa para Parar e, em seguida, para Executar.

  2. Quando a execução da pré-visualização estiver concluída, no nó Redact, clique em Pré-visualizar dados para ver uma comparação lado a lado dos dados de entrada e saída. Verifique se os números de telefone foram ocultados com o caráter #.

    Verifique se os números de telefone estão ocultados.

Oculte outro tipo de dados

Ao examinar os resultados da execução de pré-visualização, repara que ainda existem informações confidenciais apresentadas na coluna Notas: endereços de email. Volta atrás e edita o modelo do Cloud DLP para ocultar também os endereços de email.

  1. Na Google Cloud consola, aceda à página Cloud DLP.

    Abra a página do Cloud DLP

  2. No separador Configuração, selecione o modelo.

  3. Clique em Edit.

  4. Clique em Gerir tipos de informações.

  5. No separador Integrado, use o filtro para pesquisar "OU" "endereço de email".

    Filtro.

  6. Selecione tudo e clique em Concluído.

  7. Clique em Guardar.

  8. Mais uma vez, execute o pipeline no modo de pré-visualização. O Cloud Data Fusion usa automaticamente o modelo do Cloud DLP atualizado.

  9. Verifique se os números de telefone e os endereços de email foram ocultados com o caráter #.

    Verifique se os dados estão ocultados.

Implemente e execute a tubagem

  1. Certifique-se de que o modo Pré-visualização não está selecionado.

  2. Clique em Guardar. Se clicar em Guardar, é-lhe pedido que atribua um nome ao seu pipeline. Em seguida, clique em OK.

  3. Clique em Implementar.

  4. Quando a implementação estiver concluída, clique em Executar. A execução do pipeline pode demorar alguns minutos. Enquanto aguarda, pode observar o Estado da transição do pipeline de Aprovisionamento para Início, Execução, Desaprovisionamento e Concluído.

Veja os resultados

  1. Na Google Cloud consola, aceda à página do Cloud Storage.

    Aceda ao Cloud Storage

  2. No Navegador de armazenamento, navegue para o contentor do Cloud Storage que especificou nas propriedades do plug-in do Cloud Storage.

  3. Em URL do link, clique no link para transferir o ficheiro CSV com os resultados. Verifique se os números de telefone e os endereços de email foram ocultados com o caráter #.

    Verifique se os dados estão ocultados.

Limpar

Para evitar incorrer em custos na sua conta do Google Cloud pelos recursos usados neste tutorial, elimine o projeto que contém os recursos ou mantenha o projeto e elimine os recursos individuais.

Elimine a instância do Cloud Data Fusion

Siga estas instruções para eliminar a sua instância do Cloud Data Fusion.

Elimine o projeto

A forma mais fácil de eliminar a faturação é eliminar o projeto que criou para o tutorial.

Para eliminar o projeto:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

O que se segue?