Masquer les données confidentielles


Ce tutoriel explique comment utiliser le plug-in Cloud Data Fusion pour Cloud DLP afin de masquer les données sensibles.

Scénario

Prenons le scénario suivant, dans lequel certaines informations client sensibles doivent être masquées :

Votre équipe d'assistance consigne les détails de chaque demande d'assistance gérées lors d'une demande d'assistance. Toutes les informations contenues dans les demandes d'assistance sont extraites dans un fichier CSV. Les techniciens de l'assistance ne sont pas censés documenter les informations client considérées comme sensibles, mais ils le font parfois par erreur. Vous remarquez que des numéros de téléphone de certains clients apparaissent dans le fichier CSV.

Vous souhaitez parcourir le fichier CSV et masquer tous les numéros de téléphone. Vous créez un pipeline Cloud Data Fusion qui supprime les données client sensibles à l'aide du plug-in Cloud DLP.

Dans ce tutoriel, vous allez créer un pipeline qui effectue les opérations suivantes :

  • Il masque les numéros de téléphone des clients en leur attribuant le caractère #.
  • Il stocke les données sensibles masquées et les données non sensibles dans un bucket Cloud Storage.

Objectifs

  • Connecter Cloud Data Fusion à une source Cloud Storage.
  • Déployer le plug-in Cloud DLP.
  • Créer un modèle Cloud DLP personnalisé.
  • Utiliser le plug-in de transformation Masquer pour masquer les données client sensibles.
  • Écrire les données de sortie dans Cloud Storage.

Coûts

Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.

    Enable the APIs

  7. Créez une instance Cloud Data Fusion.

Obtenir des autorisations Cloud DLP

  1. Dans la console Google Cloud, accédez à la page IAM.

    Ouvrir la page IAM

  2. Dans le tableau des autorisations, dans la colonne Compte principal, recherchez le compte de service correspondant au format service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com.

  3. Cliquez sur Modifier.

  4. Cliquez sur Ajouter un autre rôle.

  5. Utilisez la barre de recherche pour afficher et sélectionner Administrateur DLP.

  6. Cliquez sur Enregistrer.

  7. Vérifiez que Administrateur DLP apparaît dans la colonne Rôle.

Lorsque vous utilisez Cloud Data Fusion, vous utilisez à la fois la console Google Cloud et l'interface utilisateur distincte Cloud Data Fusion. Dans la console Google Cloud, peuvent créer un projet dans la console Google Cloud, et créer et supprimer Instances Cloud Data Fusion. Dans l'interface utilisateur Cloud Data Fusion, vous pouvez utiliser les différentes pages, telles que Studio ou Wrangler, pour utiliser les fonctionnalités de Cloud Data Fusion.

  1. Dans la console Google Cloud, ouvrez la page Instances.

    Ouvrir la page "Instances"

  2. Dans la colonne Actions de l'instance, cliquez sur le lien Afficher l'instance. L'interface utilisateur de Cloud Data Fusion s'ouvre dans un nouvel onglet du navigateur.

Créer le pipeline

Créez un pipeline qui masque les données client sensibles. Le pipeline que vous créez effectue les opérations suivantes :

  • Il lit les données d'entrée à l'aide du plug-in source Cloud Storage.
  • Déploie le plug-in Cloud DLP à partir du hub.
  • Il écrit les données de sortie à l'aide d'un plug-in récepteur Cloud Storage.

Charger les données client

Ce tutoriel utilise l'ensemble de données d'entrée, CallCenterRecords.csv, fourni dans un bucket Cloud Storage accessible au public.

  1. Ouvrez votre instance Cloud Data Fusion et cliquez sur Menu > Studio.

  2. Dans le menu Source, cliquez sur le plug-in Cloud Storage.

    Sélectionnez le plug-in.

  3. Sur le nœud Cloud Storage, cliquez sur Propriétés.

  4. Dans le champ Nom de référence, saisissez un nom.

  5. Dans le champ Chemin d'accès, saisissez gs://datafusion-sample-datasets/CallCenterRecords.csv.

  6. Dans le champ Format, sélectionnez CSV.

  7. Pour le schéma de sortie, supprimez les champs offset et body. Cliquez sur Ajouter et renseignez les champs suivants:

    • Date
    • Banque
    • État
    • Zip
    • Remarques

    Saisissez les propriétés sources.

  8. Cliquez sur Valider pour vérifier qu'il n'y a pas d'erreurs.

  9. Cliquez sur Fermer.

Masquer les données sensibles

Le plug-in de masquage Cloud DLP identifie les enregistrements sensibles dans votre flux de données d'entrée et applique les transformations que vous définissez à ces enregistrements. Un enregistrement de données est considéré comme sensible s'il correspond à des filtres Cloud DLP prédéfinis que vous choisissez ou à un modèle personnalisé que vous définissez.

Dans ce tutoriel, vous souhaitez masquer les numéros de téléphone de clients dont certains techniciens d'assistance ont accidentellement pris note. Ils ont saisi les informations sensibles dans la section Notes des demandes d'assistance, ce qui apparaît dans la colonne Notes du fichier CSV. Vous créez une instance Cloud DLP personnalisée "template", puis indiquez l'ID du modèle dans le menu des propriétés du plug-in.

Déployer le plug-in Cloud DLP

  1. Dans votre instance Cloud Data Fusion, cliquez sur Hub.

  2. Cliquez sur le plug-in Cloud DLP.

  3. Cliquez sur Déployer.

  4. Cliquez sur Terminer.

  5. Cliquez sur Fermer pour quitter Cloud DLP .

  6. Cliquez sur Fermer pour quitter le Hub.

Créer un modèle personnalisé

  1. Dans la console Google Cloud, accédez à la page Cloud DLP.

    Accéder à Cloud DLP

  2. Dans le menu Créer, sélectionnez Modèle. image

  3. Dans le champ ID du modèle, saisissez un ID pour votre modèle.

  4. Cliquez sur Continuer.

  5. Dans le champ Configurer la détection, cliquez sur Gérer les infoTypes.

  6. Dans l'onglet Intégré, utilisez le filtre pour rechercher "numéro de téléphone".

    Filtre.

  7. Sélectionnez PHONE_NUMBER.

  8. Cliquez sur OK > Créer.

Apprenez-en plus sur la création de modèles Cloud DLP.

Appliquer la transformation Cloud DLP Redact

  1. Accédez à la page Studio de Cloud Data Fusion, puis cliquez pour développer le menu Transformation.

  2. Cliquez sur le plug-in Cloud DLP Redact.

    Cliquez sur le plug-in pour l'ajouter à votre pipeline.

  3. Faites glisser une flèche de connexion du nœud Cloud Storage vers le nœud Masquer.

    Connectez les deux nœuds.

  4. Maintenez le pointeur de la souris sur le nœud Masquer et cliquez sur Propriétés.

    1. Définissez Modèle personnalisé sur Yes.

    2. Dans le champ ID du modèle, saisissez l'ID du modèle personnalisé que vous avez créé.

    3. Dans le champ Correspondance, appliquez le Masquage au Modèle personnalisé dans Notes.

    4. Dans le champ Caractère masquant, saisissez #.

      Masque.

    5. Cliquez sur Valider pour vérifier qu'il n'y a pas d'erreurs.

    6. Cliquez sur Fermer.

Stocker les données de sortie

Stockez les résultats de votre pipeline dans un fichier Cloud Storage.

  1. Sur la page Studio, cliquez sur le menu Récepteur pour le développer.

  2. Cliquez sur Cloud Storage.

  3. Faites glisser une flèche de connexion du nœud Redact vers le nœud Cloud Storage2.

    Connectez le nœud Redact au deuxième nœud Cloud Storage.

  4. Maintenez le pointeur sur le nœud Cloud Storage2 et cliquez sur Propriétés.

    1. Dans le champ Nom de référence, saisissez un nom.

    2. Dans le champ Chemin d'accès, saisissez le chemin d'un bucket Cloud Storage dans lequel vous souhaitez stocker les résultats du pipeline. Cloud Data Fusion crée le bucket pour vous. Veillez à respecter les consignes relatives aux noms des buckets.

    3. Dans le champ Format, sélectionnez CSV.

    4. Cliquez sur Valider pour vérifier qu'il n'y a pas d'erreurs.

    5. Cliquez sur Fermer.

Exécuter le pipeline en mode aperçu

Exécutez le pipeline en mode aperçu avant de le déployer.

  1. Cliquez sur Aperçu, puis sur Exécuter.

    Exécutez le pipeline.

    Cliquez sur Exécuter pour afficher l'état du pipeline, qui commence par Démarrage, qui passe ensuite à Arrêter, puis à Exécuter.

  2. Une fois l'exécution de l'aperçu terminée, sur le nœud Masquer, cliquez sur Prévisualiser les données pour afficher un comparatif des données d'entrée et de sortie. Vérifiez que les numéros de téléphone ont été masqués avec le caractère #.

    Vérifiez que les numéros de téléphone sont masqués.

Masquer un autre type de données

Lors de l'examen des résultats d'exécution de l'aperçu, vous remarquez que des informations sensibles apparaissent toujours dans la colonne Notes : adresses e-mail. Vous revenez en arrière et modifiez le modèle Cloud DLP pour masquer ces adresses e-mail.

  1. Dans la console Google Cloud, accédez à la page Cloud DLP.

    Ouvrir la page Cloud DLP

  2. Dans l'onglet Configuration, sélectionnez votre modèle.

  3. Cliquez sur Modifier.

  4. Cliquez sur Gérer les infoTypes.

  5. Dans l'onglet Intégré, utilisez le filtre pour rechercher "OU" "adresse e-mail".

    Filtre.

  6. Sélectionnez tout, puis cliquez sur OK.

  7. Cliquez sur Enregistrer.

  8. À nouveau, exécutez votre pipeline en mode aperçu. Cloud Data Fusion utilisera automatiquement le modèle Cloud DLP mis à jour.

  9. Vérifiez que les numéros de téléphone et les adresses e-mail ont été masqués avec le caractère #.

    Vérifiez que les données sont masquées.

Déployer et exécuter le pipeline

  1. Assurez-vous que le mode Aperçu est décoché.

  2. Cliquez sur Enregistrer. Cliquer sur Enregistrer vous invite à nommer votre pipeline. Cliquez ensuite sur OK.

  3. Cliquez sur Déployer.

  4. Une fois le déploiement terminé, cliquez sur Exécuter. L'exécution de votre pipeline peut prendre quelques minutes. En attendant, vous pouvez observer l'État de transition du pipeline qui passe de Provisionnement à Démarrage, En cours d'exécution, Annulation du provisionnement et enfin Réussi.

Afficher les résultats

  1. Dans la console Google Cloud, accédez à la page Cloud Storage.

    Accéder à Cloud Storage

  2. Dans le Navigateur de stockage, accédez au bucket Cloud Storage du récepteur que vous avez spécifié dans les propriétés du plug-in Cloud Storage du récepteur.

  3. Dans URL du lien, cliquez sur le lien pour télécharger le fichier CSV contenant les résultats. Vérifiez que les numéros de téléphone et les adresses e-mail ont été masqués avec le caractère #.

    Vérifiez que les données sont masquées.

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Supprimer l'instance Cloud Data Fusion

Suivez ces instructions pour supprimer votre instance Cloud Data Fusion.

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Étape suivante