Masquer les données confidentielles


Ce tutoriel explique comment utiliser le plugin Cloud Data Fusion pour Cloud DLP afin de masquer les données sensibles.

Scénario

Prenons le scénario suivant, dans lequel certaines informations client sensibles doivent être masquées:

Votre équipe d'assistance consigne les détails de chaque demande d'assistance gérées lors d'une demande d'assistance. Toutes les informations contenues dans les demandes d'assistance sont extraites dans un fichier CSV. Les techniciens de l'assistance ne sont pas censés documenter les informations client considérées comme sensibles, mais ils le font parfois par erreur. Vous remarquez que des numéros de téléphone de certains clients apparaissent dans le fichier CSV.

Vous souhaitez parcourir le fichier CSV et masquer tous les numéros de téléphone. Vous créez un pipeline Cloud Data Fusion qui supprime les données client sensibles à l'aide du plug-in Cloud DLP.

Dans ce tutoriel, vous allez créer un pipeline qui effectue les opérations suivantes :

  • Masque les numéros de téléphone des clients en les masquant avec le caractère #.
  • Il stocke les données sensibles masquées et les données non sensibles dans un bucket Cloud Storage.

Objectifs

  • Connecter Cloud Data Fusion à une source Cloud Storage.
  • Déployer le plug-in Cloud DLP.
  • Créer un modèle Cloud DLP personnalisé.
  • Utiliser le plug-in de transformation Masquer pour masquer les données client sensibles.
  • Écrire les données de sortie dans Cloud Storage.

Coûts

Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  4. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  5. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  6. Activer les API Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc.

    Activer les API

  7. Créez une instance Cloud Data Fusion.

Obtenir des autorisations Cloud DLP

  1. Dans la console Google Cloud, accédez à la page IAM.

    Ouvrir la page IAM

  2. Dans la colonne Compte principal du tableau des autorisations, recherchez le compte de service au format service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com.

  3. Cliquez sur Modifier.

  4. Cliquez sur Ajouter un autre rôle.

  5. Utilisez la barre de recherche pour effectuer une recherche, puis sélectionnez Administrateur de la protection contre la perte de données.

  6. Cliquez sur Enregistrer.

  7. Vérifiez que Administrateur DLP apparaît dans la colonne Rôle.

Lorsque vous utilisez Cloud Data Fusion, vous utilisez à la fois la console Google Cloud et l'interface utilisateur Cloud Data Fusion distincte. Dans la console Google Cloud, vous pouvez créer un projet de console Google Cloud, puis créer et supprimer des instances Cloud Data Fusion. Dans l'interface utilisateur Cloud Data Fusion, vous pouvez utiliser les différentes pages, telles que Studio ou Wrangler, pour utiliser les fonctionnalités de Cloud Data Fusion.

  1. Dans la console Google Cloud, ouvrez la page Instances.

    Ouvrir la page "Instances"

  2. Dans la colonne Actions de l'instance, cliquez sur le lien Afficher l'instance. L'interface utilisateur de Cloud Data Fusion s'ouvre dans un nouvel onglet du navigateur.

Créer le pipeline

Créez un pipeline qui masque les données client sensibles. Le pipeline que vous créez effectue les opérations suivantes :

  • Il lit les données d'entrée à l'aide du plug-in source Cloud Storage.
  • Déploie le plug-in Cloud DLP à partir du hub.
  • Il écrit les données de sortie à l'aide d'un plug-in récepteur Cloud Storage.

Charger les données client

Ce tutoriel utilise l'ensemble de données d'entrée, CallCenterRecords.csv, fourni dans un bucket Cloud Storage accessible au public.

  1. Ouvrez votre instance Cloud Data Fusion, puis cliquez sur Menu > Studio.

  2. Dans le menu Source, cliquez sur le plug-in Cloud Storage.

    Sélectionnez le plug-in.

  3. Sur le nœud Cloud Storage, cliquez sur Propriétés.

  4. Dans le champ Nom de référence, saisissez un nom.

  5. Dans le champ Chemin d'accès, saisissez gs://datafusion-sample-datasets/CallCenterRecords.csv.

  6. Dans le champ Format, sélectionnez CSV.

  7. Pour la section Output Schema (Schéma de sortie), supprimez les champs offset et body (corps). Cliquez sur Ajouter, puis renseignez les champs suivants:

    • Date
    • Banque
    • État
    • Zip
    • Notes

    Saisissez les propriétés sources.

  8. Cliquez sur Valider pour vérifier les erreurs.

  9. Cliquez sur Fermer.

Masquer les données sensibles

Le plug-in Cloud DLP Redact identifie les enregistrements sensibles dans votre flux d'entrée de données et y applique les transformations que vous définissez. Un enregistrement de données est considéré comme sensible s'il correspond à des filtres Cloud DLP prédéfinis que vous choisissez ou à un modèle personnalisé que vous avez défini.

Dans ce tutoriel, vous souhaitez masquer les numéros de téléphone de clients dont certains techniciens d'assistance ont accidentellement pris note. Ils ont saisi les informations sensibles dans la section Notes des demandes d'assistance, ce qui apparaît dans la colonne Notes du fichier CSV. Créez un modèle Cloud DLP personnalisé, puis indiquez l'ID du modèle dans le menu des propriétés du plug-in.

Déployer le plug-in Cloud DLP

  1. Dans votre instance Cloud Data Fusion, cliquez sur Hub.

  2. Cliquez sur le plug-in Cloud DLP.

  3. Cliquez sur Deploy (Déployer).

  4. Cliquez sur Terminer.

  5. Cliquez sur Fermer pour quitter la boîte de dialogue Cloud DLP.

  6. Cliquez sur Fermer pour quitter le Hub.

Créer un modèle personnalisé

  1. Dans la console Google Cloud, accédez à la page "Cloud DLP".

    Accéder à Cloud DLP

  2. Dans le menu Créer, sélectionnez Modèle. Image

  3. Dans le champ ID du modèle, saisissez l'ID de votre modèle.

  4. Cliquez sur Continuer.

  5. Dans le champ Configurer la détection, cliquez sur Gérer les infoTypes.

  6. Dans l'onglet Intégré, utilisez le filtre pour rechercher "numéro de téléphone".

    Filtrer.

  7. Sélectionnez PHONE_NUMBER.

  8. Cliquez sur OK > Créer.

Apprenez-en davantage sur la création de modèles Cloud DLP.

Appliquer la transformation Cloud DLP Redact

  1. Accédez à la page Studio de Cloud Data Fusion, puis cliquez pour développer le menu Transformer.

  2. Cliquez sur le plug-in Cloud DLP Redact.

    Cliquez sur le plug-in pour l'ajouter à votre pipeline.

  3. Faites glisser une flèche de connexion du nœud Cloud Storage vers le nœud Masquer.

    Connectez les deux nœuds.

  4. Maintenez le pointeur de la souris sur le nœud Masquer et cliquez sur Propriétés.

    1. Définissez Modèle personnalisé sur Yes.

    2. Dans le champ ID du modèle, saisissez l'ID du modèle personnalisé que vous avez créé.

    3. Dans le champ Matching (Correspondance), appliquez Masking (Masquage) sur Custom template (Modèle personnalisé) dans Notes.

    4. Dans le champ Caractère de masquage, saisissez #.

      Un masque

    5. Cliquez sur Valider pour vérifier les erreurs.

    6. Cliquez sur Fermer.

Stocker les données de sortie

Stockez les résultats de votre pipeline dans un fichier Cloud Storage.

  1. Sur la page Studio, cliquez sur le menu Récepteur pour le développer.

  2. Cliquez sur Cloud Storage.

  3. Faites glisser une flèche de connexion du nœud Masquer vers le nœud Cloud Storage2.

    Connectez le nœud Redact au deuxième nœud Cloud Storage.

  4. Maintenez le pointeur sur le nœud Cloud Storage2, puis cliquez sur Propriétés.

    1. Dans le champ Nom de référence, saisissez un nom.

    2. Dans le champ Chemin d'accès, saisissez le chemin d'un bucket Cloud Storage dans lequel vous souhaitez stocker les résultats du pipeline. Cloud Data Fusion crée le bucket pour vous. Veillez à respecter les consignes de dénomination des buckets.

    3. Dans le champ Format, sélectionnez CSV.

    4. Cliquez sur Valider pour vérifier qu'il n'y a pas d'erreurs.

    5. Cliquez sur Fermer.

Exécuter le pipeline en mode aperçu

Exécutez le pipeline en mode aperçu avant de le déployer.

  1. Cliquez sur Aperçu, puis sur Exécuter.

    Exécutez le pipeline.

    Cliquez sur Run (Exécuter) pour afficher l'état du pipeline : commence par Starting (Démarrage), puis devient Stop (Arrêter), puis Run (Exécuter).

  2. Une fois l'exécution de l'aperçu terminée, sur le nœud Masquer, cliquez sur Prévisualiser les données pour afficher un comparatif des données d'entrée et de sortie. Vérifiez que les numéros de téléphone ont été masqués avec le caractère #.

    Vérifiez que les numéros de téléphone sont masqués.

Masquer un autre type de données

Lors de l'examen des résultats d'exécution de l'aperçu, vous remarquez que des informations sensibles apparaissent toujours dans la colonne Notes : adresses e-mail. Vous revenez en arrière et modifiez le modèle Cloud DLP pour masquer ces adresses e-mail.

  1. Dans la console Google Cloud, accédez à la page "Cloud DLP".

    Ouvrir la page Cloud DLP

  2. Dans l'onglet Configuration, sélectionnez votre modèle.

  3. Cliquez sur Modifier.

  4. Cliquez sur Gérer les infoTypes.

  5. Dans l'onglet Intégré, utilisez le filtre pour rechercher "OU" "adresse e-mail".

    Filtrer.

  6. Sélectionnez tout, puis cliquez sur OK.

  7. Cliquez sur Enregistrer.

  8. À nouveau, exécutez votre pipeline en mode aperçu. Cloud Data Fusion utilisera automatiquement le modèle Cloud DLP mis à jour.

  9. Vérifiez que les numéros de téléphone et les adresses e-mail ont été masqués avec le caractère #.

    Vérifiez que les données sont masquées.

Déployer et exécuter le pipeline

  1. Assurez-vous que le mode Aperçu est décoché.

  2. Cliquez sur Enregistrer. Cliquer sur Enregistrer vous invite à nommer votre pipeline. Cliquez ensuite sur OK.

  3. Cliquez sur Deploy (Déployer).

  4. Une fois le déploiement terminé, cliquez sur Exécuter. L'exécution de votre pipeline peut prendre quelques minutes. En attendant, vous pouvez observer l'État de transition du pipeline qui passe de Provisionnement à Démarrage, En cours d'exécution, Annulation du provisionnement et enfin Réussi.

Afficher les résultats

  1. Dans la console Google Cloud, accédez à la page Cloud Storage.

    Accéder à Cloud Storage

  2. Dans le Navigateur de stockage, accédez au bucket Cloud Storage du récepteur que vous avez spécifié dans les propriétés du plug-in Cloud Storage du récepteur.

  3. Dans URL du lien, cliquez sur le lien pour télécharger le fichier CSV contenant les résultats. Vérifiez que les numéros de téléphone et les adresses e-mail ont été masqués avec le caractère #.

    Vérifiez que les données sont masquées.

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Supprimer l'instance Cloud Data Fusion

Suivez ces instructions pour supprimer votre instance Cloud Data Fusion.

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

  1. Dans la console Google Cloud, accédez à la page Gérer les ressources.

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Étapes suivantes