Ce tutoriel explique comment utiliser le plug-in Cloud Data Fusion pour Cloud DLP afin de masquer les données sensibles.
Scénario
Prenons le scénario suivant, dans lequel certaines informations client sensibles doivent être masquées :
Votre équipe d'assistance consigne les détails de chaque demande d'assistance gérées lors d'une demande d'assistance. Toutes les informations contenues dans les demandes d'assistance sont extraites dans un fichier CSV. Les techniciens de l'assistance ne sont pas censés documenter les informations client considérées comme sensibles, mais ils le font parfois par erreur. Vous remarquez que des numéros de téléphone de certains clients apparaissent dans le fichier CSV.
Vous souhaitez parcourir le fichier CSV et masquer tous les numéros de téléphone. Vous créez un pipeline Cloud Data Fusion qui supprime les données client sensibles à l'aide du plug-in Cloud DLP.
Dans ce tutoriel, vous allez créer un pipeline qui effectue les opérations suivantes :
- Il masque les numéros de téléphone des clients en leur attribuant le caractère
#
. - Il stocke les données sensibles masquées et les données non sensibles dans un bucket Cloud Storage.
Objectifs
- Connecter Cloud Data Fusion à une source Cloud Storage.
- Déployer le plug-in Cloud DLP.
- Créer un modèle Cloud DLP personnalisé.
- Utiliser le plug-in de transformation Masquer pour masquer les données client sensibles.
- Écrire les données de sortie dans Cloud Storage.
Coûts
Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :
Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût.
Avant de commencer
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.
- Créez une instance Cloud Data Fusion.
Obtenir des autorisations Cloud DLP
Dans la console Google Cloud, accédez à la page IAM.
Dans le tableau des autorisations, dans la colonne Compte principal, recherchez le compte de service correspondant au format
service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com
.Cliquez sur edit Modifier.
Cliquez sur Ajouter un autre rôle.
Utilisez la barre de recherche pour afficher et sélectionner Administrateur DLP.
Cliquez sur Enregistrer.
Vérifiez que Administrateur DLP apparaît dans la colonne Rôle.
Accéder à l'interface utilisateur de Cloud Data Fusion
Lorsque vous utilisez Cloud Data Fusion, vous utilisez à la fois la console Google Cloud et l'interface utilisateur distincte Cloud Data Fusion. Dans la console Google Cloud, peuvent créer un projet dans la console Google Cloud, et créer et supprimer Instances Cloud Data Fusion. Dans l'interface utilisateur Cloud Data Fusion, vous pouvez utiliser les différentes pages, telles que Studio ou Wrangler, pour utiliser les fonctionnalités de Cloud Data Fusion.
Dans la console Google Cloud, ouvrez la page Instances.
Dans la colonne Actions de l'instance, cliquez sur le lien Afficher l'instance. L'interface utilisateur de Cloud Data Fusion s'ouvre dans un nouvel onglet du navigateur.
Créer le pipeline
Créez un pipeline qui masque les données client sensibles. Le pipeline que vous créez effectue les opérations suivantes :
- Il lit les données d'entrée à l'aide du plug-in source Cloud Storage.
- Déploie le plug-in Cloud DLP à partir du hub.
- Il écrit les données de sortie à l'aide d'un plug-in récepteur Cloud Storage.
Charger les données client
Ce tutoriel utilise l'ensemble de données d'entrée, CallCenterRecords.csv
, fourni dans un bucket Cloud Storage accessible au public.
Ouvrez votre instance Cloud Data Fusion et cliquez sur menu Menu > Studio.
Dans le menu Source, cliquez sur le plug-in Cloud Storage.
Sur le nœud Cloud Storage, cliquez sur Propriétés.
Dans le champ Nom de référence, saisissez un nom.
Dans le champ Chemin d'accès, saisissez
gs://datafusion-sample-datasets/CallCenterRecords.csv
.Dans le champ Format, sélectionnez
CSV
.Pour le schéma de sortie, supprimez les champs offset et body. Cliquez sur
Ajouter et renseignez les champs suivants:- Date
- Banque
- État
- Zip
- Remarques
Cliquez sur Valider pour vérifier qu'il n'y a pas d'erreurs.
Cliquez sur
Fermer.
Masquer les données sensibles
Le plug-in de masquage Cloud DLP identifie les enregistrements sensibles dans votre flux de données d'entrée et applique les transformations que vous définissez à ces enregistrements. Un enregistrement de données est considéré comme sensible s'il correspond à des filtres Cloud DLP prédéfinis que vous choisissez ou à un modèle personnalisé que vous définissez.
Dans ce tutoriel, vous souhaitez masquer les numéros de téléphone de clients dont certains techniciens d'assistance ont accidentellement pris note. Ils ont saisi les informations sensibles dans la section Notes des demandes d'assistance, ce qui apparaît dans la colonne Notes du fichier CSV. Vous créez une instance Cloud DLP personnalisée "template", puis indiquez l'ID du modèle dans le menu des propriétés du plug-in.
Déployer le plug-in Cloud DLP
Dans votre instance Cloud Data Fusion, cliquez sur Hub.
Cliquez sur le plug-in Cloud DLP.
Cliquez sur Déployer.
Cliquez sur Terminer.
Cliquez sur
Fermer pour quitter Cloud DLP .Cliquez sur
Fermer pour quitter le Hub.
Créer un modèle personnalisé
Dans la console Google Cloud, accédez à la page Cloud DLP.
Dans le menu Créer, sélectionnez Modèle.
Dans le champ ID du modèle, saisissez un ID pour votre modèle.
Cliquez sur Continuer.
Dans le champ Configurer la détection, cliquez sur Gérer les infoTypes.
Dans l'onglet Intégré, utilisez le filtre pour rechercher "numéro de téléphone".
Sélectionnez PHONE_NUMBER.
Cliquez sur OK > Créer.
Apprenez-en plus sur la création de modèles Cloud DLP.
Appliquer la transformation Cloud DLP Redact
Accédez à la page Studio de Cloud Data Fusion, puis cliquez pour développer le menu Transformation.
Cliquez sur le plug-in Cloud DLP Redact.
Faites glisser une flèche de connexion du nœud Cloud Storage vers le nœud Masquer.
Maintenez le pointeur de la souris sur le nœud Masquer et cliquez sur Propriétés.
Définissez Modèle personnalisé sur
Yes
.Dans le champ ID du modèle, saisissez l'ID du modèle personnalisé que vous avez créé.
Dans le champ Correspondance, appliquez le Masquage au Modèle personnalisé dans Notes.
Dans le champ Caractère masquant, saisissez
#
.Cliquez sur Valider pour vérifier qu'il n'y a pas d'erreurs.
Cliquez sur
Fermer.
Stocker les données de sortie
Stockez les résultats de votre pipeline dans un fichier Cloud Storage.
Sur la page Studio, cliquez sur le menu Récepteur pour le développer.
Cliquez sur Cloud Storage.
Faites glisser une flèche de connexion du nœud Redact vers le nœud Cloud Storage2.
Maintenez le pointeur sur le nœud Cloud Storage2 et cliquez sur Propriétés.
Dans le champ Nom de référence, saisissez un nom.
Dans le champ Chemin d'accès, saisissez le chemin d'un bucket Cloud Storage dans lequel vous souhaitez stocker les résultats du pipeline. Cloud Data Fusion crée le bucket pour vous. Veillez à respecter les consignes relatives aux noms des buckets.
Dans le champ Format, sélectionnez CSV.
Cliquez sur Valider pour vérifier qu'il n'y a pas d'erreurs.
Cliquez sur
Fermer.
Exécuter le pipeline en mode aperçu
Exécutez le pipeline en mode aperçu avant de le déployer.
Cliquez sur Aperçu, puis sur Exécuter.
Cliquez sur Exécuter pour afficher l'état du pipeline, qui commence par Démarrage, qui passe ensuite à Arrêter, puis à Exécuter.
Une fois l'exécution de l'aperçu terminée, sur le nœud Masquer, cliquez sur Prévisualiser les données pour afficher un comparatif des données d'entrée et de sortie. Vérifiez que les numéros de téléphone ont été masqués avec le caractère
#
.
Masquer un autre type de données
Lors de l'examen des résultats d'exécution de l'aperçu, vous remarquez que des informations sensibles apparaissent toujours dans la colonne Notes : adresses e-mail. Vous revenez en arrière et modifiez le modèle Cloud DLP pour masquer ces adresses e-mail.
Dans la console Google Cloud, accédez à la page Cloud DLP.
Dans l'onglet Configuration, sélectionnez votre modèle.
Cliquez sur Modifier.
Cliquez sur Gérer les infoTypes.
Dans l'onglet Intégré, utilisez le filtre pour rechercher "OU" "adresse e-mail".
Sélectionnez tout, puis cliquez sur OK.
Cliquez sur Enregistrer.
À nouveau, exécutez votre pipeline en mode aperçu. Cloud Data Fusion utilisera automatiquement le modèle Cloud DLP mis à jour.
Vérifiez que les numéros de téléphone et les adresses e-mail ont été masqués avec le caractère
#
.
Déployer et exécuter le pipeline
Assurez-vous que le mode Aperçu est décoché.
Cliquez sur Enregistrer. Cliquer sur Enregistrer vous invite à nommer votre pipeline. Cliquez ensuite sur OK.
Cliquez sur Déployer.
Une fois le déploiement terminé, cliquez sur Exécuter. L'exécution de votre pipeline peut prendre quelques minutes. En attendant, vous pouvez observer l'État de transition du pipeline qui passe de Provisionnement à Démarrage, En cours d'exécution, Annulation du provisionnement et enfin Réussi.
Afficher les résultats
Dans la console Google Cloud, accédez à la page Cloud Storage.
Dans le Navigateur de stockage, accédez au bucket Cloud Storage du récepteur que vous avez spécifié dans les propriétés du plug-in Cloud Storage du récepteur.
Dans URL du lien, cliquez sur le lien pour télécharger le fichier CSV contenant les résultats. Vérifiez que les numéros de téléphone et les adresses e-mail ont été masqués avec le caractère
#
.
Effectuer un nettoyage
Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.
Supprimer l'instance Cloud Data Fusion
Suivez ces instructions pour supprimer votre instance Cloud Data Fusion.
Supprimer le projet
Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.
Pour supprimer le projet :
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Étape suivante
- Apprenez-en plus sur Cloud Data Fusion.
- Découvrez comment utiliser le plug-in Cloud Data Fusion, qui fournit les plug-ins de transformation "Masquer" et "Filtrer les informations personnelles".