Ce tutoriel explique comment utiliser le plugin Cloud Data Fusion pour Cloud DLP afin de masquer les données sensibles.
Scénario
Prenons le scénario suivant, dans lequel certaines informations client sensibles doivent être masquées:
Votre équipe d'assistance consigne les détails de chaque demande d'assistance gérées lors d'une demande d'assistance. Toutes les informations contenues dans les demandes d'assistance sont extraites dans un fichier CSV. Les techniciens de l'assistance ne sont pas censés documenter les informations client considérées comme sensibles, mais ils le font parfois par erreur. Vous remarquez que des numéros de téléphone de certains clients apparaissent dans le fichier CSV.
Vous souhaitez parcourir le fichier CSV et masquer tous les numéros de téléphone. Vous créez un pipeline Cloud Data Fusion qui supprime les données client sensibles à l'aide du plug-in Cloud DLP.
Dans ce tutoriel, vous allez créer un pipeline qui effectue les opérations suivantes :
- Masque les numéros de téléphone des clients en les masquant avec le caractère
#
. - Il stocke les données sensibles masquées et les données non sensibles dans un bucket Cloud Storage.
Objectifs
- Connecter Cloud Data Fusion à une source Cloud Storage.
- Déployer le plug-in Cloud DLP.
- Créer un modèle Cloud DLP personnalisé.
- Utiliser le plug-in de transformation Masquer pour masquer les données client sensibles.
- Écrire les données de sortie dans Cloud Storage.
Coûts
Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :
Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût.
Avant de commencer
- Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
-
Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Activer les API Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc.
- Créez une instance Cloud Data Fusion.
Obtenir des autorisations Cloud DLP
Dans la console Google Cloud, accédez à la page IAM.
Dans la colonne Compte principal du tableau des autorisations, recherchez le compte de service au format
service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com
.Cliquez sur edit Modifier.
Cliquez sur Ajouter un autre rôle.
Utilisez la barre de recherche pour effectuer une recherche, puis sélectionnez Administrateur de la protection contre la perte de données.
Cliquez sur Enregistrer.
Vérifiez que Administrateur DLP apparaît dans la colonne Rôle.
Accéder à l'interface utilisateur de Cloud Data Fusion
Lorsque vous utilisez Cloud Data Fusion, vous utilisez à la fois la console Google Cloud et l'interface utilisateur Cloud Data Fusion distincte. Dans la console Google Cloud, vous pouvez créer un projet de console Google Cloud, puis créer et supprimer des instances Cloud Data Fusion. Dans l'interface utilisateur Cloud Data Fusion, vous pouvez utiliser les différentes pages, telles que Studio ou Wrangler, pour utiliser les fonctionnalités de Cloud Data Fusion.
Dans la console Google Cloud, ouvrez la page Instances.
Dans la colonne Actions de l'instance, cliquez sur le lien Afficher l'instance. L'interface utilisateur de Cloud Data Fusion s'ouvre dans un nouvel onglet du navigateur.
Créer le pipeline
Créez un pipeline qui masque les données client sensibles. Le pipeline que vous créez effectue les opérations suivantes :
- Il lit les données d'entrée à l'aide du plug-in source Cloud Storage.
- Déploie le plug-in Cloud DLP à partir du hub.
- Il écrit les données de sortie à l'aide d'un plug-in récepteur Cloud Storage.
Charger les données client
Ce tutoriel utilise l'ensemble de données d'entrée, CallCenterRecords.csv
, fourni dans un bucket Cloud Storage accessible au public.
Ouvrez votre instance Cloud Data Fusion, puis cliquez sur menu Menu > Studio.
Dans le menu Source, cliquez sur le plug-in Cloud Storage.
Sur le nœud Cloud Storage, cliquez sur Propriétés.
Dans le champ Nom de référence, saisissez un nom.
Dans le champ Chemin d'accès, saisissez
gs://datafusion-sample-datasets/CallCenterRecords.csv
.Dans le champ Format, sélectionnez
CSV
.Pour la section Output Schema (Schéma de sortie), supprimez les champs offset et body (corps). Cliquez sur
Ajouter, puis renseignez les champs suivants:- Date
- Banque
- État
- Zip
- Notes
Cliquez sur Valider pour vérifier les erreurs.
Cliquez sur
Fermer.
Masquer les données sensibles
Le plug-in Cloud DLP Redact identifie les enregistrements sensibles dans votre flux d'entrée de données et y applique les transformations que vous définissez. Un enregistrement de données est considéré comme sensible s'il correspond à des filtres Cloud DLP prédéfinis que vous choisissez ou à un modèle personnalisé que vous avez défini.
Dans ce tutoriel, vous souhaitez masquer les numéros de téléphone de clients dont certains techniciens d'assistance ont accidentellement pris note. Ils ont saisi les informations sensibles dans la section Notes des demandes d'assistance, ce qui apparaît dans la colonne Notes du fichier CSV. Créez un modèle Cloud DLP personnalisé, puis indiquez l'ID du modèle dans le menu des propriétés du plug-in.
Déployer le plug-in Cloud DLP
Dans votre instance Cloud Data Fusion, cliquez sur Hub.
Cliquez sur le plug-in Cloud DLP.
Cliquez sur Deploy (Déployer).
Cliquez sur Terminer.
Cliquez sur
Fermer pour quitter la boîte de dialogue Cloud DLP.Cliquez sur
Fermer pour quitter le Hub.
Créer un modèle personnalisé
Dans la console Google Cloud, accédez à la page "Cloud DLP".
Dans le menu Créer, sélectionnez Modèle.
Dans le champ ID du modèle, saisissez l'ID de votre modèle.
Cliquez sur Continuer.
Dans le champ Configurer la détection, cliquez sur Gérer les infoTypes.
Dans l'onglet Intégré, utilisez le filtre pour rechercher "numéro de téléphone".
Sélectionnez PHONE_NUMBER.
Cliquez sur OK > Créer.
Apprenez-en davantage sur la création de modèles Cloud DLP.
Appliquer la transformation Cloud DLP Redact
Accédez à la page Studio de Cloud Data Fusion, puis cliquez pour développer le menu Transformer.
Cliquez sur le plug-in Cloud DLP Redact.
Faites glisser une flèche de connexion du nœud Cloud Storage vers le nœud Masquer.
Maintenez le pointeur de la souris sur le nœud Masquer et cliquez sur Propriétés.
Définissez Modèle personnalisé sur
Yes
.Dans le champ ID du modèle, saisissez l'ID du modèle personnalisé que vous avez créé.
Dans le champ Matching (Correspondance), appliquez Masking (Masquage) sur Custom template (Modèle personnalisé) dans Notes.
Dans le champ Caractère de masquage, saisissez
#
.Cliquez sur Valider pour vérifier les erreurs.
Cliquez sur
Fermer.
Stocker les données de sortie
Stockez les résultats de votre pipeline dans un fichier Cloud Storage.
Sur la page Studio, cliquez sur le menu Récepteur pour le développer.
Cliquez sur Cloud Storage.
Faites glisser une flèche de connexion du nœud Masquer vers le nœud Cloud Storage2.
Maintenez le pointeur sur le nœud Cloud Storage2, puis cliquez sur Propriétés.
Dans le champ Nom de référence, saisissez un nom.
Dans le champ Chemin d'accès, saisissez le chemin d'un bucket Cloud Storage dans lequel vous souhaitez stocker les résultats du pipeline. Cloud Data Fusion crée le bucket pour vous. Veillez à respecter les consignes de dénomination des buckets.
Dans le champ Format, sélectionnez CSV.
Cliquez sur Valider pour vérifier qu'il n'y a pas d'erreurs.
Cliquez sur
Fermer.
Exécuter le pipeline en mode aperçu
Exécutez le pipeline en mode aperçu avant de le déployer.
Cliquez sur Aperçu, puis sur Exécuter.
Cliquez sur Run (Exécuter) pour afficher l'état du pipeline : commence par Starting (Démarrage), puis devient Stop (Arrêter), puis Run (Exécuter).
Une fois l'exécution de l'aperçu terminée, sur le nœud Masquer, cliquez sur Prévisualiser les données pour afficher un comparatif des données d'entrée et de sortie. Vérifiez que les numéros de téléphone ont été masqués avec le caractère
#
.
Masquer un autre type de données
Lors de l'examen des résultats d'exécution de l'aperçu, vous remarquez que des informations sensibles apparaissent toujours dans la colonne Notes : adresses e-mail. Vous revenez en arrière et modifiez le modèle Cloud DLP pour masquer ces adresses e-mail.
Dans la console Google Cloud, accédez à la page "Cloud DLP".
Dans l'onglet Configuration, sélectionnez votre modèle.
Cliquez sur Modifier.
Cliquez sur Gérer les infoTypes.
Dans l'onglet Intégré, utilisez le filtre pour rechercher "OU" "adresse e-mail".
Sélectionnez tout, puis cliquez sur OK.
Cliquez sur Enregistrer.
À nouveau, exécutez votre pipeline en mode aperçu. Cloud Data Fusion utilisera automatiquement le modèle Cloud DLP mis à jour.
Vérifiez que les numéros de téléphone et les adresses e-mail ont été masqués avec le caractère
#
.
Déployer et exécuter le pipeline
Assurez-vous que le mode Aperçu est décoché.
Cliquez sur Enregistrer. Cliquer sur Enregistrer vous invite à nommer votre pipeline. Cliquez ensuite sur OK.
Cliquez sur Deploy (Déployer).
Une fois le déploiement terminé, cliquez sur Exécuter. L'exécution de votre pipeline peut prendre quelques minutes. En attendant, vous pouvez observer l'État de transition du pipeline qui passe de Provisionnement à Démarrage, En cours d'exécution, Annulation du provisionnement et enfin Réussi.
Afficher les résultats
Dans la console Google Cloud, accédez à la page Cloud Storage.
Dans le Navigateur de stockage, accédez au bucket Cloud Storage du récepteur que vous avez spécifié dans les propriétés du plug-in Cloud Storage du récepteur.
Dans URL du lien, cliquez sur le lien pour télécharger le fichier CSV contenant les résultats. Vérifiez que les numéros de téléphone et les adresses e-mail ont été masqués avec le caractère
#
.
Effectuer un nettoyage
Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.
Supprimer l'instance Cloud Data Fusion
Suivez ces instructions pour supprimer votre instance Cloud Data Fusion.
Supprimer le projet
Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.
Pour supprimer le projet :
- Dans la console Google Cloud, accédez à la page Gérer les ressources.
- Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
- Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.
Étapes suivantes
- Apprenez-en plus sur Cloud Data Fusion.
- Découvrez comment utiliser le plug-in Cloud Data Fusion, qui fournit les plug-ins de transformation "Masquer" et "Filtrer les informations personnelles".