Ce guide explique comment utiliser la protection des données sensibles pour inspecter une table BigQuery et envoyer les résultats de l'inspection à Data Catalog.
Vous pouvez également effectuer un profilage des données, ce qui est différent d'une opération d'inspection. Vous pouvez également envoyer des profils de données à Dataplex. Pour en savoir plus, consultez Ajouter des tags aux tables dans Dataplex en fonction des insights issus des profils de données.
Data Catalog est un service évolutif de gestion des métadonnées qui vous permet d'identifier, de gérer et d'interpréter rapidement toutes vos données dans Google Cloud.
La protection des données sensibles s'intègre à Data Catalog. Lorsque vous utilisez une action de protection des données sensibles pour inspecter vos tables BigQuery à la recherche de données sensibles, elle peut envoyer les résultats directement à Data Catalog sous la forme d'un modèle de tag.
Suivez les étapes décrites dans ce guide pour effectuer les opérations suivantes :
- Activez Data Catalog et la protection des données sensibles.
- Configurez la protection des données sensibles pour inspecter une table BigQuery.
- Configurer une inspection de protection des données sensibles pour envoyer les résultats de l'inspection à Data Catalog.
Pour en savoir plus sur Data Catalog, consultez la documentation correspondante.
Si vous souhaitez envoyer les résultats des opérations de profilage des données (et non des tâches d'inspection) à Dataplex, consultez plutôt la documentation sur le profilage d'une organisation, d'un dossier ou d'un projet.
Coûts
Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :
- Protection des données sensibles
- BigQuery
Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût.
Avant de commencer
Avant de pouvoir envoyer les résultats de l'inspection liée à la protection des données sensibles à Data Catalog, procédez comme suit:
- Étape 1 : Configurez la facturation.
- Étape 2 : Créez un projet et remplissez une nouvelle table BigQuery (facultatif).
- Étape 3 : Activez Data Catalog.
- Étape 4: Activez la protection des données sensibles.
Les sous-sections suivantes présentent chaque étape en détail.
Étape 1 : Configurer la facturation
Commencez par configurer un compte de facturation si vous n'en avez pas.
Découvrir comment activer la facturation
Étape 2 : Créer un projet et remplir une nouvelle table BigQuery (facultatif)
Si vous configurez cette fonctionnalité pour une tâche de production ou si vous disposez déjà d'une table BigQuery à inspecter, ouvrez le projet Google Cloud contenant la table et passez à l'étape 3.
Si vous testez cette fonctionnalité et que vous souhaitez inspecter les données de test, créez un projet. Pour réaliser cette étape, vous devez disposer du rôle IAM Créateur de projet. En savoir plus sur les rôles IAM
- Accédez à la page Nouveau projet dans la console Google Cloud.
- Dans la liste déroulante Compte de facturation, sélectionnez le compte de facturation auquel le projet doit être rattaché.
- Dans la liste déroulante Organisation, sélectionnez l'organisation dans laquelle vous souhaitez créer le projet.
- Dans la liste déroulante Emplacement, sélectionnez l'organisation ou le dossier dans lequel vous souhaitez créer le projet.
- Pour créer le projet, cliquez sur Créer.
Ensuite, téléchargez et stockez les exemples de données.
- Accédez au dépôt des tutoriels Cloud Functions sur GitHub.
- Sélectionnez l'un des fichiers CSV contenant des exemples de données, puis téléchargez-le.
- Accédez ensuite à BigQuery dans la console Google Cloud.
- Sélectionnez votre projet.
- Cliquez sur Créer un ensemble de données.
- Cliquez sur Créer une table.
- Cliquez sur Importer, puis sélectionnez le fichier à importer.
- Attribuez un nom à la table, puis cliquez sur Créer une table.
Étape 3 : Activer Data Catalog
Ensuite, activez Data Catalog pour le projet contenant la table BigQuery que vous souhaitez inspecter à l'aide de la protection des données sensibles.
Pour activer Data Catalog à l'aide de la console Google Cloud:
- Enregistrez votre application pour Data Catalog.
- Dans la liste déroulante Créer un projet sur la page d'inscription, sélectionnez le projet que vous souhaitez utiliser avec Data Catalog.
- Après avoir sélectionné le projet, cliquez sur Continuer.
Data Catalog est désormais activé pour votre projet.
Étape 4: Activez la protection des données sensibles
Activez la protection des données sensibles pour le projet dans lequel vous avez activé Data Catalog.
Pour activer la protection des données sensibles à l'aide de la console Google Cloud:
- Enregistrez votre application pour la protection des données sensibles.
Enregistrer votre application pour la protection des données sensibles
- Dans la liste déroulante Créer un projet sur la page d'inscription, sélectionnez le même projet que lors de l'étape précédente.
- Après avoir sélectionné le projet, cliquez sur Continuer.
La protection des données sensibles est désormais activée pour votre projet.
Configurer et exécuter un job d'inspection pour la protection des données sensibles
Vous pouvez configurer et exécuter un job d'inspection pour la protection des données sensibles à l'aide de la console Google Cloud ou de l'API DLP.
Les modèles de tag Data Catalog sont stockés dans le même projet et la même région que la table BigQuery. Si vous inspectez une table d'un autre projet, vous devez attribuer le rôle Propriétaire de modèles de tag Data Catalog (roles/datacatalog.tagTemplateOwner
) à l'agent de service de protection des données sensibles dans le projet où la table BigQuery existe.
Console Google Cloud
Pour configurer un job d'inspection d'une table BigQuery à l'aide de la protection des données sensibles, procédez comme suit:
Dans la section "Protection des données sensibles" de la console Google Cloud, accédez à la page Créer une tâche ou un déclencheur de tâche.
Accéder à la page "Créer une tâche ou un déclencheur de tâche"
Saisissez les informations du job de protection des données sensibles, puis cliquez sur Continuer à chaque étape:
Pour l'étape 1 : Choisir les données d'entrée, attribuez un nom à la tâche en saisissant une valeur dans le champ Nom. Dans Emplacement, sélectionnez BigQuery dans le menu Type de stockage, puis saisissez les informations de la table à inspecter. La section Échantillonnage est préconfigurée pour exécuter un exemple d'inspection de vos données. Vous pouvez ajuster les champs Limiter les lignes par et Nombre maximal de lignes pour économiser des ressources si vous disposez d'une grande quantité de données. Pour en savoir plus, consultez la section Choisir les données d'entrée.
(Facultatif) Pour l'étape 2 : Configurer la détection, vous pouvez configurer les types de données à rechercher, appelés infoTypes. Pour les besoins de ce tutoriel, laissez les infoTypes par défaut sélectionnés. Pour en savoir plus, consultez la section Configurer la détection.
Pour l'étape 3 : Ajouter des actions, activez l'option Enregistrer dans Data Catalog.
(Facultatif) Pour l'étape 4: Programmer dans ce tutoriel, laissez le menu défini sur Aucune afin que l'inspection ne s'exécute qu'une seule fois. Pour en savoir plus sur la planification de tâches d'inspection récurrentes, consultez la section Planification.
Cliquez sur Créer. La tâche s'exécute immédiatement.
API DLP
Dans cette section, vous allez configurer et exécuter un job d'inspection pour la protection des données sensibles.
La tâche d'inspection que vous configurez ici demande à l'équipe chargée de la protection des données sensibles d'inspecter l'exemple de données BigQuery décrit à l'étape 2 ci-dessus ou vos propres données BigQuery. C'est également dans la configuration de tâche que vous demandez à la protection des données sensibles d'enregistrer ses résultats d'inspection dans Data Catalog.
Étape 1 : Noter l'identifiant du projet
Accédez à Google Cloud Console.
Cliquez sur Sélectionner.
Dans la liste déroulante Sélectionner une organisation, sélectionnez l'organisation pour laquelle vous avez activé Data Catalog.
Sous ID, copiez l'ID du projet contenant les données que vous souhaitez inspecter. Il s'agit du projet décrit à l'étape de définition des dépôts de stockage plus haut sur cette page.
Dans le champ Nom, cliquez sur le projet pour le sélectionner.
Étape 2 : Ouvrir APIs Explorer et configurer la tâche
Accédez à APIs Explorer sur la page de référence de la méthode
dlpJobs.create
. Pour que ces instructions restent disponibles, effectuez un clic droit sur le lien suivant et ouvrez-le dans un nouvel onglet ou une nouvelle fenêtre :Dans la zone parent, saisissez ce qui suit, où project-id est l'ID du projet que vous avez noté précédemment à l'étape précédente:
projects/project-id
Copiez ensuite le code JSON suivant. Sélectionnez le contenu du champ Corps de la requête dans APIs Explorer, puis collez le code JSON pour remplacer le contenu. Veillez à remplacer les espaces réservés
project-id
,bigquery-dataset-name
etbigquery-table-name
respectivement par l'ID de projet réel et par les noms de l'ensemble de données et de la table BigQuery.{ "inspectJob": { "storageConfig": { "bigQueryOptions": { "tableReference": { "projectId": "project-id", "datasetId": "bigquery-dataset-name", "tableId": "bigquery-table-name" } } }, "inspectConfig": { "infoTypes": [ { "name": "EMAIL_ADDRESS" }, { "name": "PERSON_NAME" }, { "name": "US_SOCIAL_SECURITY_NUMBER" }, { "name": "PHONE_NUMBER" } ], "includeQuote": true, "minLikelihood": "UNLIKELY", "limits": { "maxFindingsPerRequest": 100 } }, "actions": [ { "publishFindingsToCloudDataCatalog": {} } ] } }
Pour en savoir plus sur les options d'inspection disponibles, consultez la page Inspecter le stockage et les bases de données pour identifier les données sensibles. Pour obtenir la liste complète des types d'informations que la protection des données sensibles peut inspecter, consultez la documentation de référence sur les infoTypes.
Étape 3: Exécutez la requête pour démarrer le job d'inspection
Après avoir configuré la tâche en suivant les étapes précédentes, cliquez sur Exécuter pour envoyer la requête. Si la requête aboutit, une réponse s'affiche avec un code de réussite et un objet JSON indiquant l'état de la tâche de protection des données sensibles que vous venez de créer.
La réponse à votre requête d'inspection inclut l'ID de votre tâche d'inspection en tant que clé "name"
et l'état actuel de la tâche en tant que clé "state"
. Comme vous venez d'envoyer la requête, l'état de la tâche à ce stade est "PENDING"
.
Vérifier l'état du job d'inspection lié à la protection des données sensibles
Une fois la demande d'inspection envoyée, la tâche d'inspection démarre immédiatement.
Console Google Cloud
Pour vérifier l'état du job d'inspection:
Dans la console Google Cloud, ouvrez "Protection des données sensibles".
Cliquez sur l'onglet Tâches et déclencheurs de tâches, puis sur Toutes les tâches.
La tâche que vous venez d'exécuter figure probablement en haut de la liste. Vérifiez la colonne État pour vous assurer que son état est Terminé.
Vous pouvez cliquer sur l'ID de la tâche pour afficher ses résultats. Chaque détecteur d'infoTypes répertorié sur la page "Informations sur la tâche" est suivi du nombre de correspondances trouvées dans le contenu.
API DLP
Pour vérifier l'état du job d'inspection:
Pour accéder à APIs Explorer sur la page de référence de la méthode
dlpJobs.get
, cliquez sur le bouton suivant :Dans la zone name (nom), indiquez au format suivant le nom de la tâche figurant dans la réponse JSON à la requête d'inspection:
L'ID de la tâche se présente au format suivant :projects/project-id/dlpJobs/job-id
i-1234567890123456789
.Pour envoyer la requête, cliquez sur Exécuter.
Si la clé "state"
de l'objet JSON de réponse indique que l'état de la tâche est "DONE"
, cela signifie que la tâche d'inspection est terminée.
Pour afficher le reste de la réponse JSON, faites défiler la page vers le bas. À chaque type d'information répertorié sous "result"
> "infoTypeStats"
doit correspondre un élément "count"
. Si ce n'est pas le cas, vérifiez que le code JSON saisi est exact et que le chemin ou l'emplacement de vos données est correct.
Une fois la tâche d'inspection terminée, vous pouvez passer à la section suivante de ce guide pour afficher les résultats de l'inspection dans Security Command Center.
Afficher les résultats de l'inspection de la protection des données sensibles dans Data Catalog
Étant donné que vous avez demandé à la protection des données sensibles d'envoyer les résultats de la tâche d'inspection à Data Catalog, vous pouvez maintenant afficher les tags créés automatiquement et le modèle de tag dans l'interface utilisateur de Data Catalog:
- Accédez à la page Data Catalog dans la console Google Cloud.
- Recherchez la table que vous avez inspectée.
- Cliquez sur les résultats correspondant à votre table pour afficher ses métadonnées.
La capture d'écran suivante affiche la vue des métadonnées Data Catalog d'un exemple de table :
Résumé de l'inspection
Les résultats de la protection des données sensibles sont inclus sous forme de résumé pour la table que vous avez inspectée. Ce récapitulatif inclut le nombre total d'infoTypes, ainsi que des données récapitulatives sur la tâche d'inspection, y compris les dates et l'ID de la ressource de tâche.
Tous les infoTypes
inspectés sont répertoriés. Ceux pour lesquels des résultats ont été trouvés affichent un nombre supérieur à zéro.
Nettoyer
Afin d'éviter que des frais ne soient facturés sur votre compte Google Cloud pour les ressources utilisées dans cet article, effectuez l'une des opérations suivantes selon que vous avez utilisé les exemples de données ou vos propres données :
- Exemples de données : supprimez le projet que vous avez créé.
- Vos propres données: supprimez le job de protection des données sensibles que vous avez créé.
Supprimer le projet
Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé en suivant les instructions du présent article.
Pour supprimer le projet :
- Dans la console Google Cloud, accédez à la page "Projets".
- Dans la liste des projets, sélectionnez celui que vous souhaitez supprimer, puis cliquez sur Delete project (Supprimer le projet).
- Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.
Lorsque vous supprimez votre projet à l'aide de cette méthode, la tâche de protection des données sensibles et le bucket Cloud Storage que vous avez créés sont également supprimés. Vous avez terminé. Il n'est pas nécessaire de suivre les instructions des sections suivantes.
Supprimer la tâche ou le déclencheur de tâche de protection des données sensibles
Si vous avez inspecté vos propres données, supprimez la tâche d'inspection ou le déclencheur de tâche que vous venez de créer.
Console Google Cloud
Dans la console Google Cloud, ouvrez "Protection des données sensibles".
Cliquez sur l'onglet Tâches et déclencheurs de tâches, puis sur l'onglet Déclencheurs de tâche.
Dans la colonne Actions associée au déclencheur de tâche que vous souhaitez supprimer, cliquez sur le menu Autres actions (représenté par trois points disposés verticalement)
, puis cliquez sur Supprimer.
Vous pouvez également supprimer les informations sur la tâche que vous avez exécutée. Cliquez sur l'onglet Toutes les tâches puis, dans la colonne Actions associée à la tâche que vous souhaitez supprimer, cliquez sur le menu Autres actions (représenté par trois points disposés verticalement)
, puis sur Supprimer.API DLP
Pour accéder à APIs Explorer sur la page de référence de la méthode
dlpJobs.delete
, cliquez sur le bouton suivant :Dans la zone name (nom), indiquez le nom de la tâche figurant dans la réponse JSON obtenue pour la requête d'inspection, au format suivant:
L'ID de la tâche se présente au format suivant :projects/project-id/dlpJobs/job-id
i-1234567890123456789
.
Si vous avez créé des jobs d'inspection supplémentaires ou si vous souhaitez vous assurer que vous avez bien supprimé le job, vous pouvez répertorier tous les jobs existants:
Pour accéder à APIs Explorer sur la page de référence de la méthode
dlpJobs.list
, cliquez sur le bouton suivant :Dans la zone parent, saisissez l'identifiant du projet au format suivant, où project-id correspond à l'identifiant de votre projet:
projects/project-id
Cliquez sur Exécuter.
Si aucune tâche n'est répertoriée dans la réponse, cela signifie que vous avez supprimé toutes les tâches. Si des tâches sont répertoriées dans la réponse, répétez la procédure de suppression ci-dessus pour ces tâches.
Étapes suivantes
- En savoir plus sur l'action
publishFindingsToCloudDataCatalog
dans "Protection des données sensibles" - Découvrez comment créer des tags personnalisés ou des tags au niveau des colonnes dans Data Catalog en fonction des résultats liés à la protection des données sensibles.
- Découvrez comment inspecter les dépôts de stockage pour les données sensibles à l'aide de la protection des données sensibles.
- Découvrez comment utiliser Data Catalog.