Envoyer les résultats de l'inspection de la protection des données sensibles à Data Catalog

Ce guide vous explique comment utiliser la protection des données sensibles pour inspecter une table BigQuery et envoyer les résultats de l'inspection à Data Catalog.

Vous pouvez également effectuer un profilage des données, qui est différent d'une opération d'inspection. Vous pouvez également envoyer des profils de données à Dataplex. Pour en savoir plus, consultez Taguer des tables dans Dataplex en fonction des insights issus des profils de données.

Data Catalog est un service évolutif de gestion des métadonnées qui vous permet d'identifier, de gérer et d'interpréter rapidement toutes vos données dans Google Cloud.

La protection des données sensibles est intégrée à Data Catalog. Lorsque vous utilisez une action Sensitive Data Protection pour rechercher des données sensibles dans vos tables BigQuery, elle peut envoyer les résultats directement à Data Catalog sous la forme d'un modèle de tag.

Suivez les étapes décrites dans ce guide pour effectuer les opérations suivantes :

  • Activez Data Catalog et la protection des données sensibles.
  • Configurez Sensitive Data Protection pour inspecter une table BigQuery.
  • Configurez une inspection dans le cadre de la protection des données sensibles pour que les résultats soient envoyés à Data Catalog.

Pour en savoir plus sur Data Catalog, consultez la documentation correspondante.

Si vous souhaitez envoyer les résultats des opérations de profilage des données (et non des tâches d'inspection) à Dataplex, consultez plutôt la documentation sur le profilage d'une organisation, d'un dossier ou d'un projet.

Coûts

Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :

  • Sensitive Data Protection
  • BigQuery

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Avant de commencer

Avant de pouvoir envoyer les résultats de l'inspection de la protection des données sensibles à Data Catalog, procédez comme suit:

  • Étape 1 : Configurez la facturation.
  • Étape 2 : Créez un projet et remplissez une nouvelle table BigQuery (facultatif).
  • Étape 3 : Activez Data Catalog.
  • Étape 4: Activez la protection des données sensibles.

Les sous-sections suivantes présentent chaque étape en détail.

Étape 1 : Configurer la facturation

Vous devez d'abord configurer un compte de facturation si vous n'en possédez pas déjà un.

Découvrir comment activer la facturation

Étape 2 : Créer un projet et remplir une nouvelle table BigQuery (facultatif)

Si vous configurez cette fonctionnalité dans un environnement de production ou si vous avez déjà une table BigQuery à inspecter, ouvrez le projet Google Cloud qui contient la table et passez à l'étape 3.

Si vous testez cette fonctionnalité et souhaitez inspecter des données de test, créez un projet. Pour réaliser cette étape, vous devez disposer du rôle IAM Créateur de projet. En savoir plus sur les rôles IAM

  1. Accédez à la page Nouveau projet de Google Cloud Console.

    Nouveau projet

  2. Dans la liste déroulante Compte de facturation, sélectionnez le compte de facturation auquel le projet doit être rattaché.
  3. Dans la liste déroulante Organisation, sélectionnez l'organisation dans laquelle vous souhaitez créer le projet.
  4. Dans la liste déroulante Emplacement, sélectionnez l'organisation ou le dossier dans lequel vous souhaitez créer le projet.
  5. Pour créer le projet, cliquez sur Créer.

Ensuite, téléchargez et stockez les exemples de données.

  1. Accédez au dépôt des tutoriels sur les fonctions Cloud Run sur GitHub.
  2. Sélectionnez l'un des fichiers CSV contenant des exemples de données, puis téléchargez-le.
  3. Accédez ensuite à BigQuery dans la console Google Cloud.
  4. Sélectionnez votre projet.
  5. Cliquez sur Créer un ensemble de données.
  6. Cliquez sur Créer une table.
  7. Cliquez sur Importer, puis sélectionnez le fichier à importer.
  8. Attribuez un nom à la table, puis cliquez sur Créer une table.

Étape 3 : Activer Data Catalog

Vous devez ensuite activer Data Catalog pour le projet qui contient la table BigQuery que vous souhaitez inspecter à l'aide de Sensitive Data Protection.

Pour activer Data Catalog à l'aide de la console Google Cloud:

  1. Enregistrez votre application pour Data Catalog.

    Enregistrer votre application pour Data Catalog

  2. Dans la liste déroulante Créer un projet sur la page d'inscription, sélectionnez le projet que vous souhaitez utiliser avec Data Catalog.
  3. Après avoir sélectionné le projet, cliquez sur Continuer.

Data Catalog est désormais activé pour votre projet.

Étape 4: Activez la protection des données sensibles

Activez la protection des données sensibles pour le projet dans lequel vous avez activé Data Catalog.

Pour activer Sensitive Data Protection à l'aide de la console Google Cloud:

  1. Enregistrez votre application pour la protection des données sensibles.

    Enregistrer votre application pour la protection des données sensibles

  2. Dans la liste déroulante Créer un projet sur la page d'inscription, sélectionnez le même projet que lors de l'étape précédente.
  3. Après avoir sélectionné le projet, cliquez sur Continuer.

Sensitive Data Protection est désormais activé pour votre projet.

Configurer et exécuter une tâche d'inspection dans le cadre de la protection des données sensibles

Vous pouvez configurer et exécuter une tâche d'inspection Sensitive Data Protection à l'aide de la console Google Cloud ou de l'API DLP.

Les modèles de balises Data Catalog sont stockés dans le même projet et la même région que la table BigQuery. Si vous inspectez une table à partir d'un autre projet, vous devez attribuer le rôle Propriétaire de TagTemplate (roles/datacatalog.tagTemplateOwner) dans Data Catalog à l'agent de service Protection des données sensibles du projet dans lequel se trouve la table BigQuery.

Console Google Cloud

Pour configurer une tâche d'inspection d'une table BigQuery à l'aide de Sensitive Data Protection:

  1. Dans la section "Protection des données sensibles" de la console Google Cloud, accédez à la page Créer une tâche ou un déclencheur de tâche.

    Accéder à la page "Créer un job ou un déclencheur de job"

  2. Saisissez les informations sur la tâche de protection des données sensibles, puis cliquez sur Continuer à chaque étape:

    • Pour l'étape 1 : Choisir les données d'entrée, attribuez un nom à la tâche en saisissant une valeur dans le champ Nom. Dans Emplacement, sélectionnez BigQuery dans le menu Type de stockage, puis saisissez les informations de la table à inspecter. La section Échantillonnage est préconfigurée pour exécuter une inspection échantillonnée sur vos données. Vous pouvez ajuster les champs Limiter les lignes par et Nombre maximal de lignes pour économiser des ressources si vous disposez d'une grande quantité de données. Pour en savoir plus, consultez la section Choisir les données d'entrée.

    • (Facultatif) Pour l'étape 2 : Configurer la détection, vous pouvez configurer les types de données à rechercher, appelés infoTypes. Pour les besoins de ce tutoriel, laissez les infoTypes par défaut sélectionnés. Pour en savoir plus, consultez la section Configurer la détection.

    • Pour l'étape 3 : Ajouter des actions, activez l'option Enregistrer dans Data Catalog.

    • (Facultatif) Pour l'étape 4: Programmer dans le cadre de ce tutoriel, laissez le menu défini sur Aucun afin que l'inspection ne s'exécute qu'une seule fois. Pour en savoir plus sur la planification des tâches d'inspection récurrentes, consultez la section Planifier.

  3. Cliquez sur Créer. La tâche s'exécute immédiatement.

API DLP

Dans cette section, vous allez configurer et exécuter une tâche d'inspection dans le cadre de la protection des données sensibles.

La tâche d'inspection que vous configurez ici indique à la protection des données sensibles d'inspecter les exemples de données BigQuery décrits à l'étape 2 ci-dessus ou vos propres données BigQuery. C'est également dans la configuration de tâche que vous demandez à la protection des données sensibles d'enregistrer ses résultats d'inspection dans Data Catalog.

Étape 1 : Noter l'identifiant du projet

  1. Accédez à Google Cloud Console.

    Accédez à la console Google Cloud.

  2. Cliquez sur Sélectionner.

  3. Dans la liste déroulante Sélectionner une organisation, sélectionnez l'organisation pour laquelle vous avez activé Data Catalog.

  4. Sous ID, copiez l'ID du projet qui contient les données à inspecter. Il s'agit du projet décrit à l'étape de définition des dépôts de stockage plus haut sur cette page.

  5. Dans le champ Nom, cliquez sur le projet pour le sélectionner.

Étape 2 : Ouvrir APIs Explorer et configurer la tâche

  1. Accédez à APIs Explorer sur la page de référence de la méthode dlpJobs.create. Pour que ces instructions restent disponibles, effectuez un clic droit sur le lien suivant et ouvrez-le dans un nouvel onglet ou une nouvelle fenêtre :

    Ouvrir APIs Explorer

  2. Dans la zone parent, saisissez la chaîne suivante, où project-id correspond à l'ID du projet noté à l'étape précédente :

    projects/project-id

    Copiez ensuite le code JSON suivant. Sélectionnez le contenu du champ Corps de la requête dans APIs Explorer, puis collez le code JSON pour remplacer le contenu. Veillez à remplacer les espaces réservés project-id, bigquery-dataset-name et bigquery-table-name respectivement par l'ID de projet réel et par les noms de l'ensemble de données et de la table BigQuery.

    {
      "inspectJob":
      {
        "storageConfig":
        {
          "bigQueryOptions":
          {
            "tableReference":
            {
              "projectId": "project-id",
              "datasetId": "bigquery-dataset-name",
              "tableId": "bigquery-table-name"
            }
          }
        },
        "inspectConfig":
        {
          "infoTypes":
          [
            {
              "name": "EMAIL_ADDRESS"
            },
            {
              "name": "PERSON_NAME"
            },
            {
              "name": "US_SOCIAL_SECURITY_NUMBER"
            },
            {
              "name": "PHONE_NUMBER"
            }
          ],
          "includeQuote": true,
          "minLikelihood": "UNLIKELY",
          "limits":
          {
            "maxFindingsPerRequest": 100
          }
        },
        "actions":
        [
          {
            "publishFindingsToCloudDataCatalog": {}
          }
        ]
      }
    }
    

Pour en savoir plus sur les options d'inspection disponibles, consultez la page Inspecter le stockage et les bases de données pour identifier les données sensibles. Pour obtenir la liste complète des types d'informations que la protection des données sensibles peut inspecter, consultez la documentation de référence sur les infoTypes.

Étape 3: Exécuter la requête pour lancer la tâche d'inspection

Après avoir configuré la tâche en suivant les étapes précédentes, cliquez sur Exécuter pour envoyer la requête. Si la requête aboutit, une réponse s'affiche avec un code de réussite et un objet JSON indiquant l'état de la tâche de protection des données sensibles que vous venez de créer.

La réponse à votre requête d'inspection inclut l'ID de la tâche d'inspection en tant que clé "name" et son état actuel en tant que clé "state". Comme vous venez d'envoyer la requête, l'état de la tâche à ce stade est "PENDING".

Vérifier l'état de la tâche d'inspection de la protection des données sensibles

Une fois la demande d'inspection envoyée, la tâche d'inspection commence immédiatement.

Console Google Cloud

Pour vérifier l'état de la tâche d'inspection:

  1. Dans la console Google Cloud, ouvrez Sensitive Data Protection.

    Accéder à la protection des données sensibles

  2. Cliquez sur l'onglet Tâches et déclencheurs de tâches, puis sur Toutes les tâches.

La tâche que vous venez d'exécuter figure probablement en haut de la liste. Vérifiez la colonne État pour vous assurer que son état est Terminé.

Vous pouvez cliquer sur l'ID de la tâche pour afficher ses résultats. Chaque détecteur d'infoTypes répertorié sur la page "Informations sur la tâche" est suivi du nombre de correspondances trouvées dans le contenu.

API DLP

Pour vérifier l'état de la tâche d'inspection:

  1. Pour accéder à APIs Explorer sur la page de référence de la méthode dlpJobs.get, cliquez sur le bouton suivant :

    Ouvrir API Explorer

  2. Dans la zone name (nom), indiquez au format suivant le nom de la tâche figurant dans la réponse JSON obtenue pour la requête d'inspection:

    projects/project-id/dlpJobs/job-id
    L'ID de la tâche se présente sous la forme i-1234567890123456789.

  3. Pour envoyer la requête, cliquez sur Exécuter.

Si la clé "state" de l'objet JSON de réponse indique que l'état de la tâche d'inspection est "DONE", celle-ci est terminée.

Pour afficher le reste de la réponse JSON, faites défiler la page vers le bas. À chaque type d'information répertorié sous "result" > "infoTypeStats" doit correspondre un élément "count". Si ce n'est pas le cas, vérifiez que le code JSON saisi est exact et que le chemin ou l'emplacement de vos données est correct.

Une fois la tâche d'inspection terminée, vous pouvez passer à la section suivante de ce guide pour afficher les résultats de l'inspection dans Security Command Center.

Afficher les résultats de l'inspection de la protection des données sensibles dans Data Catalog

Étant donné que vous avez demandé à la protection des données sensibles d'envoyer les résultats de sa tâche d'inspection à Data Catalog, vous pouvez maintenant afficher les tags et le modèle de tag créés automatiquement dans l'UI Data Catalog:

  1. Accédez à la page "Data Catalog" de la console Google Cloud.

    Accéder à Data Catalog

  2. Recherchez la table que vous avez inspectée.
  3. Cliquez sur les résultats correspondant à votre table pour afficher ses métadonnées.

La capture d'écran suivante affiche la vue des métadonnées Data Catalog d'un exemple de table :

Résultats de la protection des données sensibles dans Data Catalog.

Résumé de l'inspection

Les résultats de la protection des données sensibles sont inclus sous forme de résumé pour la table que vous avez inspectée. Ce récapitulatif inclut le nombre total d'infoTypes, ainsi que des données récapitulatives sur la tâche d'inspection, y compris les dates et l'ID de la ressource de tâche.

Tous les infoTypes inspectés sont répertoriés. Ceux pour lesquels des résultats ont été trouvés affichent un nombre supérieur à zéro.

Effectuer un nettoyage

Afin d'éviter que des frais ne soient facturés sur votre compte Google Cloud pour les ressources utilisées dans cet article, effectuez l'une des opérations suivantes selon que vous avez utilisé les exemples de données ou vos propres données :

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé en suivant les instructions du présent article.

Pour supprimer le projet :

  1. Dans la console Google Cloud, accédez à la page "Projects" (Projets).

    Accéder à la page Projets

  2. Dans la liste des projets, sélectionnez celui que vous souhaitez supprimer, puis cliquez sur Delete project (Supprimer le projet).Après avoir coché la case à côté du nom du projet, cliquez sur "Delete project" (Supprimer le projet).
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Lorsque vous supprimez votre projet à l'aide de cette méthode, la tâche de protection des données sensibles et le bucket Cloud Storage que vous avez créés sont également supprimés, et vous avez terminé. Il n'est pas nécessaire de suivre les instructions des sections suivantes.

Supprimer la tâche ou le déclencheur de tâche de protection des données sensibles

Si vous avez inspecté vos propres données, supprimez la tâche d'inspection ou le déclencheur de tâche que vous venez de créer.

Console Google Cloud

  1. Dans la console Google Cloud, ouvrez Sensitive Data Protection.

    Accéder à la protection des données sensibles

  2. Cliquez sur l'onglet Tâches et déclencheurs de tâches, puis sur l'onglet Déclencheurs de tâche.

  3. Dans la colonne Actions associée au déclencheur de tâche que vous souhaitez supprimer, cliquez sur le menu Autres actions (représenté par trois points disposés verticalement) , puis cliquez sur Supprimer.

Vous pouvez également supprimer les informations sur la tâche que vous avez exécutée. Cliquez sur l'onglet Toutes les tâches puis, dans la colonne Actions associée à la tâche que vous souhaitez supprimer, cliquez sur le menu Autres actions (représenté par trois points disposés verticalement) , puis sur Supprimer.

API DLP

  1. Pour accéder à APIs Explorer sur la page de référence de la méthode dlpJobs.delete, cliquez sur le bouton suivant :

    Ouvrir API Explorer

  2. Dans la zone name (nom), indiquez au format suivant le nom de la tâche figurant dans la réponse JSON obtenue pour la requête d'inspection:

    projects/project-id/dlpJobs/job-id
    L'ID de la tâche se présente sous la forme i-1234567890123456789.

Si vous avez créé des tâches d'inspection supplémentaires ou si vous souhaitez vous assurer que la tâche a bien été supprimée, vous pouvez répertorier toutes les tâches existantes:

  1. Pour accéder à APIs Explorer sur la page de référence de la méthode dlpJobs.list, cliquez sur le bouton suivant :

    Ouvrir APIs Explorer

  2. Dans la zone parent, saisissez l'identifiant du projet au format suivant, où project-id correspond à votre identifiant de projet :

    projects/project-id

  3. Cliquez sur Exécuter.

Si aucune tâche n'est répertoriée dans la réponse, cela signifie que vous avez supprimé toutes les tâches. Si des tâches sont répertoriées dans la réponse, répétez la procédure de suppression ci-dessus pour ces tâches.

Étape suivante