Profiler des données BigQuery dans un seul projet

Cette page explique comment configurer la découverte de données BigQuery au niveau d'un projet. Si vous souhaitez profiler une organisation ou un dossier, consultez Profiler des données BigQuery dans une organisation ou un dossier.

Pour en savoir plus sur le service de découverte, consultez la page Profils de données.

Pour démarrer le profilage des données, vous devez créer une configuration d'analyse.

Avant de commencer

  1. Assurez-vous que l'API Cloud Data Loss Prevention est activée sur votre projet:

    1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
    2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

      Accéder au sélecteur de projet

    3. Vérifiez que la facturation est activée pour votre projet Google Cloud.

    4. Activez l'API requise.

      Activer l'API

    5. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

      Accéder au sélecteur de projet

    6. Vérifiez que la facturation est activée pour votre projet Google Cloud.

    7. Activez l'API requise.

      Activer l'API

  2. Vérifiez que vous disposez des autorisations IAM requises pour configurer des profils de données au niveau du projet.

  3. Vous devez disposer d'un modèle d'inspection dans chaque région où vous avez des données à profiler. Si vous souhaitez utiliser un seul modèle pour plusieurs régions, vous pouvez utiliser un modèle stocké dans la région global. Si des règles d'administration vous empêchent de créer un modèle d'inspection global, vous devez définir un modèle d'inspection dédié pour chaque région. Pour en savoir plus, consultez la section Considérations relatives à la résidence des données.

    Cette tâche vous permet de créer un modèle d'inspection uniquement dans la région global. Si vous avez besoin de modèles d'inspection dédiés pour une ou plusieurs régions, vous devez créer ces modèles avant d'effectuer cette tâche.

  4. Vous pouvez configurer la protection des données sensibles pour qu'elle envoie des notifications à Pub/Sub lorsque certains événements se produisent, par exemple lorsque la protection des données sensibles profile une nouvelle table. Si vous souhaitez utiliser cette fonctionnalité, vous devez d'abord créer un sujet Pub/Sub.

Créer une configuration d'analyse

  1. Accédez à la page Créer une configuration d'analyse.

    Accéder à la page "Créer une configuration d'analyse"

  2. Accédez à votre projet. Dans la barre d'outils, cliquez sur le sélecteur de projet, puis sélectionnez votre projet.

Les sections suivantes fournissent des informations supplémentaires sur les étapes de la page Créer une configuration d'analyse. À la fin de chaque section, cliquez sur Continuer.

Sélectionner un type de détection

Sélectionnez BigQuery.

Sélectionner un niveau d'accès

Effectuez l'une des opérations suivantes :

  • Si vous souhaitez analyser une seule table en mode test, sélectionnez Analyser une table (mode test).

    Le nombre d'analyses de table disponibles s'affiche. Les analyses de table gratuites ne s'appliquent qu'aux tables d'une taille inférieure ou égale à 1 To. Pour chaque table, vous ne pouvez avoir qu'une seule configuration d'analyse au niveau de la table. Pour en savoir plus, consultez Profiler une table en mode test.

    Remplissez les détails de la table que vous souhaitez profiler.

  • Si vous souhaitez effectuer un profilage standard au niveau du projet, sélectionnez Analyser l'ensemble du projet.

Gérer les planifications

Si la fréquence de profilage par défaut répond à vos besoins, vous pouvez ignorer cette section de la page Créer une configuration d'analyse. Cette section est utile si vous souhaitez ajuster précisément la fréquence de profilage de toutes vos données ou de certains sous-ensembles de données. Elle est également utile si vous ne souhaitez pas que certaines tables soient profilées, ou si vous voulez qu'elles soient profilées une seule fois, puis jamais.

Dans cette section, vous allez créer des filtres pour spécifier certains sous-ensembles de données qui vous intéressent. Pour ces sous-ensembles, vous déterminez si la protection des données sensibles doit profiler les tables et à quelle fréquence. Ici, vous spécifiez également les types de modifications qui doivent entraîner le reprofilage d'une table. Enfin, vous spécifiez les conditions auxquelles chaque table des sous-ensembles doit remplir avant que la protection des données sensibles ne commence à profiler la table.

Pour effectuer des ajustements précis de la fréquence de profilage, procédez comme suit:

  1. Cliquez sur Ajouter un calendrier de diffusion.
  2. Dans la section Filtres, définissez un ou plusieurs filtres spécifiant les tables comprises dans le champ d'application de la planification.

    Spécifiez au moins l'un des éléments suivants:

    • ID de projet ou expression régulière spécifiant un ou plusieurs projets.
    • ID d'ensemble de données ou expression régulière spécifiant un ou plusieurs ensembles de données.
    • ID de table ou expression régulière spécifiant une ou plusieurs tables.

    Les expressions régulières doivent respecter la syntaxe RE2.

    Par exemple, si vous souhaitez que toutes les tables d'un ensemble de données soient incluses dans le filtre, spécifiez l'ID de cet ensemble de données et laissez les deux autres champs vides.

    Si vous souhaitez ajouter d'autres filtres, cliquez sur Ajouter un filtre et répétez cette étape.

  3. Cliquez sur Fréquence.

  4. Dans la section Fréquence, indiquez si la protection des données sensibles doit profiler les tables que vous avez définies dans vos filtres et, le cas échéant, à quelle fréquence:

    • Si vous ne souhaitez jamais que les tables soient profilées, désactivez l'option Profiler les tables.

    • Si vous souhaitez que les tables soient profilées au moins une fois, laissez l'option Profiler les tables activée.

      Dans les champs suivants de cette section, vous spécifiez si le système doit reprofiler vos données et les événements qui doivent déclencher une opération de reprofilage. Pour en savoir plus, consultez la section Fréquence de génération de profils de données.

      1. Pour Lorsque le schéma est modifié, spécifiez la fréquence à laquelle la protection des données sensibles doit vérifier si les tables sélectionnées ont subi des modifications de schéma après leur dernier profilage. Seules les tables avec des modifications de schéma seront reprofilées.
      2. Pour Types de modifications de schéma, spécifiez les types de modifications de schéma qui doivent déclencher une opération de reprofilage. Sélectionnez l'une des options suivantes :
        • Nouvelles colonnes: reprofilez les tables dans lesquelles de nouvelles colonnes ont été ajoutées.
        • Colonnes supprimées: reprofilez les tables dont des colonnes ont été supprimées.

        Par exemple, supposons que certaines de vos tables gagnent de nouvelles colonnes chaque jour et que vous deviez profiler leur contenu à chaque fois. Vous pouvez définir Lorsque le schéma est modifié sur Reprofiler tous les jours et Types de modifications de schéma sur Nouvelles colonnes.

      3. Sous Lorsque des tables sont modifiées, spécifiez la fréquence à laquelle la protection des données sensibles doit vérifier si les tables sélectionnées ont subi des modifications après leur dernier profilage. Seules les tables avec des modifications seront reprofilées. Les suppressions de lignes et les modifications de schéma sont des exemples de modifications de table.

        Vous devez sélectionner une valeur identique ou inférieure à celle que vous avez définie dans le champ Lorsque le schéma est modifié.

      4. Sous Lors de l'inspection des modifications apportées au modèle, indiquez si vous souhaitez que vos données soient reprofilées lorsque le modèle d'inspection associé est mis à jour et, le cas échéant, à quelle fréquence.

        Une modification du modèle d'inspection est détectée dans les cas suivants:

        • Le nom d'un modèle d'inspection change dans votre configuration d'analyse.
        • Le updateTime d'un modèle d'inspection est modifié.

      5. Par exemple, si vous définissez un modèle d'inspection pour la région us-west1 et que vous mettez à jour ce modèle d'inspection, seules les données de la région us-west1 seront reprofilées. Toutefois, si vous supprimez ce modèle d'inspection, les données de us-west1 ne seront pas reprofilées, car il n'existe aucun modèle d'inspection à utiliser pour les reprofiler.

  5. Cliquez sur Conditions.

  6. Dans la section Conditions, spécifiez les conditions auxquelles les tables, définies dans vos filtres, doivent remplir avant que la protection des données sensibles ne les profile. Si vous définissez des conditions minimales et la condition temporelle, la protection des données sensibles ne profile que les tables répondant aux deux types de conditions.

    • Conditions minimales: ces conditions sont utiles si vous souhaitez retarder le profilage d'une table jusqu'à ce qu'elle contienne suffisamment de lignes ou qu'elle atteigne un certain âge. Activez les conditions que vous souhaitez appliquer et spécifiez le nombre minimal de lignes ou la durée.
    • Condition de temps: cette condition est utile si vous ne souhaitez pas que d'anciennes tables soient profilées. Activez la condition temporelle, puis choisissez une date et une heure. Toute table créée à cette date ou avant est exclue du profilage.

    Supposons que vous disposiez de la configuration suivante:

    • Conditions minimales

      • Nombre minimal de lignes: 10
      • Durée minimale: 24 heures
    • Condition de temps

      • Horodatage: 04/05/22, 23:59

    Dans ce cas, la protection des données sensibles exclut toutes les tables créées au plus tard le 4 mai 2022 à 23h59. Parmi les tables créées après cette date et cette heure, la protection des données sensibles ne profile que celles qui comportent 10 lignes ou qui datent d'au moins 24 heures.

  7. Dans la section Tables à profiler, sélectionnez l'une des options suivantes en fonction des types de tables que vous souhaitez profiler:

    • Profiler toutes les tables: sélectionnez cette option si vous souhaitez que la protection des données sensibles profile tous les types de tables correspondant à vos filtres et vos conditions.

      Pour les types de tables non compatibles, la protection des données sensibles ne génère que des profils partiellement renseignés. Ces profils affichent des erreurs indiquant que les tables auxquelles ils se rapportent ne sont pas prises en charge. Sélectionnez cette option si vous souhaitez afficher les profils partiels malgré les messages d'erreur.

      Lorsque la protection des données sensibles prend en charge un nouveau type de table, elle reprofile entièrement les tables de ce type lors de la prochaine exécution planifiée.

    • Profiler les tables compatibles: sélectionnez cette option si vous souhaitez que la protection des données sensibles ne profile que les tables compatibles qui correspondent à vos filtres et à vos conditions. Les tables non compatibles n'ont pas de profils partiels.

    • Profile specific tables types (Types de tables spécifiques au profil) : sélectionnez cette option si vous souhaitez que la protection des données sensibles ne profile que les types de tables que vous sélectionnez. Dans la liste qui s'affiche, sélectionnez un ou plusieurs types.

      Lorsque la protection des données sensibles prend en charge un nouveau type de table, elle ne profile pas automatiquement les tables de ce type. Pour profiler les nouveaux types de tables compatibles, vous devez modifier la configuration d'analyse et sélectionner ces types.

    Si vous ne sélectionnez pas d'option, la protection des données sensibles ne profile que les tables BigQuery et affiche les erreurs pour les tables non compatibles.

    Les tarifs du profilage des données varient en fonction des types de tables profilés. Pour en savoir plus, consultez la section Tarifs du profilage des données.

  8. Cliquez sur OK.

  9. Si vous souhaitez ajouter d'autres planifications, cliquez sur Ajouter une planification et répétez les étapes précédentes.

  10. Pour réorganiser les planifications en fonction de leur priorité, utilisez les flèches vers le haut et vers le bas. Par exemple, si les filtres de deux planifications différentes correspondent au tableau A, la planification qui figure le plus haut dans la liste des priorités est prioritaire.

    La dernière planification de la liste est toujours celle intitulée Planification par défaut. Cette planification par défaut couvre les tables de votre projet qui ne correspondent à aucune des planifications que vous avez créées. Cette programmation par défaut suit la fréquence de profilage par défaut du système.

  11. Si vous souhaitez ajuster la programmation par défaut, cliquez sur Modifier la programmation et ajustez les paramètres si nécessaire.

Sélectionner un modèle d'inspection

Selon la manière dont vous souhaitez fournir une configuration d'inspection, choisissez l'une des options suivantes. Quelle que soit l'option que vous choisissez, la protection des données sensibles analyse vos données dans la région où elles sont stockées. Autrement dit, vos données ne quittent pas leur région d'origine.

Option 1: Créer un modèle d'inspection

Choisissez cette option si vous souhaitez créer un modèle d'inspection dans la région global.

  1. Cliquez sur Créer un modèle d'inspection.
  2. Facultatif: Pour modifier la sélection par défaut des infoTypes, cliquez sur Gérer les infoTypes.

    Pour savoir comment gérer les infoTypes intégrés et personnalisés dans cette section, consultez Gérer les infoTypes via la console Google Cloud.

    Vous devez sélectionner au moins un infoType pour continuer.

  3. Facultatif : poursuivez la configuration du modèle d'inspection en ajoutant des ensembles de règles et en définissant un seuil de confiance. Pour en savoir plus, consultez la section Configurer la détection.

    Lorsque la protection des données sensibles crée la configuration d'analyse, elle stocke ce nouveau modèle d'inspection dans la région global.

Option 2: Utiliser un modèle d'inspection existant

Choisissez cette option si vous souhaitez utiliser des modèles d'inspection existants.

  1. Cliquez sur Sélectionner un modèle d'inspection existant.

  2. Saisissez le nom complet de la ressource du modèle d'inspection que vous souhaitez utiliser. Le champ Région est renseigné automatiquement avec le nom de la région dans laquelle votre modèle d'inspection est stocké.

    Le modèle d'inspection que vous saisissez doit se trouver dans la même région que les données à profiler. Pour respecter la résidence des données, la protection des données sensibles n'utilise pas de modèle d'inspection en dehors de sa propre région.

    Pour trouver le nom complet de ressource d'un modèle d'inspection, procédez comme suit :

    1. Accédez à la liste de vos modèles d'inspection. Cette page s'ouvre dans un nouvel onglet.

      Accéder aux modèles d'inspection

    2. Basculez vers le projet qui contient le modèle d'inspection que vous souhaitez utiliser.

    3. Dans l'onglet Modèles, cliquez sur l'ID du modèle que vous souhaitez utiliser.

    4. Sur la page qui s'affiche, copiez le nom complet de la ressource du modèle. Il a le format suivant :

      projects/PROJECT_ID/locations/REGION/inspectTemplates/TEMPLATE_ID
    5. Sur la page Créer une configuration d'analyse, dans le champ Nom du modèle, collez le nom de ressource complet du modèle.

  3. Si vous disposez de données dans une autre région et que vous souhaitez utiliser un modèle d'inspection pour cette région, procédez comme suit:

    1. Cliquez sur Ajouter un modèle d'inspection.
    2. Saisissez le nom complet de la ressource du modèle d'inspection.

    Répétez ces étapes pour chaque région dans laquelle vous disposez d'un modèle d'inspection dédié.

  4. Facultatif: Ajoutez un modèle d'inspection stocké dans la région global. La protection des données sensibles utilise automatiquement ce modèle pour les données des régions dans lesquelles vous ne disposez pas de modèle d'inspection dédié.

Ajouter des actions

Dans les sections suivantes, vous spécifiez les actions que la protection des données sensibles doit effectuer après avoir généré les profils de données.

Pour en savoir plus sur la facturation des autres services Google Cloud pour la configuration des actions, consultez la page Tarifs d'exportation de profils de données.

Publier dans Security Command Center

Cette action vous permet d'envoyer à Security Command Center les niveaux de risque lié aux données et de sensibilité des profils de données de table calculés.

Security Command Center est le service centralisé de signalement des failles et des menaces de Google Cloud. Vous pouvez exploiter les insights issus de profils de données pour trier et développer des plans de réponse aux failles et aux menaces identifiées dans Security Command Center.

Pour que vous puissiez utiliser cette action, vous devez activer Security Command Center au niveau de l'organisation. L'activation de Security Command Center au niveau de l'organisation permet le flux de résultats à partir de services intégrés tels que la protection des données sensibles. La protection des données sensibles fonctionne avec Security Command Center Standard et Premium.

Si Security Command Center n'est pas activé au niveau de l'organisation, les résultats de protection des données sensibles n'apparaîtront pas dans Security Command Center. Pour en savoir plus, consultez la section Vérifier le niveau d'activation de Security Command Center.

Pour envoyer les résultats de vos profils de données à Security Command Center, assurez-vous que l'option Publier dans Security Command Center est activée.

Pour en savoir plus, consultez Publier des profils de données dans Security Command Center.

Enregistrer des copies des profils de données dans BigQuery

L'activation de l'option Enregistrer des copies des profils de données dans BigQuery vous permet de conserver une copie ou un historique enregistré de tous vos profils générés. Cela peut être utile pour créer des rapports d'audit et visualiser des profils de données. Vous pouvez également charger ces informations dans d'autres systèmes.

En outre, cette option vous permet d'afficher tous vos profils de données dans une seule vue, quelle que soit la région dans laquelle vos données se trouvent. Si vous désactivez cette option, vous pouvez toujours afficher les profils de données dans votre tableau de bord. Toutefois, dans votre tableau de bord, vous ne sélectionnez qu'une région à la fois et n'affichez que les profils de données pour cette région.

Pour exporter des copies des profils de données vers une table BigQuery, procédez comme suit:

  1. Activez l'option Enregistrer des copies des profils de données dans BigQuery.

  2. Saisissez les détails de la table BigQuery dans laquelle vous souhaitez enregistrer les profils de données:

    • Dans le champ ID du projet, saisissez l'ID d'un projet existant vers lequel vous souhaitez exporter les profils de données.

    • Pour ID de l'ensemble de données, saisissez le nom d'un ensemble de données existant dans le projet vers lequel vous souhaitez exporter les profils de données.

    • Pour ID de la table, saisissez le nom de la table BigQuery vers laquelle les profils de données seront exportés. Si vous n'avez pas créé cette table, le service de protection des données sensibles la crée automatiquement pour vous à l'aide du nom que vous fournissez.

La protection des données sensibles commence à exporter des profils dès que vous activez cette option. Les profils générés avant l'activation de l'exportation ne sont pas enregistrés dans BigQuery.

Publier dans Pub/Sub

L'activation de l'option Publier sur Pub/Sub vous permet d'effectuer des actions programmatiques basées sur les résultats du profilage. Vous pouvez utiliser les notifications Pub/Sub pour développer un workflow de récupération et de correction des résultats comportant un risque important pour les données ou une sensibilité.

Pour envoyer des notifications à un sujet Pub/Sub, procédez comme suit:

  1. Activez l'option Publier sur Pub/Sub.

    Une liste d'options s'affiche. Chaque option décrit un événement qui amène la protection des données sensibles à envoyer une notification à Pub/Sub.

  2. Sélectionnez les événements qui doivent déclencher une notification Pub/Sub.

    Si vous sélectionnez Envoyer une notification Pub/Sub à chaque mise à jour d'un profil, la protection des données sensibles envoie une notification en cas de modification des métriques au niveau de la table suivantes:

    • Risque lié aux données
    • Confidentialité
    • infoTypes prédits
    • Autres infoTypes
    • Public
    • Chiffrement
  3. Pour chaque événement sélectionné, procédez comme suit:

    1. Saisissez le nom du thème. Le nom doit respecter le format suivant:

      projects/PROJECT_ID/topics/TOPIC_ID
      

      Remplacez les éléments suivants :

      • PROJECT_ID: ID du projet associé au sujet Pub/Sub.
      • TOPIC_ID: ID du sujet Pub/Sub.
    2. Indiquez si vous souhaitez inclure dans la notification le profil complet de la table ou uniquement le nom complet de la ressource de la table profilée.

    3. Définissez les niveaux minimaux de risque et de sensibilité des données à atteindre pour que la protection des données sensibles puisse envoyer une notification.

    4. Indiquez si l'une ou les deux conditions de risque et de sensibilité des données doivent être remplies. Par exemple, si vous choisissez AND, le risque lié aux données et les conditions de sensibilité doivent être remplis avant que la protection des données sensibles n'envoie une notification.

Envoyer à Dataplex sous forme de tags

Cette action vous permet de créer des tags dans Dataplex sur la base des insights issus des profils de données. Cette action n'est appliquée qu'aux profils nouveaux et mis à jour. Les profils existants qui ne sont pas mis à jour ne sont pas envoyés à Dataplex.

Dataplex est un service Google Cloud qui unifie les données distribuées, et automatise leur gestion et leur gouvernance. Lorsque vous activez cette action, les tables que vous profilez sont automatiquement taguées dans Dataplex en fonction des insights collectés à partir des profils de données. Vous pouvez ensuite rechercher des tables comportant des valeurs de tag spécifiques dans votre organisation et vos projets.

Pour envoyer les profils de données à Dataplex, assurez-vous que l'option Envoyer à Dataplex sous forme de tags est activée.

Pour en savoir plus, consultez Ajouter des tags aux tables dans Dataplex en fonction des insights issus des profils de données.

Définir l'emplacement de stockage de la configuration

Cliquez sur la liste Emplacement de la ressource, puis sélectionnez la région dans laquelle vous souhaitez stocker cette configuration d'analyse. Toutes les configurations d'analyse que vous créez ultérieurement seront également stockées à cet emplacement.

L'emplacement où vous choisissez de stocker votre configuration d'analyse n'a aucune incidence sur les données à analyser. De plus, cela n'a aucune incidence sur l'emplacement de stockage des profils de données. Vos données sont analysées dans la même région que celle où elles sont stockées. Pour en savoir plus, consultez la section Considérations relatives à la résidence des données.

Vérifier et créer

  1. Pour vous assurer que le profilage ne démarre pas automatiquement après la création de la configuration d'analyse, sélectionnez Créer une analyse en mode suspendu.

    Cette option est utile dans les cas suivants:

    • Vous avez choisi d'enregistrer les profils de données dans BigQuery et vous souhaitez vous assurer que l'agent de service dispose d'un accès en écriture à votre table de sortie.
    • Vous avez configuré des notifications Pub/Sub et vous souhaitez accorder un accès en publication à l'agent de service.
  2. Vérifiez vos paramètres, puis cliquez sur Créer.

    La protection des données sensibles crée la configuration d'analyse et l'ajoute à la liste des configurations d'analyse de découverte.

Pour afficher ou gérer vos configurations d'analyse, consultez la page Gérer les configurations d'analyse.

Si votre agent de service dispose des rôles nécessaires pour accéder à vos données et les profiler, la protection des données sensibles commence à analyser vos données peu de temps après la création de la configuration d'analyse ou la réactivation d'une configuration suspendue. Sinon, la protection des données sensibles affiche une erreur lorsque vous affichez les détails de la configuration de l'analyse.

Étapes suivantes

  • Découvrez comment estimer le coût du profilage des données dans un seul projet.
  • Découvrez comment afficher les profils de données.
  • Découvrez comment gérer les configurations d'analyse.
  • Découvrez comment recevoir et analyser les messages Pub/Sub publiés par le profileur de données.
  • Découvrez comment résoudre les problèmes liés aux profils de données.