Cette page explique comment appliquer automatiquement des tags Dataplex aux tables BigQuery après que la protection des données sensibles a créé des profils pour ces tables. Cette page fournit également des exemples de requêtes que vous pouvez utiliser pour rechercher des données taguées dans votre organisation et vos projets.
Cette fonctionnalité est utile si vous souhaitez enrichir vos métadonnées manuelles dans Dataplex avec les insights recueillis à partir des profils de données de la protection des données sensibles. Les tags générés incluent les insights suivants:
- Types d'informations (infoTypes) détectés dans les colonnes du tableau
- Niveau de sensibilité calculé pour la table
- Niveau de risque lié aux données calculé pour la table
Les insights issus des profils de données de la protection des données sensibles peuvent vous aider à utiliser Dataplex pour découvrir les données sensibles et à haut risque dans votre organisation. Utilisez ces insights pour prendre des décisions éclairées sur la manière de gérer et de régir vos données.
Si vous souhaitez envoyer les résultats des tâches d'inspection (et non les opérations de profilage des données) à Dataplex, consultez plutôt Envoyer les résultats d'inspection de la protection des données sensibles à Data Catalog.
À propos des profils de données
Vous pouvez configurer la protection des données sensibles pour générer automatiquement des profils sur les données au sein d'une organisation, d'un dossier ou d'un projet. Les profils de données contiennent des métriques et des métadonnées sur vos données, et vous permettent de déterminer l'emplacement des données sensibles et à haut risque. La protection des données sensibles signale ces métriques à différents niveaux de détail. Pour en savoir plus sur les types de données que vous pouvez profiler, consultez la section Ressources compatibles.
À propos de Dataplex et Data Catalog
Dataplex est un service Google Cloud qui unifie les données distribuées et automatise leur gestion et leur gouvernance. Data Catalog est un service de gestion des métadonnées entièrement géré et évolutif au sein de Dataplex.
Data Catalog vous permet d'utiliser des tags et des modèles de tag pour associer des métadonnées métier à vos données. Vous pouvez ensuite rechercher et gérer toutes les métadonnées de votre organisation ou de votre projet dans un service unifié. Pour en savoir plus, consultez la page Tags et modèles de tags.
Fonctionnement
Si l'action Envoyer à Dataplex en tant que tags est activée dans votre configuration d'analyse de découverte, Sensitive Data Protection procède comme suit chaque fois qu'elle effectue un profilage de vos données. Cette action ne s'applique qu'aux nouveaux profils et aux profils mis à jour. Les profils existants qui ne sont pas mis à jour ne sont pas envoyés à Dataplex.
Crée un modèle de tag privé contenant le schéma des balises qui seront associées à vos tables BigQuery. Pour en savoir plus sur le nom, l'ID et l'emplacement du modèle de balise, consultez la section Détails du modèle de balise.
Seuls les principaux disposant des rôles et des autorisations appropriés peuvent afficher le modèle de balise.
Crée un tag pour chaque table BigQuery que vous profilez. La balise est basée sur le modèle de balise que vous venez de créer.
Par exemple, une balise résultante associée à une table peut avoir les métadonnées suivantes:
Nom à afficher Valeur Column Insights
ccn: CREDIT_CARD_NUMBER
first_name: PERSON_NAME
last_name: PERSON_NAME
ssn: US_SOCIAL_SECURITY_NUMBER
email: EMAIL_ADDRESS
Column Sensitivity
ccn: HIGH
first_name: MODERATE
last_name: MODERATE
favorite_animal: LOW
ssn: HIGH
email: MODERATE
id: LOW
Data Risk Level
HIGH
Other InfoTypes
PHONE_NUMBER
Predicted InfoTypes
CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
Profile Last Generated
DATE at TIME
Sensitive Data Profile
organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
Sensitivity Score
HIGH
Une table comporte deux balises si elle a été profilée à l'aide des deux éléments suivants:
- Une configuration d'analyse au niveau de l'organisation ou du dossier
- Une configuration d'analyse au niveau du projet
Une fois les tables taguées, vous pouvez rechercher dans Dataplex toutes les données de votre organisation ou de votre projet associées à des valeurs de tag spécifiques.
Détails du modèle de balise
Le nom et l'ID du modèle, ainsi que le projet dans lequel le nouveau modèle de balise est stocké, dépendent de la ressource à laquelle la configuration d'analyse se rapporte.
- Si la configuration d'analyse est une configuration au niveau de l'organisation ou du dossier, le modèle de balise est stocké dans le conteneur de l'agent de service. Le nom du modèle de balise est
Sensitive Data Profile
. Son ID de modèle estsensitive_data_profile
. - Si la configuration d'analyse est une configuration au niveau du projet, le modèle de balise est stocké dans le projet à profiler. Le nom du modèle de balise est
Sensitive Data Profile (Project)
. Son ID de modèle estsensitive_data_profile_project
.
Tarifs
Pour en savoir plus sur la façon dont d'autres services Google Cloud peuvent vous facturer l'exportation de profils de données, consultez la page Tarifs pour l'exportation de profils de données.
Ajouter automatiquement des tags aux tables BigQuery en fonction des profils de données
Créez une configuration d'analyse. Vous pouvez également modifier une configuration d'analyse existante.
- Pour créer une configuration d'analyse au niveau de l'organisation ou du dossier, consultez Profiler les données dans une organisation ou un dossier.
- Pour créer une configuration d'analyse au niveau du projet, consultez Profiler les données dans un seul projet.
À l'étape Ajouter des actions, assurez-vous que l'option Envoyer à Dataplex sous forme de tags est activée.
- Si vous créez une configuration d'analyse, cette action est activée par défaut.
- Si vous modifiez une configuration d'analyse, vous devez activer cette action.
Une fois les données profilées et taguées, vous pouvez commencer à rechercher des données taguées dans Dataplex.
Rôles et autorisations pour afficher les balises
Les résultats de recherche Dataplex n'affichent que les données auxquelles vous avez accès. Vous avez besoin des rôles ou des autorisations IAM (Identity and Access Management) suivants pour rechercher les balises associées à vos tables BigQuery.
Objectif | Rôle prédéfini | Autorisations pertinentes |
---|---|---|
Afficher le modèle de tag privé | Lecteur de modèles de tag Data Catalog (roles/datacatalog.tagTemplateViewer ) |
datacatalog.tagTemplates.getTag |
Afficher les tags appliqués aux tables BigQuery | Lecteur de métadonnées BigQuery (roles/bigquery.metadataViewer ) |
bigquery.datasets.get bigquery.tables.get |
Pour en savoir plus sur les rôles Dataplex, consultez la section Rôles permettant d'afficher les balises publiques et privées.
Pour en savoir plus sur l'attribution d'un rôle prédéfini, consultez la section Attribuer un rôle unique. Si vous souhaitez utiliser un rôle personnalisé au lieu d'un rôle prédéfini, assurez-vous qu'il dispose des autorisations appropriées. Pour en savoir plus, consultez Créer un rôle personnalisé.
Trouver le modèle de tag généré
Dans la console Google Cloud, accédez à la page Modèles de tags de Dataplex.
Dans la liste, recherchez le modèle de balise. Pour en savoir plus sur le nom, l'ID et l'emplacement du modèle de balise, consultez la section Détails du modèle de balise.
Facultatif: Pour trouver le modèle de balise généré par une configuration d'analyse de découverte donnée, saisissez ce qui suit dans le champ Filtre:
name:PROJECT_ID.TAG_TEMPLATE_ID
Remplacez les éléments suivants :
- PROJECT_ID: ID du projet associé à la configuration de l'analyse. Si vous avez profilé vos données au niveau de l'organisation ou du dossier, saisissez l'ID de projet du conteneur de l'agent de service.
- TAG_TEMPLATE_ID :
sensitive_data_profile
si la configuration d'analyse concerne une organisation ou un dossier,sensitive_data_profile_project
si la configuration d'analyse concerne un projet.
Trouver la balise générée pour un profil de données de table donné
Dans la console Google Cloud, accédez à la page Recherche de Dataplex.
Dans le champ Rechercher, saisissez ce qui suit:
name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
Remplacez les éléments suivants :
- TABLE_ID: ID de la table profilée.
- PROJECT_ID: ID du projet contenant le modèle de balise. Si vous avez profilé vos données au niveau de l'organisation ou du dossier, saisissez l'ID de projet du conteneur de l'agent de service.
- TAG_TEMPLATE_ID :
sensitive_data_profile
si la configuration d'analyse concerne une organisation ou un dossier,sensitive_data_profile_project
si la configuration d'analyse concerne un projet.
Dans la liste qui s'affiche, cliquez sur l'ID de la table. Les détails de la table BigQuery s'affichent, ainsi que les tags
Sensitive Data Profile
ouSensitive Data Profile (Project)
qui lui sont associés.Une table comporte deux balises si elle a été profilée à l'aide des deux éléments suivants:
- Une configuration d'analyse au niveau de l'organisation ou du dossier
- Une configuration d'analyse au niveau du projet
Pour savoir comment effectuer une recherche via l'API Data Catalog, consultez Rechercher des éléments de données.
Exemples de requêtes de recherche
Cette section fournit des exemples de requêtes de recherche que vous pouvez utiliser dans Dataplex pour rechercher des données dans votre organisation ou votre projet avec des valeurs de balise spécifiques.
Vous ne pouvez trouver que les données auxquelles vous avez accès. L'accès aux données est contrôlé par les autorisations IAM. Pour en savoir plus, consultez la section Rôles et autorisations pour afficher les balises sur cette page.
Vous pouvez saisir ces requêtes sur la page Recherche de Dataplex dans la console Google Cloud.
Pour savoir comment formuler les requêtes, consultez la section Syntaxe de recherche dans Data Catalog. Pour savoir comment effectuer une recherche via l'API Data Catalog, consultez Rechercher des composants de données.
Rechercher toutes les tables taguées à l'aide du nouveau modèle de tag
tag:PROJECT_ID.TAG_TEMPLATE_ID
Remplacez les éléments suivants :
- PROJECT_ID: ID du projet contenant le modèle de balise. Si vous avez profilé vos données au niveau de l'organisation ou du dossier, saisissez l'ID de projet du conteneur de l'agent de service.
- TAG_TEMPLATE_ID :
sensitive_data_profile
si la configuration d'analyse concerne une organisation ou un dossier,sensitive_data_profile_project
si la configuration d'analyse concerne un projet.
Les exemples suivants de cette page n'incluent pas l'ID de projet. Vous pouvez donc obtenir des résultats associés à différentes configurations d'analyse de découverte. Pour limiter vos résultats à une configuration d'analyse spécifique, ajoutez l'ID de projet à la requête, comme illustré dans cet exemple.
Rechercher toutes les tables qui ont été profilées pour la dernière fois avant une date donnée
tag:TAG_TEMPLATE_ID.profile_last_generated<DATE
Remplacez les éléments suivants :
- TAG_TEMPLATE_ID :
sensitive_data_profile
si la configuration d'analyse concerne une organisation ou un dossier,sensitive_data_profile_project
si la configuration d'analyse concerne un projet. - DATE: date au format
YYYY-MM-DD
(par exemple,2023-01-15
).
Rechercher toutes les tables avec un score de sensibilité au niveau de la table donné
tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE
Remplacez les éléments suivants :
- TAG_TEMPLATE_ID :
sensitive_data_profile
si la configuration d'analyse concerne une organisation ou un dossier,sensitive_data_profile_project
si la configuration d'analyse concerne un projet. - SENSITIVITY_SCORE :
HIGH
,MODERATE
, ouLOW
.
Pour en savoir plus, consultez la page Niveaux de sensibilité et de risques liés aux données.
Rechercher toutes les tables avec un niveau de risque de données donné
tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL
Remplacez les éléments suivants :
- TAG_TEMPLATE_ID :
sensitive_data_profile
si la configuration d'analyse concerne une organisation ou un dossier,sensitive_data_profile_project
si la configuration d'analyse concerne un projet. - DATA_RISK_LEVEL :
HIGH
,MODERATE
, ouLOW
.
Pour en savoir plus, consultez la page Niveaux de sensibilité et de risques liés aux données.
Rechercher toutes les tables contenant un infoType prédit donné
tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE
Remplacez les éléments suivants :
- TAG_TEMPLATE_ID :
sensitive_data_profile
si la configuration d'analyse concerne une organisation ou un dossier,sensitive_data_profile_project
si la configuration d'analyse concerne un projet. - INFOTYPE: infoType (par exemple,
PERSON_NAME
)
Pour obtenir la liste de tous les infoTypes intégrés, consultez la documentation de référence sur les détecteurs d'infoTypes.
Pour en savoir plus, consultez infoType prédit dans la documentation de référence sur les métriques.
Rechercher toutes les tables qui contiennent partiellement un infoType donné
tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE
Remplacez les éléments suivants :
- TAG_TEMPLATE_ID :
sensitive_data_profile
si la configuration d'analyse concerne une organisation ou un dossier,sensitive_data_profile_project
si la configuration d'analyse concerne un projet. - INFOTYPE: infoType (par exemple,
PERSON_NAME
)
Pour obtenir la liste de tous les infoTypes intégrés, consultez la documentation de référence sur les détecteurs d'infoTypes.
Pour en savoir plus, consultez la section Autres infoTypes dans la documentation de référence sur les métriques.
Rechercher toutes les tables contenant une colonne donnée avec un infoType prédit donné
tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE
Remplacez les éléments suivants :
- TAG_TEMPLATE_ID :
sensitive_data_profile
si la configuration d'analyse concerne une organisation ou un dossier,sensitive_data_profile_project
si la configuration d'analyse concerne un projet. - COLUMN_NAME: nom de la colonne de la table BigQuery.
- INFOTYPE: infoType (par exemple,
PERSON_NAME
)
Pour obtenir la liste de tous les infoTypes intégrés, consultez la documentation de référence sur les détecteurs d'infoTypes.
Pour en savoir plus, consultez infoType prédit dans la documentation de référence sur les métriques.
Rechercher toutes les tables contenant une colonne donnée avec un score de sensibilité au niveau de la colonne donné
tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE
Remplacez les éléments suivants :
- TAG_TEMPLATE_ID :
sensitive_data_profile
si la configuration d'analyse concerne une organisation ou un dossier,sensitive_data_profile_project
si la configuration d'analyse concerne un projet. - COLUMN_NAME: nom de la colonne de la table BigQuery.
- SENSITIVITY_SCORE :
HIGH
,MODERATE
, ouLOW
.
Pour en savoir plus, consultez la page Niveaux de sensibilité et de risques liés aux données.
Valeurs de tag tronquées
Si les données des titres de colonnes d'une table BigQuery dépassent 10 Mo, la balise résultante peut afficher [TRUNCATED]
dans le champ Column Insights
ou Column
Sensitivity
. Dans ce cas, nous vous recommandons d'accéder à la protection des données sensibles pour examiner le profil des données de la table et les profils de données de colonne associés.