Utiliser la protection des données sensibles pour analyser les données BigQuery

Connaître les emplacements de vos données sensibles est souvent la première action à effectuer pour vous assurer qu'elles sont correctement sécurisées et gérées. Cette information peut réduire le risque d'exposition de détails sensibles tels que les numéros de carte de crédit, les informations médicales, les numéros de sécurité sociale, les numéros de permis de conduire, les adresses, les noms complets et les secrets d'entreprise. Une analyse périodique de vos données peut également vous aider à respecter les exigences de conformité et les bonnes pratiques au fur et à mesure de la croissance et de l'évolution de vos données. Utilisez la protection des données sensibles pour inspecter vos tables BigQuery et protéger vos données sensibles, tout en répondant aux exigences de conformité.

Deux options s'offrent à vous pour analyser vos données BigQuery :

Profilage de données sensibles. La protection des données sensibles peut générer des profils sur les données BigQuery au sein d'une organisation, d'un dossier ou d'un projet. Les profils de données contiennent des métriques et des métadonnées relatives à vos tables, et vous permettent de déterminer l'emplacement des données sensibles et à haut risque. La protection des données sensibles signale ces métriques au niveau du projet, de la table et de la colonne. Pour en savoir plus, consultez la page Profils de données pour les données BigQuery.
Inspection à la demande. La protection des données sensibles peut effectuer une inspection approfondie sur une seule table ou un sous-ensemble de colonnes, puis signaler ses résultats au niveau de la cellule. Ce type d'inspection peut vous aider à identifier des instances individuelles de types de données spécifiques, telles que l'emplacement précis d'un numéro de carte de crédit dans une cellule de table. Vous pouvez effectuer une inspection à la demande via la page "Protection des données sensibles" ou la page BigQuery de la console Google Cloud, ou de manière automatisée via l'API DLP.

Cette page explique comment effectuer une inspection à la demande via la page BigQuery de la console Google Cloud.

La protection des données sensibles est un service entièrement géré qui permet aux clients Google Cloud d'identifier et de protéger les données sensibles à grande échelle. La protection des données sensibles utilise plus de 150 détecteurs prédéfinis pour identifier les modèles, les formats et les sommes de contrôle. La protection des données sensibles fournit également un ensemble d'outils permettant d'anonymiser vos données, y compris le masquage, la tokenisation, la pseudonymisation, le décalage de date, etc., sans répliquer les données des clients.

Pour en savoir plus sur la protection des données sensibles, consultez la documentation sur la protection des données sensibles.

Avant de commencer

Familiarisez-vous avec les tarifs de la protection des données sensibles et découvrez comment maîtriser les coûts liés à la protection des données sensibles.
Activez l'API DLP.

Activer l'API
Assurez-vous que l'utilisateur qui va créer vos jobs de protection des données sensibles dispose d'un rôle IAM prédéfini approprié pour la protection des données sensibles, ou qu'il dispose des autorisations suffisantes pour exécuter des jobs de protection des données sensibles.

Analyser les données BigQuery à l'aide de la console Google Cloud

Pour analyser des données BigQuery, créez un job de protection des données sensibles qui analyse une table. Vous pouvez analyser rapidement une table BigQuery à l'aide de l'option Analyser avec la protection des données sensibles, accessible dans la console Google Cloud pour BigQuery.

Pour analyser une table BigQuery à l'aide de la protection des données sensibles :

Dans la console Google Cloud, accédez à la page "BigQuery".

Accéder à BigQuery
Dans le panneau Explorateur, développez votre projet et votre ensemble de données, puis sélectionnez la table.
Cliquez sur Exporter > Analyser avec la protection des données sensibles. La page de création de job de protection des données sensibles s'ouvre dans un nouvel onglet.
Pour l'étape 1 : Choisir les données d'entrée, saisissez un ID de tâche. Les valeurs de la section Emplacement sont générées automatiquement. De plus, la section Échantillonnage est configurée automatiquement pour exécuter un exemple d'analyse sur vos données, mais vous pouvez ajuster les paramètres si nécessaire.
Cliquez sur Continuer.
Facultatif : pour l'étape 2 : Configurer la détection, vous pouvez configurer les types de données à rechercher, appelés infoTypes.

Effectuez l'une des opérations suivantes :
- Pour effectuer votre sélection dans la liste des infoTypes prédéfinis, cliquez sur Gérer les infoTypes. Sélectionnez ensuite les infoTypes que vous souhaitez rechercher.
- Pour utiliser un modèle d'inspection existant, saisissez le nom complet de la ressource dans le champ Nom du modèle.
Pour plus d'informations sur les infoTypes, consultez la page InfoTypes et détecteurs d'InfoTypes dans la documentation sur la protection des données sensibles.
Cliquez sur Continuer.
Facultatif : pour l'étape 3 : Ajouter des actions, activez l'option Enregistrer dans BigQuery pour publier vos résultats de protection des données sensibles dans une table BigQuery. Si vous ne stockez pas les résultats, la tâche terminée ne contient que des statistiques sur le nombre de résultats et leurs infoTypes. L'enregistrement des résultats dans BigQuery conserve des informations détaillées sur l'emplacement exact et la fiabilité de chaque résultat.
Facultatif : si vous avez activé l'option Enregistrer dans BigQuery, saisissez les informations suivantes dans la section Enregistrer dans BigQuery :
- ID du projet : identifiant du projet dans lequel vos résultats sont stockés.
- ID de l'ensemble de données : nom de l'ensemble de données qui stocke vos résultats.
- Facultatif : ID de la table : nom de la table qui stocke vos résultats. Si aucun ID de table n'est spécifié, un nom par défaut est attribué à une nouvelle table, comme dans l'exemple suivant : dlp_googleapis_date_1234567890. Si vous spécifiez un nom de table existante, les résultats y sont ajoutés.
Pour inclure le contenu réel détecté, activez l'option Inclure les guillemets.
Cliquez sur Continuer.
Facultatif : pour l'étape 4 : Programmer, configurez une période ou une programmation en sélectionnant Spécifier la période ou Créer un déclencheur pour exécuter la tâche selon une programmation régulière.
Cliquez sur Continuer.
Facultatif : sur la page Vérifier, examinez les détails de votre tâche. Si nécessaire, ajustez les paramètres précédents.
Cliquez sur Créer.
Une fois le job de protection des données sensibles terminé, vous êtes redirigé vers la page des informations sur le job, et recevez une notification par e-mail. Vous pouvez afficher les résultats de l'analyse sur la page de détails du job, ou bien cliquer dans l'e-mail de fin de job sur le lien vers la page de détails du job de protection des données sensibles.
Si vous avez choisi de publier les résultats de la protection des données sensibles dans BigQuery, dans la page Informations sur le job, cliquez sur Afficher les résultats dans BigQuery pour ouvrir la table dans la console Google Cloud. Vous pouvez ensuite interroger la table et analyser vos résultats. Pour en savoir plus sur l'interrogation de vos résultats dans BigQuery, consultez la page Interroger les résultats de la protection des données sensibles dans BigQuery dans la documentation sur la protection des données sensibles.

Étapes suivantes

Découvrez comment inspecter les données sensibles présentes sur BigQuery et d'autres dépôts de stockage à l'aide de la protection des données sensibles.
Découvrez comment profiler les données d'une organisation, d'un dossier ou d'un projet.
Lisez l'article de blog "Identité et sécurité" Prendre le contrôle de vos données : utiliser la protection des données sensibles pour anonymiser et obscurcir des informations sensibles.

Consultez les pages suivantes, si vous souhaitez masquer ou anonymiser d'une autre manière des données sensibles détectées par l'analyse de protection des données sensibles :

Inspecter du texte pour supprimer l'identification des informations sensibles
Anonymiser les données sensibles dans la documentation sur la protection des données sensibles
Concepts du chiffrement AEAD en langage GoogleSQL pour plus d'informations sur le chiffrement de valeurs individuelles dans une table
Protéger des données avec des clés Cloud KMS pour plus d'informations sur la création et la gestion de vos propres clés de chiffrement dans Cloud KMS afin de chiffrer les tables BigQuery