Cette page décrit et compare deux services de protection des données sensibles qui vous aident à comprendre vos données et à activer les workflows de gouvernance des données: le service de découverte et le service d'inspection.
Découverte de données sensibles
Le service de détection surveille les données de votre organisation. Ce service s'exécute en continu et détecte, classe et profile automatiquement les données. La découverte peut vous aider à comprendre l'emplacement et la nature des données que vous stockez, y compris les ressources de données dont vous n'êtes peut-être pas au courant. Les données inconnues (parfois appelées données fantômes) ne font généralement pas l'objet du même niveau de gouvernance et de gestion des risques que les données connues.
Vous configurez la découverte à différents niveaux. Vous pouvez définir des calendriers de profilage différents pour différents sous-ensembles de vos données. Vous pouvez également exclure des sous-ensembles de données que vous n'avez pas besoin de profiler.
Résultat de l'analyse de découverte: profils de données
La sortie d'une analyse de découverte est un ensemble de profils de données pour chaque ressource de données concernée. Par exemple, une analyse de découverte des données BigQuery ou Cloud SQL génère des profils de données au niveau du projet, de la table et des colonnes.
Un profil de données contient des métriques et des insights sur la ressource profilée. Il comprend les classifications des données (ou infoTypes), les niveaux de sensibilité, les niveaux de risque des données, la taille des données, la forme des données et d'autres éléments qui décrivent la nature des données et leur positionnement en matière de sécurité des données (niveau de sécurité des données). Vous pouvez utiliser des profils de données pour prendre des décisions éclairées sur la façon de protéger vos données, par exemple en définissant des règles d'accès sur le tableau.
Prenons l'exemple d'une colonne BigQuery appelée ccn
, dans laquelle chaque ligne contient un numéro de carte de crédit unique et qu'il n'y a pas de valeurs nulles. Le profil de données au niveau des colonnes généré comporte les informations suivantes:
Nom à afficher | Valeur |
---|---|
Field ID |
ccn |
Data risk |
High |
Sensitivity |
High |
Data type |
TYPE_STRING |
Policy tags |
No |
Free text score |
0 |
Estimated uniqueness |
High |
Estimated null proportion |
Very low |
Last profile generated |
DATE_TIME |
Predicted infoType |
CREDIT_CARD_NUMBER |
De plus, ce profil au niveau de la colonne fait partie d'un profil au niveau de la table, qui fournit des insights tels que l'emplacement des données, l'état du chiffrement et si la table est partagée publiquement. Dans la console Google Cloud , vous pouvez également afficher les entrées Cloud Logging pour le tableau, les principaux IAM avec des rôles pour le tableau et les balises Dataplex associées au tableau.
Pour obtenir la liste complète des métriques et des insights disponibles dans les profils de données, consultez la documentation de référence sur les métriques.
Quand utiliser la découverte ?
Lorsque vous planifiez votre approche de gestion des risques liés aux données, nous vous recommandons de commencer par la découverte. Le service de découverte vous aide à obtenir une vue d'ensemble de vos données et à envoyer des alertes, à créer des rapports et à corriger les problèmes.
De plus, le service de découverte peut vous aider à identifier les ressources dans lesquelles les données non structurées peuvent se trouver. Ces ressources peuvent justifier une inspection exhaustive. Les données non structurées sont spécifiées par un score de texte libre élevé sur une échelle de 0 à 1.
Inspection des données sensibles
Le service d'inspection effectue une analyse exhaustive d'une seule ressource pour localiser chaque instance individuelle de données sensibles. Une inspection génère un résultat pour chaque instance détectée.
Les jobs d'inspection fournissent un ensemble complet d'options de configuration pour vous aider à identifier les données que vous souhaitez inspecter. Par exemple, vous pouvez activer l'échantillonnage pour limiter les données à inspecter à un certain nombre de lignes (pour les données BigQuery) ou à certains types de fichiers (pour les données Cloud Storage). Vous pouvez également cibler une période spécifique au cours de laquelle les données ont été créées ou modifiées.
Contrairement à la découverte, qui surveille en permanence vos données, une inspection est une opération à la demande. Toutefois, vous pouvez planifier des tâches d'inspection récurrentes appelées déclencheurs de tâche.
Résultats de l'analyse d'inspection
Chaque résultat inclut des informations telles que l'emplacement de l'instance détectée, son infoType potentiel et la certitude (également appelée probabilité) que le résultat correspond à l'infoType. Selon vos paramètres, vous pouvez également obtenir la chaîne réelle à laquelle la découverte se rapporte. Cette chaîne est appelée citation dans la protection des données sensibles.
Pour obtenir la liste complète des informations incluses dans un résultat d'inspection, consultez Finding
.
Quand utiliser l'inspection ?
Une inspection est utile lorsque vous devez examiner des données non structurées (comme des commentaires ou des avis créés par les utilisateurs) et identifier chaque instance d'informations permettant d'identifier personnellement l'utilisateur. Si une analyse de découverte identifie des ressources contenant des données non structurées, nous vous recommandons d'exécuter une analyse d'inspection sur ces ressources afin d'obtenir des informations sur chaque résultat.
Cas pour lesquels l'inspection n'est pas recommandée
L'inspection d'une ressource n'est pas utile si les deux conditions suivantes s'appliquent. Une analyse de découverte peut vous aider à décider si une analyse d'inspection est nécessaire.
- La ressource ne contient que des données structurées. Autrement dit, il n'y a pas de colonnes de données de format libre, comme les commentaires ou les avis des utilisateurs.
- Vous connaissez déjà les infoTypes stockés dans cette ressource.
Par exemple, supposons que les profils de données d'une analyse de découverte indiquent qu'une table BigQuery ne comporte pas de colonnes contenant des données non structurées, mais une colonne de numéros de carte de crédit uniques. Dans ce cas, il n'est pas utile d'inspecter les numéros de carte de crédit dans le tableau. Une inspection génère un résultat pour chaque élément de la colonne. Si vous avez un million de lignes et que chaque ligne contient un numéro de carte de crédit, une tâche d'inspection produira un million de résultats pour l'infoType CREDIT_CARD_NUMBER
. Dans cet exemple, l'inspection n'est pas nécessaire, car l'analyse de découverte indique déjà que la colonne contient des numéros de carte de crédit uniques.
Résidence, traitement et stockage des données
La découverte et l'inspection sont compatibles avec les exigences de résidence des données:
- Le service de détection traite vos données là où elles se trouvent et stocke les profils de données générés dans la même région ou la même zone multirégionale que les données profilées. Pour en savoir plus, consultez la section Considérations relatives à la résidence des données.
- Lorsque vous inspectez des données dans un système de stockage Google Cloud , le service d'inspection traite vos données dans la même région que celle où elles se trouvent et stocke la tâche d'inspection dans cette région. Lorsque vous inspectez des données via une tâche hybride ou une méthode
content
, le service d'inspection vous permet de spécifier où il doit traiter vos données. Pour en savoir plus, consultez Comment les données sont stockées.
Résumé des comparaisons: services de découverte et d'inspection
Discovery | Inspection | |
---|---|---|
Avantages |
|
|
Coût |
10 To coûtent environ 300 USD par mois en mode Consommation. |
10 To coûtent environ 10 000$par analyse. |
Sources de données prises en charge | BigLake BigQuery Variables d'environnement des fonctions Cloud Run Variables d'environnement de la révision du service Cloud Run Cloud SQL Cloud Storage Vertex AI (Preview) Amazon S3 |
BigQuery Cloud Storage Datastore Hybride (n'importe quelle source)1 |
Champs d'application acceptés |
|
Une seule table BigQuery, un seul bucket Cloud Storage ou un seul genre Datastore. |
Modèles d'inspection intégrés | Oui | Oui |
InfoTypes intégrés et personnalisés | Oui | Oui |
Résultat de l'analyse | Vue d'ensemble (profils de données) de toutes les données compatibles. | Résultats concrets de données sensibles dans la ressource inspectée |
Enregistrer les résultats dans BigQuery | Oui | Oui |
Envoyer à Dataplex sous forme de tags | Oui | Oui |
Publier les résultats dans Security Command Center | Oui | Oui |
Publier les résultats dans Google Security Operations | Oui pour la découverte au niveau de l'organisation et du dossier | Non |
Publier dans Pub/Sub | Oui | Oui |
Compatibilité avec la résidence des données | Oui | Oui |
1 L'inspection hybride a un modèle de tarification différent. Pour en savoir plus, consultez la section Inspection des données provenant de n'importe quelle source .
Étape suivante
- Découvrez les stratégies recommandées pour atténuer les risques liés aux données (document suivant de cette série).