Cloud Data Loss Prevention (Cloud DLP) fait désormais partie de la protection des données sensibles. Le nom de l'API reste le même: API Cloud Data Loss Prevention (API DLP). Pour en savoir plus sur les services qui composent la protection des données sensibles, consultez Présentation de la protection des données sensibles.

En savoir plus sur vos données grâce à la découverte et à l'inspection

Cette page décrit et compare deux services de protection des données sensibles qui vous aident à comprendre vos données et à activer les workflows de gouvernance des données: le service de découverte et le service d'inspection.

Découverte de données sensibles

Le service de découverte surveille les éléments de données de votre organisation. Ce service s'exécute en continu et automatiquement pour découvrir, classer et profiler les éléments de données. La détection peut vous aider à comprendre l'emplacement et la nature des données que vous stockez, y compris des éléments de données dont vous n'avez peut-être pas connaissance. Les données inconnues (parfois appelées données fictives) ne sont généralement pas soumises au même niveau de gouvernance des données et de gestion des risques que les données connues.

Vous pouvez configurer la détection au niveau de l'organisation, d'un dossier ou d'un projet. Vous pouvez définir différentes programmations de profilage pour différents sous-ensembles de données. Vous pouvez également exclure des sous-ensembles de données que vous n'avez pas besoin de profiler.

Résultat de l'analyse de découverte: profils de données

Le résultat d'une analyse de découverte est un ensemble de profils de données pour chaque élément de données concerné. Par exemple, une analyse de découverte des données BigQuery ou Cloud SQL génère des profils de données au niveau du projet, de la table et des colonnes.

Un profil de données contient des métriques et des insights sur la ressource profilée. Il inclut les classifications (ou infoTypes), les niveaux de sensibilité, les niveaux de risque lié aux données, la taille et la forme des données, ainsi que d'autres éléments qui décrivent la nature des données et leur stratégie de sécurité des données (leur niveau de sécurité). Vous pouvez utiliser des profils de données pour prendre des décisions éclairées sur la protection de vos données, par exemple en définissant des stratégies d'accès sur la table.

Prenons l'exemple d'une colonne BigQuery appelée ccn, dans laquelle chaque ligne contient un numéro de carte de crédit unique et aucune valeur nulle. Le profil de données généré au niveau de la colonne présente les informations suivantes:

Nom à afficher	Valeur
`Field ID`	`ccn`
`Data risk`	`High`
`Sensitivity`	`High`
`Data type`	`TYPE_STRING`
`Policy tags`	`No`
`Free text score`	`0`
`Estimated uniqueness`	`High`
`Estimated null proportion`	`Very low`
`Last profile generated`	`DATE_TIME`
`Predicted infoType`	`CREDIT_CARD_NUMBER`

De plus, ce profil au niveau des colonnes fait partie d'un profil au niveau de la table, qui fournit des informations telles que l'emplacement des données, l'état du chiffrement et si la table est partagée publiquement. Dans la console Google Cloud, vous pouvez également afficher les entrées Cloud Logging de la table, les comptes principaux IAM disposant de rôles pour la table et les tags Dataplex associés à la table.

Pour obtenir la liste complète des métriques et des insights disponibles dans les profils de données, consultez la documentation de référence sur les métriques.

Quand utiliser la détection

Lorsque vous planifiez votre approche de gestion des risques liés aux données, nous vous recommandons de commencer par la découverte. Le service de découverte vous aide à obtenir une vue d'ensemble de vos données et à activer l'alerte, la création de rapports et la correction des problèmes.

En outre, le service de découverte peut vous aider à identifier les ressources où peuvent résider les données non structurées. Ces ressources peuvent justifier une inspection exhaustive. Les données non structurées sont spécifiées par une score de texte libre élevée sur une échelle de 0 à 1.

Inspection des données sensibles

Le service d'inspection effectue une analyse exhaustive d'une seule ressource pour localiser chaque instance de données sensibles. Une inspection produit un résultat pour chaque instance détectée.

Les tâches d'inspection fournissent un ensemble complet d'options de configuration pour vous aider à identifier les données que vous souhaitez inspecter. Par exemple, vous pouvez activer l'échantillonnage afin de limiter les données à inspecter à un certain nombre de lignes (pour les données BigQuery) ou à certains types de fichiers (pour les données Cloud Storage). Vous pouvez également cibler une période spécifique au cours de laquelle les données ont été créées ou modifiées.

Contrairement à la détection, qui surveille en permanence vos données, une inspection est une opération à la demande. Toutefois, vous pouvez planifier des tâches d'inspection récurrentes appelées déclencheurs de tâches.

Résultat de l'analyse d'inspection: résultats

Chaque résultat inclut des détails tels que l'emplacement de l'instance détectée, son infoType potentiel et la probabilité (également appelée probabilité) que le résultat corresponde à l'infoType. En fonction de vos paramètres, vous pouvez également obtenir la chaîne à laquelle le résultat se rapporte. Cette chaîne est appelée guillemet dans la protection des données sensibles.

Pour obtenir la liste complète des détails inclus dans un résultat d'inspection, consultez Finding.

Quand utiliser l'inspection ?

Une inspection est utile lorsque vous devez examiner des données non structurées (comme des commentaires ou des avis créés par des utilisateurs) et identifier chaque instance d'informations permettant d'identifier personnellement l'utilisateur. Si une analyse de découverte identifie des ressources contenant des données non structurées, nous vous recommandons d'exécuter une analyse d'inspection sur ces ressources pour obtenir des détails sur chaque résultat.

Cas dans lesquels l'inspection ne doit pas être utilisée

L'inspection d'une ressource n'est pas utile si les deux conditions suivantes s'appliquent. Une analyse de découverte peut vous aider à décider si une analyse d'inspection est nécessaire.

La ressource ne contient que des données structurées. En d'autres termes, il n'y a pas de colonne de données de forme libre, comme les commentaires ou les avis des utilisateurs.
Vous connaissez déjà les infoTypes stockés dans cette ressource.

Par exemple, supposons que les profils de données d'une analyse de découverte indiquent qu'une certaine table BigQuery ne comporte pas de colonnes avec des données non structurées, mais comporte une colonne de numéros de carte de crédit uniques. Dans ce cas, l'inspection des numéros de carte de crédit du tableau n'est pas utile. Une inspection produira un résultat pour chaque élément de la colonne. Si vous avez un million de lignes et que chaque ligne contient un numéro de carte de crédit, une tâche d'inspection produira un million de résultats pour l'infoType CREDIT_CARD_NUMBER. Dans cet exemple, l'inspection n'est pas nécessaire, car l'analyse de découverte indique déjà que la colonne contient des numéros de carte de crédit uniques.

Résidence, traitement et stockage des données

La découverte et l'inspection répondent aux exigences de résidence des données:

Le service de découverte traite vos données là où elles résident et stocke les profils de données générés dans la même région ou l'emplacement multirégional que les données profilées. Pour en savoir plus, consultez la section Considérations relatives à la résidence des données.
Lors de l'inspection de données au sein d'un système de stockage Google Cloud, le service d'inspection traite vos données dans la même région que celle où elles se trouvent et stocke le job d'inspection dans cette région. Lorsque vous inspectez des données via une tâche hybride ou via une méthode content, le service d'inspection vous permet de spécifier l'emplacement où il doit traiter vos données. Pour en savoir plus, consultez la section Mode de stockage des données.

Résumé du comparatif: services de découverte et d'inspection

	Découverte	Inspection
Avantages	Visibilité continue sur l’ensemble d’une organisation, d’un dossier ou d’un projet Permet d'identifier les ressources contenant des données sensibles, à haut risque et non structurées. Pour obtenir la liste complète des insights, consultez la documentation de référence sur les métriques. Permet de découvrir des données inconnues (ou _shadow data_).	Inspection à la demande d'une seule ressource Identifie chaque instance de données sensibles dans la ressource inspectée.
Coût	Estimation des coûts: gratuit Mode de consommation: 0,03$par Go ou prix de 3 To, selon le montant le plus bas Mode d'abonnement (capacité réservée): 2 500$par unité d'abonnement 10 To coûtent environ 300 US$par mois en mode Consommation.	Jusqu'à 1 Go: gratuit De 1 Go à 50 To: 1,00$par Go De 50 To à 500 To: 0,75$par Go Plus de 500 To: 0,60$par Go 10 To coûtent environ 10 000 US$par analyse.
Sources de données prises en charge	BigQuery Variables d'environnement Cloud Functions Cloud SQL	BigQuery Cloud Storage Datastore Hybride (toutes sources)¹
Champs d'application compatibles	Organisation, dossier, projet	Une seule table BigQuery, un bucket Cloud Storage ou un genre Datastore.
Modèles d'inspection intégrés	Oui	Oui
infoTypes intégrés et personnalisés ;	Oui	Oui
Résultat de l'analyse	Présentation générale (profils de données) de toutes les données compatibles dans votre organisation, dossier ou projet	Résultats concrets des données sensibles dans la ressource inspectée
Enregistrer les résultats dans BigQuery	Oui	Oui
Envoyer à Dataplex sous forme de tags	Yes	Yes
Publier les résultats dans Security Command Center	Yes	Yes
Publier les résultats dans Chronicle	Oui pour la détection au niveau de l'organisation et du dossier	Non
Publier dans Pub/Sub	Yes	Oui
Assistance pour la résidence des données	Yes	Yes

¹ L'inspection hybride a un modèle de tarification différent. Pour en savoir plus, consultez la section Inspection des données depuis n'importe quelle source .

Étapes suivantes

Découvrez les stratégies recommandées pour atténuer les risques liés aux données (prochain document de cette série).