Cette page explique comment la protection des données sensibles peut créer des copies anonymisées des données stockées dans Cloud Storage. Il présente également les limites de cette opération et les points à prendre en compte avant de commencer.
Pour découvrir comment utiliser la protection des données sensibles afin de créer des copies anonymisées de vos données Cloud Storage, consultez les pages suivantes:
- Créer des copies anonymisées des données stockées dans Cloud Storage à l'aide de la console Google Cloud
- Créer des copies anonymisées des données stockées dans Cloud Storage à l'aide de l'API
À propos de l'anonymisation
L'anonymisation est le processus qui consiste à éliminer les informations personnelles contenues dans les données. Son objectif est de permettre l'utilisation et le partage d'informations personnelles, telles que des informations de santé, financières ou démographiques, tout en respectant les exigences de confidentialité. Pour en savoir plus sur l'anonymisation, consultez la page Supprimer l'identification des données sensibles.
Pour en savoir plus sur les transformations d'anonymisation dans la protection des données sensibles, consultez la documentation de référence sur les transformations. Pour en savoir plus sur la manière dont la protection des données sensibles masque les données sensibles des images, consultez Inspection et masquage des images.
Quand utiliser cette fonctionnalité ?
Cette fonctionnalité est utile si les fichiers que vous utilisez dans le cadre de vos activités commerciales contiennent des données sensibles, telles que des informations personnelles. Cette fonctionnalité vous permet d'utiliser et de partager des informations dans le cadre de vos processus métier, tout en protégeant les données sensibles.
Processus d'anonymisation
Cette section décrit le processus d'anonymisation des contenus Cloud Storage dans le cadre de la protection des données sensibles.
Pour utiliser cette fonctionnalité, vous devez créer une tâche d'inspection (DlpJob
) configurée pour créer des copies anonymisées des fichiers Cloud Storage.
La protection des données sensibles analyse les fichiers à l'emplacement spécifié en les inspectant en fonction de votre configuration. Lors de l'inspection de chaque fichier, le service de protection des données sensibles anonymise les données qui correspondent à vos critères, puis écrit le contenu dans un nouveau fichier. Le nouveau fichier a toujours le même nom que le fichier d'origine.
Il stocke ce nouveau fichier dans un répertoire de sortie que vous spécifiez. Si un fichier est inclus dans votre analyse, mais qu'aucune donnée ne correspond à vos critères d'anonymisation et qu'il n'y a pas d'erreur lors de son traitement, le fichier est copié tel quel dans le répertoire de sortie.
Le répertoire de sortie que vous définissez doit se trouver dans un bucket Cloud Storage différent de celui contenant vos fichiers d'entrée. Dans votre répertoire de sortie, la protection des données sensibles crée une structure de fichiers qui reflète celle du répertoire d'entrée.
Par exemple, supposons que vous définissiez les répertoires d'entrée et de sortie suivants:
- Répertoire d'entrée:
gs://input-bucket/folder1/folder1a
- Répertoire de sortie:
gs://output-bucket/output-directory
Pendant l'anonymisation, la protection des données sensibles stocke les fichiers anonymisés dans gs://output-bucket/output-directory/folder1/folder1a
.
Si le répertoire de sortie comporte un fichier portant le même nom qu'un fichier anonymisé, ce fichier est écrasé. Si vous ne souhaitez pas que les fichiers existants soient écrasés, modifiez le répertoire de sortie avant d'exécuter cette opération. Vous pouvez également envisager d'activer la gestion des versions des objets sur le bucket de sortie.
Les listes de contrôle d'accès (LCA) des fichiers d'origine sont copiées dans les nouveaux fichiers, que des données sensibles aient été détectées ou anonymisées. Toutefois, si le bucket de sortie n'est configuré que pour des autorisations uniformes au niveau du bucket, et non pour des autorisations précises (au niveau de l'objet), les LCA ne sont pas copiées dans les fichiers anonymisés.
Le schéma suivant illustre le processus d'anonymisation pour quatre fichiers stockés dans un bucket Cloud Storage. Chaque fichier est copié, que la protection des données sensibles détecte ou non des données sensibles. Chaque fichier copié porte le même nom que l'original.
Tarification
Pour en savoir plus sur les tarifs, consultez la section Inspection et transformation des données dans l'espace de stockage.
Types de fichiers compatibles
La protection des données sensibles peut anonymiser les groupes de types de fichiers suivants:
- CSV
- Images
- Texte
- TSV
Comportement d'anonymisation par défaut
Si vous souhaitez définir la manière dont la protection des données sensibles transforme les résultats, vous pouvez fournir des modèles d'anonymisation pour les types de fichiers suivants:
- Fichiers non structurés, tels que les fichiers texte au format libre
- Fichiers structurés, tels que des fichiers CSV
- Images
Si vous ne fournissez aucun modèle d'anonymisation, la protection des données sensibles transforme les résultats comme suit:
- Dans les fichiers structurés et non structurés, la protection des données sensibles remplace tous les résultats par l'infoType correspondant, comme décrit dans la section Remplacement des infoTypes.
- Dans les images, la protection des données sensibles couvre tous les résultats avec une boîte noire.
Limites et points à noter
Tenez compte des points suivants avant de créer des copies anonymisées des données Cloud Storage.
Espace disque
Cette opération n'est compatible qu'avec le contenu stocké dans Cloud Storage.
Cette opération crée une copie de chaque fichier pendant que la protection des données sensibles l'examine. Elle ne modifie ni ne supprime le contenu original. Les données copiées occuperont à peu près la même quantité d'espace disque supplémentaire que les données d'origine.
Accès en écriture à l'espace de stockage
Étant donné que la protection des données sensibles crée une copie des fichiers d'origine, l'agent de service de votre projet doit disposer d'un accès en écriture sur le bucket de sortie Cloud Storage.
Échantillonnage et définition des limites de résultats
Cette opération n'est pas compatible avec l'échantillonnage. Plus précisément, vous ne pouvez pas limiter la quantité de chaque fichier analysée ou anonymisée par la protection des données sensibles. Autrement dit, si vous utilisez l'API Cloud Data Loss Prevention, vous ne pouvez pas utiliser bytesLimitPerFile
et bytesLimitPerFilePercent
dans l'objet CloudStorageOptions
de votre DlpJob
.
De plus, vous ne pouvez pas contrôler le nombre maximal de résultats à renvoyer.
Si vous utilisez l'API DLP, vous ne pouvez pas définir d'objet FindingLimits
dans le fichier DlpJob
.
Exigence d'inspecter les données
Lors de l'exécution de votre tâche d'inspection, la protection des données sensibles inspecte d'abord les données, en fonction de votre configuration d'inspection, avant de procéder à l'anonymisation. Il ne peut pas ignorer le processus d'inspection.
Obligatoire pour l'utilisation des extensions de fichier
La protection des données sensibles s'appuie sur les extensions de fichiers pour identifier les types de fichiers présents dans votre répertoire d'entrée. Il ne peut pas anonymiser les fichiers sans extension de fichier, même s'ils sont d'un type compatible.
Fichiers ignorés
Lors de l'anonymisation des fichiers dans un espace de stockage, la protection des données sensibles ignore les fichiers suivants:
- Fichiers de plus de 60 000 Ko. Si vous avez des fichiers volumineux qui dépassent cette limite, envisagez de les diviser en fragments plus petits.
- Fichiers de types non compatibles. Pour obtenir la liste des types de fichiers compatibles, consultez la section Types de fichiers compatibles sur cette page.
- Types de fichiers que vous avez volontairement exclus de la configuration d'anonymisation. Si vous utilisez l'API DLP, les types de fichiers que vous avez exclus du champ
file_types_to_transform
de l'actionDeidentify
de votreDlpJob
sont ignorés. - Fichiers ayant rencontré des erreurs de transformation.
Ordre des lignes de sortie dans les tables anonymisées
Il n'y a aucune garantie que l'ordre des lignes dans une table anonymisée corresponde à celui de la table d'origine. Si vous souhaitez comparer la table d'origine à la table anonymisée, vous ne pouvez pas vous fier au numéro de ligne pour identifier les lignes correspondantes. Si vous avez l'intention de comparer les lignes des tables, vous devez utiliser un identifiant unique pour identifier chaque enregistrement.
Touches temporaires
Si vous choisissez une méthode cryptographique comme méthode de transformation, vous devez d'abord créer une clé encapsulée à l'aide de Cloud Key Management Service. Fournissez ensuite cette clé dans votre modèle d'anonymisation. Les clés temporaires (brutes) ne sont pas acceptées.
Étapes suivantes
- Découvrez comment anonymiser les données sensibles stockées dans Cloud Storage à l'aide de l'API DLP.
- Découvrez comment anonymiser les données sensibles stockées dans Cloud Storage à l'aide de la console Google Cloud.
- Suivez l'atelier de programmation Créer une copie anonymisée de données dans Cloud Storage.
- Découvrez comment inspecter le stockage des données sensibles.