Anonymiser les données Cloud Storage sensibles

Cette page explique comment la protection des données sensibles peut créer des copies anonymisées des données stockées dans Cloud Storage. Il présente également les limites de cette opération et les points à prendre en compte avant de commencer.

Pour découvrir comment utiliser la protection des données sensibles afin de créer des copies anonymisées de vos données Cloud Storage, consultez les pages suivantes:

À propos de l'anonymisation

L'anonymisation est le processus qui consiste à éliminer les informations personnelles contenues dans les données. Son objectif est de permettre l'utilisation et le partage d'informations personnelles, telles que des informations de santé, financières ou démographiques, tout en respectant les exigences de confidentialité. Pour en savoir plus sur l'anonymisation, consultez la page Supprimer l'identification des données sensibles.

Pour en savoir plus sur les transformations d'anonymisation dans la protection des données sensibles, consultez la documentation de référence sur les transformations. Pour en savoir plus sur la manière dont la protection des données sensibles masque les données sensibles des images, consultez Inspection et masquage des images.

Quand utiliser cette fonctionnalité ?

Cette fonctionnalité est utile si les fichiers que vous utilisez dans le cadre de vos activités commerciales contiennent des données sensibles, telles que des informations personnelles. Cette fonctionnalité vous permet d'utiliser et de partager des informations dans le cadre de vos processus métier, tout en protégeant les données sensibles.

Processus d'anonymisation

Cette section décrit le processus d'anonymisation des contenus Cloud Storage dans le cadre de la protection des données sensibles.

Pour utiliser cette fonctionnalité, vous devez créer une tâche d'inspection (DlpJob) configurée pour créer des copies anonymisées des fichiers Cloud Storage. La protection des données sensibles analyse les fichiers à l'emplacement spécifié en les inspectant en fonction de votre configuration. Lors de l'inspection de chaque fichier, le service de protection des données sensibles anonymise les données qui correspondent à vos critères, puis écrit le contenu dans un nouveau fichier. Le nouveau fichier a toujours le même nom que le fichier d'origine. Il stocke ce nouveau fichier dans un répertoire de sortie que vous spécifiez. Si un fichier est inclus dans votre analyse, mais qu'aucune donnée ne correspond à vos critères d'anonymisation et qu'il n'y a pas d'erreur lors de son traitement, le fichier est copié tel quel dans le répertoire de sortie.

Le répertoire de sortie que vous définissez doit se trouver dans un bucket Cloud Storage différent de celui contenant vos fichiers d'entrée. Dans votre répertoire de sortie, la protection des données sensibles crée une structure de fichiers qui reflète celle du répertoire d'entrée.

Par exemple, supposons que vous définissiez les répertoires d'entrée et de sortie suivants:

  • Répertoire d'entrée: gs://input-bucket/folder1/folder1a
  • Répertoire de sortie: gs://output-bucket/output-directory

Pendant l'anonymisation, la protection des données sensibles stocke les fichiers anonymisés dans gs://output-bucket/output-directory/folder1/folder1a.

Si le répertoire de sortie comporte un fichier portant le même nom qu'un fichier anonymisé, ce fichier est écrasé. Si vous ne souhaitez pas que les fichiers existants soient écrasés, modifiez le répertoire de sortie avant d'exécuter cette opération. Vous pouvez également envisager d'activer la gestion des versions des objets sur le bucket de sortie.

Les listes de contrôle d'accès (LCA) des fichiers d'origine sont copiées dans les nouveaux fichiers, que des données sensibles aient été détectées ou anonymisées. Toutefois, si le bucket de sortie n'est configuré que pour des autorisations uniformes au niveau du bucket, et non pour des autorisations précises (au niveau de l'objet), les LCA ne sont pas copiées dans les fichiers anonymisés.

Le schéma suivant illustre le processus d'anonymisation pour quatre fichiers stockés dans un bucket Cloud Storage. Chaque fichier est copié, que la protection des données sensibles détecte ou non des données sensibles. Chaque fichier copié porte le même nom que l'original.

Anonymiser les fichiers stockés dans Cloud Storage
Anonymisation des fichiers stockés dans Cloud Storage (cliquez pour agrandir).

Tarification

Pour en savoir plus sur les tarifs, consultez la section Inspection et transformation des données dans l'espace de stockage.

Types de fichiers compatibles

La protection des données sensibles peut anonymiser les groupes de types de fichiers suivants:

  • CSV
  • Images
  • Texte
  • TSV

Comportement d'anonymisation par défaut

Si vous souhaitez définir la manière dont la protection des données sensibles transforme les résultats, vous pouvez fournir des modèles d'anonymisation pour les types de fichiers suivants:

  • Fichiers non structurés, tels que les fichiers texte au format libre
  • Fichiers structurés, tels que des fichiers CSV
  • Images

Si vous ne fournissez aucun modèle d'anonymisation, la protection des données sensibles transforme les résultats comme suit:

  • Dans les fichiers structurés et non structurés, la protection des données sensibles remplace tous les résultats par l'infoType correspondant, comme décrit dans la section Remplacement des infoTypes.
  • Dans les images, la protection des données sensibles couvre tous les résultats avec une boîte noire.

Limites et points à noter

Tenez compte des points suivants avant de créer des copies anonymisées des données Cloud Storage.

Espace disque

Cette opération n'est compatible qu'avec le contenu stocké dans Cloud Storage.

Cette opération crée une copie de chaque fichier pendant que la protection des données sensibles l'examine. Elle ne modifie ni ne supprime le contenu original. Les données copiées occuperont à peu près la même quantité d'espace disque supplémentaire que les données d'origine.

Accès en écriture à l'espace de stockage

Étant donné que la protection des données sensibles crée une copie des fichiers d'origine, l'agent de service de votre projet doit disposer d'un accès en écriture sur le bucket de sortie Cloud Storage.

Échantillonnage et définition des limites de résultats

Cette opération n'est pas compatible avec l'échantillonnage. Plus précisément, vous ne pouvez pas limiter la quantité de chaque fichier analysée ou anonymisée par la protection des données sensibles. Autrement dit, si vous utilisez l'API Cloud Data Loss Prevention, vous ne pouvez pas utiliser bytesLimitPerFile et bytesLimitPerFilePercent dans l'objet CloudStorageOptions de votre DlpJob.

De plus, vous ne pouvez pas contrôler le nombre maximal de résultats à renvoyer. Si vous utilisez l'API DLP, vous ne pouvez pas définir d'objet FindingLimits dans le fichier DlpJob.

Exigence d'inspecter les données

Lors de l'exécution de votre tâche d'inspection, la protection des données sensibles inspecte d'abord les données, en fonction de votre configuration d'inspection, avant de procéder à l'anonymisation. Il ne peut pas ignorer le processus d'inspection.

Obligatoire pour l'utilisation des extensions de fichier

La protection des données sensibles s'appuie sur les extensions de fichiers pour identifier les types de fichiers présents dans votre répertoire d'entrée. Il ne peut pas anonymiser les fichiers sans extension de fichier, même s'ils sont d'un type compatible.

Fichiers ignorés

Lors de l'anonymisation des fichiers dans un espace de stockage, la protection des données sensibles ignore les fichiers suivants:

  • Fichiers de plus de 60 000 Ko. Si vous avez des fichiers volumineux qui dépassent cette limite, envisagez de les diviser en fragments plus petits.
  • Fichiers de types non compatibles. Pour obtenir la liste des types de fichiers compatibles, consultez la section Types de fichiers compatibles sur cette page.
  • Types de fichiers que vous avez volontairement exclus de la configuration d'anonymisation. Si vous utilisez l'API DLP, les types de fichiers que vous avez exclus du champ file_types_to_transform de l'action Deidentify de votre DlpJob sont ignorés.
  • Fichiers ayant rencontré des erreurs de transformation.

Ordre des lignes de sortie dans les tables anonymisées

Il n'y a aucune garantie que l'ordre des lignes dans une table anonymisée corresponde à celui de la table d'origine. Si vous souhaitez comparer la table d'origine à la table anonymisée, vous ne pouvez pas vous fier au numéro de ligne pour identifier les lignes correspondantes. Si vous avez l'intention de comparer les lignes des tables, vous devez utiliser un identifiant unique pour identifier chaque enregistrement.

Touches temporaires

Si vous choisissez une méthode cryptographique comme méthode de transformation, vous devez d'abord créer une clé encapsulée à l'aide de Cloud Key Management Service. Fournissez ensuite cette clé dans votre modèle d'anonymisation. Les clés temporaires (brutes) ne sont pas acceptées.

Étapes suivantes