Créer des copies anonymisées de données stockées dans Cloud Storage à l'aide de la console Google Cloud

Cette page explique comment inspecter un répertoire Cloud Storage et créer des copies anonymisées des fichiers compatibles à l'aide de la protection des données sensibles dans la console Google Cloud.

Cette opération permet de garantir que les fichiers que vous utilisez dans vos processus métier ne contiennent pas de données sensibles, telles que des informations personnelles. La protection des données sensibles peut rechercher des données sensibles dans les fichiers d'un bucket Cloud Storage et créer des copies anonymisées de ces fichiers dans un bucket distinct. Vous pouvez ensuite utiliser les copies anonymisées dans vos processus métier.

Pour en savoir plus sur ce qui se passe lorsque vous anonymisez des données dans un espace de stockage, consultez Supprimer l'identification des données sensibles dans l'espace de stockage.

Avant de commencer

Cette page suppose ce qui suit:

Découvrez les limites et les points à prendre en compte pour cette opération.

L'inspection du stockage nécessite le champ d'application OAuth suivant : https://www.googleapis.com/auth/cloud-platform. Pour en savoir plus, consultez la page S'authentifier sur l'API DLP.

Rôles IAM requis

Si toutes les ressources de cette opération se trouvent dans le même projet, le rôle "Agent de service de l'API DLP" (roles/dlp.serviceAgent) sur l'agent de service est suffisant. Ce rôle vous permet d'effectuer les opérations suivantes:

  • Créer le job d'inspection
  • Lire les fichiers du répertoire d'entrée
  • Écrire les fichiers anonymisés dans le répertoire de sortie
  • Écrire les détails de la transformation dans une table BigQuery

Les ressources pertinentes sont le job d'inspection, les modèles d'anonymisation, le bucket d'entrée, le bucket de sortie et le tableau des détails de la transformation.

Si les ressources doivent se trouver dans des projets distincts, assurez-vous que l'agent de service de votre projet dispose également des rôles suivants:

  • Le rôle de lecteur des objets Storage (roles/storage.objectViewer) sur le bucket d'entrée ou le projet qui le contient.
  • Le rôle de créateur d'objets Storage (roles/storage.objectCreator) sur le bucket de sortie ou sur le projet qui le contient
  • Le rôle Éditeur de données BigQuery (roles/bigquery.dataEditor) pour la table des détails de la transformation ou le projet qui la contient.

Pour attribuer un rôle à votre agent de service, qui est un compte de service géré par Google, consultez Attribuer un seul rôle. Vous pouvez également contrôler l'accès aux niveaux suivants:

Présentation

Pour créer des copies anonymisées de vos fichiers Cloud Storage, configurez une tâche d'inspection qui recherche les données sensibles selon les critères que vous spécifiez. Ensuite, dans le job d'inspection, vous activez l'action Créer une copie anonymisée. Vous pouvez définir des modèles d'anonymisation qui déterminent la manière dont la protection des données sensibles doit transformer les résultats. Si vous ne fournissez aucun modèle d'anonymisation, la protection des données sensibles transforme les résultats comme décrit dans la section Comportement d'anonymisation par défaut.

Si vous activez l'action Créer une copie anonymisée, la protection des données sensibles transforme par défaut tous les types de fichiers compatibles inclus dans l'analyse. Toutefois, vous pouvez configurer la tâche pour qu'elle ne transforme qu'un sous-ensemble des types de fichiers compatibles.

Facultatif: créer des modèles d'anonymisation

Si vous souhaitez contrôler la manière dont les résultats sont transformés, créez les modèles suivants. Ces modèles fournissent des instructions pour transformer les résultats dans des fichiers structurés, des fichiers non structurés et des images.

  • Modèle d'anonymisation:modèle d'anonymisation par défaut à utiliser pour les fichiers non structurés, tels que les fichiers texte au format libre. Ce type de modèle d'anonymisation ne peut pas contenir de transformations d'enregistrement, qui ne sont compatibles qu'avec le contenu structuré. Si ce modèle n'est pas présent, la protection des données sensibles utilise la méthode de remplacement d'infoType pour transformer les fichiers non structurés.

  • Modèle d'anonymisation structuré:modèle d'anonymisation à utiliser pour les fichiers structurés, tels que les fichiers CSV. Ce modèle d'anonymisation peut contenir des transformations d'enregistrement. Si ce modèle n'est pas présent, la protection des données sensibles utilise le modèle d'anonymisation par défaut que vous avez créé. Si cette valeur n'est pas présente, la protection des données sensibles utilise la méthode de remplacement des infoTypes pour transformer les fichiers structurés.

  • Modèle de masquage d'image:modèle d'anonymisation à utiliser pour les images. Si ce modèle n'est pas présent, la protection des données sensibles masque tous les résultats dans les images à l'aide d'une zone noire.

Découvrez comment créer un modèle d'anonymisation.

Créer un job d'inspection avec une action d'anonymisation

  1. Dans la console Google Cloud, accédez à la page Créer une tâche ou un déclencheur de tâche.

    Accéder à la page "Créer une tâche ou un déclencheur de tâche"

  2. Saisissez les informations du job de protection des données sensibles, puis cliquez sur Continuer à chaque étape.

Les sections suivantes décrivent comment remplir les sections pertinentes de la page.

Choisir les données d'entrée

Dans la section Choose input data (Sélectionner les données d'entrée), procédez comme suit:

  1. Facultatif: Dans le champ Nom, saisissez un identifiant pour le job d'inspection.
  2. Pour Emplacement de la ressource, sélectionnez Mondial ou la région dans laquelle vous souhaitez stocker le job d'inspection.
  3. Dans le champ Emplacement, sélectionnez Google Cloud Storage.
  4. Dans le champ URL, saisissez le chemin d'accès au répertoire d'entrée. Le répertoire d'entrée contient les données que vous souhaitez analyser (par exemple, gs://input-bucket/folder1/folder1a). Si vous souhaitez analyser le répertoire d'entrée de manière récursive, ajoutez une barre oblique finale à l'URL, puis sélectionnez Analyser de manière récursive.
  5. Dans la section Échantillonnage, dans la liste Méthode d'échantillonnage, sélectionnez Aucun échantillonnage.

    L'échantillonnage n'est pas disponible sur les tâches ni sur les déclencheurs de tâches configurés avec l'anonymisation.

Configurer la détection

Dans la section Configurer la détection, choisissez les types de données sensibles à inspecter. C'est ce que nous appelons les infoTypes. Vous pouvez effectuer votre choix dans la liste des infoTypes prédéfinis ou sélectionner un modèle, le cas échéant. Pour en savoir plus, consultez la section Configurer la détection.

Ajouter des actions

Dans la section Add actions (Ajouter des actions), procédez comme suit:

  1. Activez l'option Créer une copie anonymisée.
  2. Facultatif: Pour Modèle d'anonymisation, saisissez le nom de ressource complet du modèle d'anonymisation par défaut si vous en avez créé un.
  3. Facultatif: Pour Modèle d'anonymisation structuré, saisissez le nom de ressource complet du modèle d'anonymisation pour les fichiers structurés si vous en avez créé un. Si vous ne l'avez pas fait, la protection des données sensibles utilise le modèle par défaut si vous en avez créé un.
  4. Facultatif: Sous Modèle de masquage d'image, saisissez le nom complet de la ressource du modèle de masquage d'images si vous en avez créé une.
  5. Facultatif: Si vous souhaitez que le service de protection des données sensibles stocke les détails de la transformation dans une table BigQuery, sélectionnez Exporter les détails de la transformation vers BigQuery, puis renseignez les champs suivants:

    • ID du projet: le projet qui contient la table BigQuery.
    • ID de l'ensemble de données: ensemble de données contenant la table BigQuery.
    • ID de table: table dans laquelle la protection des données sensibles doit stocker les détails de chaque transformation. La protection des données sensibles crée cette table avec l'ID de table que vous fournissez. Si vous ne fournissez pas d'ID de table, le système en crée un automatiquement.

    Cette table ne stocke pas le contenu anonymisé.

    Lorsque des données sont écrites dans une table BigQuery, la facturation et l'utilisation des quotas sont appliquées au projet qui contient la table de destination.

  6. Dans le champ Emplacement de sortie Cloud Storage, saisissez l'URL du répertoire Cloud Storage dans lequel vous souhaitez stocker les fichiers anonymisés. Ce répertoire ne doit pas se trouver dans le même bucket Cloud Storage que le répertoire d'entrée.

  7. Facultatif: Dans Types de fichiers, sélectionnez les types de fichiers que vous souhaitez transformer.

Pour en savoir plus sur les autres actions que vous pouvez ajouter, consultez Ajouter des actions.

Planification

Dans la section Planifier, indiquez si vous souhaitez que cette tâche soit récurrente:

  • Pour n'exécuter l'analyse qu'une seule fois, laissez le champ défini sur None.
  • Pour programmer l'exécution régulière d'analyses, cliquez sur Créer un déclencheur pour exécuter la tâche selon une programmation régulière.

Pour en savoir plus, consultez Programmation.

Récapitulatif

  1. Dans la section Planifier, vérifiez la configuration de la tâche et, si nécessaire, modifiez-la.

  2. Cliquez sur Créer.

Si vous avez choisi de ne pas planifier la tâche, le service de protection des données sensibles commence immédiatement à l'exécuter. Une fois la tâche terminée, le système vous redirige vers la page Informations sur la tâche, où vous pouvez consulter les résultats des opérations d'inspection et d'anonymisation.

Si vous avez choisi d'exporter les détails de la transformation vers une table BigQuery, cette table est insérée. Elle contient une ligne pour chaque transformation effectuée par la protection des données sensibles. Pour chaque transformation, les détails incluent une description, un code de réussite ou d'erreur, les détails de l'erreur, le nombre d'octets transformés, l'emplacement du contenu transformé et le nom de la tâche d'inspection dans laquelle la protection des données sensibles a effectué la transformation. Cette table ne contient pas de contenu anonymisé réel.

Confirmer que les fichiers ont été anonymisés

  1. Sur la page Informations sur le job, cliquez sur l'onglet Configuration.
  2. Pour afficher les fichiers anonymisés dans le répertoire de sortie, cliquez sur le lien dans le champ Bucket de sortie pour les données Cloud Storage anonymisées.
  3. Pour afficher la table BigQuery contenant les détails de la transformation, cliquez sur le lien dans le champ Détails de la transformation.

    Pour savoir comment interroger une table BigQuery, consultez la page Exécuter des requêtes interactives.

Étapes suivantes