Créer des copies anonymisées des données stockées dans Cloud Storage à l'aide de la console Google Cloud

Cette page explique comment inspecter un répertoire Cloud Storage et créer des copies anonymisées des fichiers compatibles à l'aide de Sensitive Data Protection dans la console Google Cloud.

Cette opération permet de s'assurer que les fichiers que vous utilisez dans vos processus métier ne contiennent pas de données sensibles, telles que des informations permettant d'identifier personnellement l'utilisateur. La protection des données sensibles peut inspecter les fichiers d'un bucket Cloud Storage à la recherche de données sensibles et créer des copies anonymisées de ces fichiers dans un bucket distinct. Vous pouvez ensuite utiliser les copies anonymisées dans vos processus métier.

Pour en savoir plus sur ce qui se passe lorsque vous anonymisez des données stockées, consultez la page Anonymiser les données Cloud Storage sensibles.

Avant de commencer

Cette page suppose que vous avez déjà:

Découvrez les limites et points à prendre en compte pour cette opération.

L'inspection du stockage nécessite le champ d'application OAuth suivant : https://www.googleapis.com/auth/cloud-platform. Pour en savoir plus, consultez la page Authentification auprès de l'API DLP.

Rôles IAM requis

Si toutes les ressources de cette opération se trouvent dans le même projet, le rôle Agent de service de l'API DLP (roles/dlp.serviceAgent) sur l'agent de service est suffisant. Voici ce que ce rôle vous permet de faire:

  • Créer la tâche d'inspection
  • Lire les fichiers du répertoire d'entrée
  • Écrire les fichiers anonymisés dans le répertoire de sortie
  • Écrire les détails de la transformation dans une table BigQuery

Les ressources pertinentes incluent la tâche d'inspection, les modèles d'anonymisation, le bucket d'entrée, le bucket de sortie et le tableau des détails de la transformation.

Si vous devez disposer des ressources dans des projets distincts, assurez-vous que l'agent de service de votre projet dispose également des rôles suivants:

  • Le rôle "Lecteur des objets de l'espace de stockage" (roles/storage.objectViewer) sur le bucket d'entrée ou le projet qui le contient.
  • Le rôle Créateur d'objets Storage (roles/storage.objectCreator) sur le bucket de sortie ou le projet qui le contient.
  • Rôle "Éditeur de données BigQuery" (roles/bigquery.dataEditor) sur la table des détails de la transformation ou sur le projet qui la contient.

Pour attribuer un rôle à l'agent de service, consultez la section Attribuer un rôle unique. Vous pouvez également contrôler l'accès aux niveaux suivants:

Présentation

Pour créer des copies anonymisées de vos fichiers Cloud Storage, vous devez configurer une tâche d'inspection qui recherche des données sensibles conformément aux critères que vous spécifiez. Ensuite, dans la tâche d'inspection, vous activez l'action Créer une copie anonymisée. Vous pouvez définir des modèles d'anonymisation qui indiquent comment Sensitive Data Protection doit transformer les résultats. Si vous ne fournissez aucun modèle d'anonymisation, Sensitive Data Protection transforme les résultats comme décrit dans la section Comportement d'anonymisation par défaut.

Si vous activez l'action Créer une copie anonymisée, la protection des données sensibles transforme par défaut tous les types de fichiers compatibles inclus dans l'analyse. Toutefois, vous pouvez configurer la tâche pour qu'elle ne transforme qu'un sous-ensemble des types de fichiers compatibles.

Facultatif: Créer des modèles de suppression de l'identification

Si vous souhaitez contrôler la manière dont les résultats sont transformés, créez les modèles suivants. Ces modèles fournissent des instructions sur la transformation des résultats dans des fichiers structurés, des fichiers non structurés et des images.

  • Modèle d'anonymisation:modèle d'anonymisation par défaut à utiliser pour les fichiers non structurés, tels que les fichiers texte de format libre. Ce type de modèle d'anonymisation ne peut pas contenir de transformations d'enregistrement, qui ne sont acceptées que pour le contenu structuré. Si ce modèle n'est pas présent, Sensitive Data Protection utilise la méthode de remplacement infoType pour transformer les fichiers non structurés.

  • Modèle d'anonymisation structuré:modèle d'anonymisation à utiliser pour les fichiers structurés, tels que les fichiers CSV. Ce modèle d'anonymisation peut contenir des transformations d'enregistrements. Si ce modèle n'est pas présent, Sensitive Data Protection utilise le modèle d'anonymisation par défaut que vous avez créé. Si ce n'est pas le cas, la protection des données sensibles utilise la méthode de remplacement infoType pour transformer les fichiers structurés.

  • Modèle de masquage d'image:modèle de suppression de l'identification à utiliser pour les images. Si ce modèle n'est pas présent, la protection des données sensibles masque tous les résultats des images à l'aide d'une zone noire.

Découvrez comment créer un modèle de désidentification.

Créer une tâche d'inspection avec une action de suppression de l'identification

  1. Dans la console Google Cloud, accédez à la page Créer un job ou un déclencheur de job.

    Accéder à la page "Créer un job ou un déclencheur de job"

  2. Saisissez les informations sur la tâche de protection des données sensibles, puis cliquez sur Continuer à chaque étape.

Les sections suivantes expliquent comment remplir les sections pertinentes de la page.

Choisir les données d'entrée

Dans la section Choisir les données d'entrée, procédez comme suit:

  1. (Facultatif) Dans le champ Nom, saisissez un identifiant pour la tâche d'inspection.
  2. Pour Emplacement de la ressource, sélectionnez Monde ou la région dans laquelle vous souhaitez stocker la tâche d'inspection.
  3. Dans le champ Emplacement, sélectionnez Google Cloud Storage.
  4. Dans URL, saisissez le chemin d'accès au répertoire d'entrée. Le répertoire d'entrée contient les données que vous souhaitez analyser (par exemple, gs://input-bucket/folder1/folder1a). Si vous souhaitez analyser le répertoire d'entrée de manière récursive, ajoutez une barre oblique à la fin de l'URL, puis sélectionnez Analyser de manière récursive.
  5. Dans la section Échantillonnage, dans la liste Méthode d'échantillonnage, sélectionnez Aucun échantillonnage.

    L'échantillonnage n'est pas compatible avec les tâches et les déclencheurs de tâches configurés avec la désidentification.

Configurer la détection

Dans la section Configurer la détection, choisissez les types de données sensibles à inspecter. Ces éléments sont appelés infoTypes. Vous pouvez effectuer votre sélection dans la liste des infoTypes prédéfinis ou sélectionner un modèle, le cas échéant. Pour en savoir plus, consultez la section Configurer la détection.

Ajouter des actions

Dans la section Ajouter des actions, procédez comme suit:

  1. Activez l'option Créer une copie anonymisée.
  2. Facultatif: Pour Modèle d'anonymisation, saisissez le nom de ressource complet du modèle d'anonymisation par défaut si vous en avez créé un.
  3. Facultatif: Pour Modèle d'anonymisation de données structurées, saisissez le nom de ressource complet du modèle d'anonymisation pour les fichiers structurés si vous en avez créé un. Si ce n'est pas le cas, la protection des données sensibles utilise le modèle par défaut si vous en avez créé un.
  4. Facultatif: Pour Modèle de masquage d'image, saisissez le nom de ressource complet du modèle de masquage d'image pour les images si vous en avez créé un.
  5. Facultatif: Si vous souhaitez que la protection des données sensibles stocke les détails de la transformation dans une table BigQuery, sélectionnez Exporter les détails de la transformation vers BigQuery, puis remplissez les champs suivants:

    • ID du projet: projet contenant la table BigQuery.
    • ID de l'ensemble de données: ensemble de données contenant la table BigQuery.
    • ID de table: table dans laquelle la protection des données sensibles doit stocker des informations sur chaque transformation. Sensitive Data Protection crée cette table avec l'ID de table que vous fournissez. Si vous ne fournissez pas d'ID de table, le système en crée automatiquement un.

    Ce tableau ne stocke pas le contenu anonymisé.

    Lorsque des données sont écrites dans une table BigQuery, la facturation et l'utilisation des quotas sont appliquées au projet contenant la table de destination.

  6. Pour Emplacement de sortie Cloud Storage, saisissez l'URL du répertoire Cloud Storage dans lequel vous souhaitez stocker les fichiers anonymisés. Ce répertoire ne doit pas se trouver dans le même bucket Cloud Storage que le répertoire d'entrée.

  7. Facultatif: Dans Types de fichiers, sélectionnez les types de fichiers que vous souhaitez transformer.

Pour en savoir plus sur les autres actions que vous pouvez ajouter, consultez la section Ajouter des actions.

Planification

Dans la section Programmation, indiquez si vous souhaitez que cette tâche soit récurrente:

  • Pour exécuter l'analyse une seule fois, laissez le champ défini sur Aucun.
  • Pour programmer des analyses à exécuter régulièrement, cliquez sur Créer un déclencheur pour exécuter la tâche selon une programmation régulière.

Pour en savoir plus, consultez la section Planifier.

Récapitulatif

  1. Dans la section Schedule (Planifier), vérifiez la configuration de la tâche et, si nécessaire, modifiez-la.

  2. Cliquez sur Créer.

Si vous avez choisi de ne pas planifier la tâche, la protection des données sensibles commence immédiatement à l'exécuter. Une fois la tâche terminée, le système vous redirige vers la page Job details (Détails de la tâche), où vous pouvez consulter les résultats des opérations d'inspection et de désidentification.

Si vous avez choisi d'exporter les détails de la transformation vers une table BigQuery, la table est renseignée. Il contient une ligne pour chaque transformation effectuée par la protection des données sensibles. Pour chaque transformation, les détails incluent une description, un code de réussite ou d'erreur, des détails d'erreur, le nombre d'octets transformés, l'emplacement du contenu transformé et le nom de la tâche d'inspection dans laquelle la protection des données sensibles a effectué la transformation. Ce tableau ne contient pas le contenu anonymisé.

Vérifier que les fichiers ont été anonymisés

  1. Sur la page Informations sur la tâche, cliquez sur l'onglet Configuration.
  2. Pour afficher les fichiers anonymisés dans le répertoire de sortie, cliquez sur le lien dans le champ Bucket de sortie pour les données Cloud Storage anonymisées.
  3. Pour afficher la table BigQuery contenant les détails de la transformation, cliquez sur le lien dans le champ Détails de la transformation.

    Pour en savoir plus sur l'interrogation d'une table BigQuery, consultez la section Exécuter des requêtes interactives.

Étape suivante