Cloud Data Loss Prevention (Cloud DLP) fait désormais partie de la protection des données sensibles. Le nom de l'API reste le même: API Cloud Data Loss Prevention (API DLP). Pour en savoir plus sur les services qui composent la protection des données sensibles, consultez Présentation de la protection des données sensibles.

Inspecter le stockage et les bases de données Google Cloud pour identifier les données sensibles

Une gestion appropriée des données sensibles contenues dans un dépôt de stockage commence par la classification du stockage. Cela consiste à identifier l'emplacement des données sensibles dans le dépôt, les types de données sensibles concernés ainsi que la façon dont ces données sont utilisées. Ces informations peuvent vous aider à définir correctement les autorisations d'accès et de partage. En outre, elles peuvent être utiles dans le cadre d'un plan de surveillance continu.

La protection des données sensibles peut détecter et classer les données sensibles stockées dans un emplacement Cloud Storage, un genre Datastore ou une table BigQuery. Lorsque vous analysez des fichiers dans des emplacements Cloud Storage, la protection des données sensibles prend en charge l'analyse des fichiers binaires, texte, image, Microsoft Word, Microsoft Excel, Microsoft Powerpoint, PDF et Apache Avro. Les fichiers de types non reconnus sont analysés en tant que fichiers binaires. Pour en savoir plus sur les types de fichiers compatibles, consultez la section Types de fichiers compatibles.

Pour inspecter le stockage et les bases de données à la recherche de données sensibles, vous devez spécifier l'emplacement des données et le type de données sensibles que le service de protection des données sensibles doit rechercher. La protection des données sensibles lance une tâche qui inspecte les données à l'emplacement indiqué, puis fournit des informations sur les infoTypes trouvés dans le contenu, les valeurs de probabilité, etc.

Vous pouvez configurer l'inspection du stockage et des bases de données à l'aide de la protection des données sensibles dans la console Google Cloud, via l'API DLP RESTful, ou de manière automatisée à l'aide d'une bibliothèque cliente de protection des données sensibles dans l'un des langages disponibles.

Cette rubrique comprend :

Bonnes pratiques pour configurer des analyses de dépôts et de bases de données Google Cloud Storage
Des instructions pour configurer une analyse d'inspection à l'aide de la protection des données sensibles dans la console Google Cloud et (éventuellement) pour programmer des analyses d'inspection récurrentes.
Exemples de code JSON et de code pour chaque type de dépôt Google Cloud Storage : (Cloud Storage, Firestore en mode Datastore (Datastore) et BigQuery).
Présentation détaillée des options de configuration disponibles pour les tâches d'analyse
Instructions pour récupérer les résultats d'analyse et gérer les tâches d'analyse créées à partir de chaque requête qui aboutit

Bonnes pratiques

Identifier et hiérarchiser l'analyse

Il est important d'évaluer d'abord vos ressources et d'indiquer celles qui ont la priorité la plus élevée pour l'analyse. Lorsque vous commencez, il est possible que vous ayez un important volume de données à classer, et qu'il soit impossible de toutes les analyser immédiatement. Choisissez d'abord les données qui présentent le risque potentiel le plus élevé (par exemple, les données fréquemment consultées, largement accessibles ou inconnues).

Assurez-vous que la protection des données sensibles peut accéder à vos données

La protection des données sensibles doit pouvoir accéder aux données à analyser. Assurez-vous que le compte de service de protection des données sensibles est autorisé à lire vos ressources.

Limiter la portée de vos premières analyses

Pour de meilleurs résultats, limitez la portée de vos premières tâches plutôt que d'analyser toutes vos données. Commencez par une table, un bucket ou quelques fichiers, puis utilisez l'échantillonnage. En limitant la portée de vos premières analyses, vous pouvez mieux déterminer les détecteurs à activer et les règles d'exclusion éventuellement nécessaires pour réduire le nombre de faux positifs et rendre vos résultats plus pertinents. Évitez d'activer les infoTypes dont vous n'avez pas besoin, car des faux positifs ou des résultats inutilisables peuvent compliquer l'évaluation du risque. Bien qu'utiles dans certains scénarios, les infoTypes tels que DATE, TIME, DOMAIN_NAME et URL correspondent à un large éventail de résultats et peuvent ne pas être utiles pour les analyses de données volumineuses.

Lorsque vous échantillonnez un fichier structuré (tel qu'un fichier CSV, TSV ou Avro), assurez-vous que la taille d'échantillon est suffisamment grande pour couvrir l'en-tête complet du fichier et une ligne de données. Pour en savoir plus, consultez Analyser les fichiers structurés en mode d'analyse structurée.

Programmer vos analyses

Utilisez les déclencheurs de tâches de protection des données sensibles pour exécuter automatiquement des analyses et générer des résultats quotidiens, hebdomadaires ou trimestriels. Ces analyses peuvent également être configurées pour inspecter uniquement les données qui ont été modifiées depuis la dernière analyse, ce qui permet de gagner du temps et de réduire les coûts. L'exécution régulière d'analyses peut vous aider à identifier des tendances ou des anomalies dans vos résultats d'analyse.

Latence du job

Aucun objectif de niveau de service (SLO) n'est garanti pour les tâches et les déclencheurs de tâche. La latence dépend de plusieurs facteurs, y compris la quantité de données à analyser, le dépôt de stockage analysé, le type et le nombre d'infoTypes que vous analysez, la région dans laquelle la tâche est traitée et les ressources informatiques disponibles dans cette région. Par conséquent, la latence des tâches d'inspection ne peut pas être déterminée à l'avance.

Pour réduire la latence des tâches, essayez les solutions suivantes :

Si l'échantillonnage est disponible pour votre tâche ou votre déclencheur de tâche, activez-le.
Évitez d'activer les infoTypes dont vous n'avez pas besoin. Bien que les éléments suivants soient utiles dans certains scénarios, ces infoTypes peuvent rendre les requêtes beaucoup plus lentes que celles qui ne les incluent pas:
- PERSON_NAME
- FEMALE_NAME
- MALE_NAME
- FIRST_NAME
- LAST_NAME
- DATE_OF_BIRTH
- LOCATION
- STREET_ADDRESS
- ORGANIZATION_NAME
Spécifiez toujours les infoTypes explicitement. N'utilisez pas de liste d'infoTypes vide.
Si possible, utilisez une autre région de traitement.

Si vous rencontrez toujours des problèmes de latence avec les tâches après avoir essayé ces techniques, envisagez d'utiliser des requêtes content.inspect ou content.deidentify au lieu de tâches. Ces méthodes sont couvertes par le Contrat de niveau de service. Pour en savoir plus, consultez la page Contrat de niveau de service relatif à la protection des données sensibles.

Avant de commencer

Les instructions fournies dans cette rubrique supposent que :

Vous avez activé la facturation.

Découvrir comment activer la facturation
Vous avez activé la protection des données sensibles.

Activer la protection des données sensibles

La classification du stockage nécessite le champ d'application OAuth suivant : https://www.googleapis.com/auth/cloud-platform. Pour en savoir plus, consultez la page S'authentifier sur l'API DLP.

Inspecter un emplacement Cloud Storage

Vous pouvez configurer une inspection de la protection des données sensibles d'un emplacement Cloud Storage à l'aide de la console Google Cloud, de l'API DLP via des requêtes REST ou RPC, ou de manière automatisée dans plusieurs langages à l'aide d'une bibliothèque cliente. Pour en savoir plus sur les paramètres inclus dans les exemples de code et JSON suivants, consultez la section Configurer l'inspection du stockage plus loin dans cet article.

La protection des données sensibles s'appuie sur les types d'extensions de fichiers et de médias (MIME) pour identifier les types de fichiers à analyser et les modes d'analyse à appliquer. Par exemple, la protection des données sensibles analyse un fichier .txt en mode texte brut, même s'il s'agit d'un fichier CSV, qui est normalement analysé en mode d'analyse structurée.

Pour configurer une tâche d'analyse d'un bucket Cloud Storage à l'aide de la protection des données sensibles, procédez comme suit:

Console

Cette section explique comment inspecter un bucket ou un dossier Cloud Storage. Si vous souhaitez également que la protection des données sensibles crée une copie anonymisée de vos données, consultez la page Supprimer l'identification des données sensibles stockées dans Cloud Storage à l'aide de la console Google Cloud.

Dans la section "Protection des données sensibles" de la console Google Cloud, accédez à la page Créer une tâche ou un déclencheur de tâche.

Accéder à la page "Créer une tâche ou un déclencheur de tâche"

Remarque :Vous pouvez également lancer une analyse de protection des données sensibles directement à partir du navigateur Cloud Storage. Dans la colonne la plus à droite du bucket que vous souhaitez analyser, cliquez sur le menu Autres actions (représenté par trois points disposés verticalement) , puis sur Analyser avec la protection des données sensibles. La page de création du job de protection des données sensibles s'ouvre dans un onglet distinct.
Saisissez les informations du job de protection des données sensibles, puis cliquez sur Continuer à chaque étape:
- Pour l'étape 1 : Choisir les données d'entrée, attribuez un nom à la tâche en saisissant une valeur dans le champ Nom. Dans Emplacement, sélectionnez Cloud Storage dans le menu Type de stockage, puis saisissez l'emplacement des données à analyser. La section Échantillonnage est préconfigurée pour exécuter un exemple d'analyse avec vos données. Vous pouvez ajuster le champ Pourcentage d'objets inclus analysés dans le bucket pour économiser des ressources si vous disposez d'une grande quantité de données. Pour en savoir plus, consultez la section Choisir les données d'entrée.
- (Facultatif) Pour l'étape 2 : Configurer la détection, vous pouvez configurer les types de données à rechercher, appelés infoTypes. Vous pouvez effectuer votre sélection dans la liste des infoTypes prédéfinis ou sélectionner un modèle, le cas échéant. Pour en savoir plus, consultez la section Configurer la détection.
- (Facultatif) Pour l'étape 3 : Ajouter des actions, assurez-vous que l'option Avertir par e-mail est activée.
  
  Activez l'option Enregistrer dans BigQuery pour publier vos résultats relatifs à la protection des données sensibles dans une table BigQuery. Indiquez les éléments suivants :
  - Pour ID du projet, saisissez l'ID du projet dans lequel vos résultats sont stockés.
  - Pour ID de l'ensemble de données, saisissez le nom de l'ensemble de données dans lequel vos résultats sont stockés.
  - (Facultatif) Pour ID de la table, entrez le nom de la table dans laquelle vos résultats sont stockés. Si aucun ID de table n'est spécifié, un nom par défaut est attribué à une nouvelle table semblable à celle-ci : dlp_googleapis_[DATE]_1234567890, où [DATE] représente la date d'exécution de l'analyse. Si vous spécifiez le nom d'une table existante, les résultats y sont ajoutés.
  - (Facultatif) Activez l'option Inclure les guillemets pour inclure les chaînes correspondant à un détecteur d'infoType. Les citations sont potentiellement sensibles. Par conséquent, la protection des données sensibles ne les inclut pas dans les résultats.
  Lorsque des données sont écrites dans une table BigQuery, la facturation et l'utilisation des quotas sont appliquées au projet qui contient la table de destination.
  
  Si vous souhaitez créer une copie anonymisée de vos données, activez Créer une copie anonymisée. Pour en savoir plus, consultez la page Supprimer l'identification des données sensibles stockées dans Cloud Storage à l'aide de la console Google Cloud.
  
  Vous pouvez également enregistrer les résultats dans Pub/Sub, Security Command Center, Data Catalog et Cloud Monitoring. Pour en savoir plus, consultez la section Ajouter des actions.
- (Facultatif) Pour l'étape 4 : Programmer, pour exécuter l'analyse une seule fois, laissez le menu défini sur Aucun. Pour programmer des analyses à exécuter régulièrement, cliquez sur Créer un déclencheur pour exécuter la tâche selon une programmation régulière. Pour en savoir plus, consultez la section Programmer.
Cliquez sur Créer.
Une fois la tâche de protection des données sensibles terminée, vous êtes redirigé vers la page d'informations de la tâche et une notification par e-mail vous est envoyée. Vous pouvez afficher les résultats de l'inspection sur la page des détails de la tâche.
(Facultatif) Si vous avez choisi de publier les résultats liés à la protection des données sensibles dans BigQuery, dans la page Informations sur la tâche, cliquez sur Afficher les résultats dans BigQuery pour ouvrir la table dans l'interface utilisateur Web de BigQuery. Vous pouvez ensuite interroger la table et analyser vos résultats. Pour en savoir plus sur l'interrogation de vos résultats dans BigQuery, consultez la page Interroger les résultats liés à la protection des données sensibles dans BigQuery.

Protocole

Vous trouverez ci-dessous un exemple de code JSON pouvant être envoyé dans une requête POST au point de terminaison REST spécifié pour la protection des données sensibles. Cet exemple de code JSON montre comment utiliser l'API DLP pour inspecter des buckets Cloud Storage. Pour plus d'informations sur les paramètres inclus dans la requête, consultez la section Configurer l'inspection du stockage plus loin dans cette rubrique.

Vous pouvez faire un essai rapide dans APIs Explorer sur la page de référence de content.inspect :

Accéder à APIs Explorer

Gardez à l'esprit qu'une requête réussie, même dans APIs Explorer, entraînera la création d'un déclencheur de tâche planifiée. Pour en savoir plus sur le contrôle des tâches d'analyse, consultez la section Récupérer les résultats d'inspection plus loin sur cette page. Des informations générales sur l'utilisation du format JSON pour envoyer des requêtes à l'API DLP sont disponibles dans le guide de démarrage JSON.

Entrée JSON :

POST https://dlp.googleapis.com/v2/projects/[PROJECT-ID]/dlpJobs?key={YOUR_API_KEY}

{
  "inspectJob":{
    "storageConfig":{
      "cloudStorageOptions":{
        "fileSet":{
          "url":"gs://[BUCKET-NAME]/*"
        },
        "bytesLimitPerFile":"1073741824"
      },
      "timespanConfig":{
        "startTime":"2017-11-13T12:34:29.965633345Z",
        "endTime":"2018-01-05T04:45:04.240912125Z"
      }
    },
    "inspectConfig":{
      "infoTypes":[
        {
          "name":"PHONE_NUMBER"
        }
      ],
      "excludeInfoTypes":false,
      "includeQuote":true,
      "minLikelihood":"LIKELY"
    },
    "actions":[
      {
        "saveFindings":{
          "outputConfig":{
            "table":{
              "projectId":"[PROJECT-ID]",
              "datasetId":"[DATASET-ID]"
            }
          }
        }
      }
    ]
  }
}

Sortie JSON :

{
  "name":"projects/[PROJECT-ID]/dlpJobs/[JOB-ID]",
  "type":"INSPECT_JOB",
  "state":"PENDING",
  "inspectDetails":{
    "requestedOptions":{
      "snapshotInspectTemplate":{

      },
      "jobConfig":{
        "storageConfig":{
          "cloudStorageOptions":{
            "fileSet":{
              "url":"gs://[BUCKET-NAME]/*"
            },
            "bytesLimitPerFile":"1073741824"
          },
          "timespanConfig":{
            "startTime":"2017-11-13T12:34:29.965633345Z",
            "endTime":"2018-01-05T04:45:04.240912125Z"
          }
        },
        "inspectConfig":{
          "infoTypes":[
            {
              "name":"PHONE_NUMBER"
            }
          ],
          "minLikelihood":"LIKELY",
          "limits":{

          },
          "includeQuote":true
        },
        "actions":[
          {
            "saveFindings":{
              "outputConfig":{
                "table":{
                  "projectId":"[PROJECT-ID]",
                  "datasetId":"[DATASET-ID]",
                  "tableId":"[NEW-TABLE-ID]"
                }
              }
            }
          }
        ]
      }
    }
  },
  "createTime":"2018-11-07T18:01:14.225Z"
}

Java

Pour savoir comment installer et utiliser la bibliothèque cliente pour la protection des données sensibles, consultez Bibliothèques clientes pour la protection des données sensibles.

Pour vous authentifier auprès de la protection des données sensibles, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

Inspecter le stockage et les bases de données Google Cloud pour identifier les données sensibles

Bonnes pratiques

Identifier et hiérarchiser l'analyse

Assurez-vous que la protection des données sensibles peut accéder à vos données

Limiter la portée de vos premières analyses

Programmer vos analyses

Latence du job

Avant de commencer

Inspecter un emplacement Cloud Storage

Console

Protocole

Java

Node.js

Python

Go

PHP

C#

Inspecter un genre Datastore

Console

Protocole

Java

Node.js

Python

Go

PHP

C#

Inspecter une table BigQuery

Console

Protocole

Java

Node.js

Python

Go

PHP

C#

Configurer l'inspection du stockage

Limiter la quantité de contenu inspecté

Limiter les analyses Cloud Storage

C#

Go

Java

Node.js

PHP

Python

REST

Limiter les analyses BigQuery

Go

Java

Node.js

PHP

Python

C#

REST

Récupérer les résultats d'inspection

Étapes suivantes