Supprimer l'identification

Cloud DLP (Cloud Data Loss Prevention) se sert de types d'informations ou infoTypes pour définir ce qui doit être analysé. Un infoType est un type de données sensibles, par exemple un nom, une adresse e-mail, un numéro de téléphone, un numéro d'identification, un numéro de carte de crédit, etc.

Chaque infoType défini dans Cloud DLP possède un détecteur associé. Cloud DLP se sert des détecteurs d'infoTypes dans la configuration des analyses pour déterminer les éléments à inspecter et la façon dont elle doit transformer les résultats. Les noms des infoTypes sont également utilisés lorsque vous affichez des résultats d'analyse ou créez des rapports.

Dans cette section, nous décrivons en détail les infoTypes et les détecteurs d'infoTypes. Nous expliquons aussi comment se servir des détecteurs d'infoTypes pour identifier les données sensibles lors de l'analyse de contenus à l'aide de Cloud DLP.

Spécifier des détecteurs d'infoTypes

Lorsque vous configurez Cloud DLP pour analyser votre contenu, vous incluez dans la configuration de l'analyse les détecteurs d'infoTypes à utiliser.

Par exemple, le code JSON suivant illustre une requête d'analyse simple adressée à l'API Cloud DLP. Vous remarquerez que le détecteur PHONE_NUMBER est spécifié dans inspectConfig, qui indique à Cloud DLP d'analyser la chaîne fournie pour rechercher un numéro de téléphone.

POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}

{
  "item":{
    "value":"My phone number is (415) 555-0890"
  },
  "inspectConfig":{
    "includeQuote":true,
    "minLikelihood":"POSSIBLE",
    "infoTypes":{
      "name":"PHONE_NUMBER"
    }
  }
}

Cette requête renvoie le résultat suivant :

{
  "result":{
    "findings":[
      {
        "quote":"(415) 555-0890",
        "infoType":{
          "name":"PHONE_NUMBER"
        },
        "likelihood":"VERY_LIKELY",
        "location":{
          "byteRange":{
            "start":"19",
            "end":"33"
          },
          "codepointRange":{
            "start":"19",
            "end":"33"
          }
        },
        "createTime":"2018-10-29T23:46:34.535Z"
      }
    ]
  }
}

Vous devez toujours spécifier un infoType dans votre configuration d'analyse. Dans le cas contraire, Cloud DLP utilise par défaut le détecteur d'infoType ALL_BASIC. Suivant la quantité de contenu à analyser, l'analyse de ALL_BASIC peut s'avérer excessivement longue et coûteuse.

Si vous souhaitez en savoir plus sur l'utilisation des détecteurs d'infoTypes pour analyser votre contenu, consultez l'un des guides pratiques relatifs à l'inspection, au masquage ou à la suppression de l'identification.

Types de détecteurs d'infoTypes

Les détecteurs de type d'informations (ou "infoType") sont les mécanismes que Cloud DLP utilise pour rechercher des données sensibles.

Cloud DLP comprend plusieurs types de détecteurs d'infoTypes résumés ci-dessous :

  • Les détecteurs d'infoTypes intégrés font partie intégrante de Cloud DLP. Ils comprennent des détecteurs pour les types de données sensibles spécifiques à un pays ou une région, ainsi que les types de données applicables au niveau mondial.
  • Les détecteurs d'infoTypes personnalisés sont des détecteurs que vous créez vous-même. Il existe trois types de détecteurs d'infoTypes personnalisés :
    • Les détecteurs de dictionnaires personnalisés standards sont de simples listes de mots dont Cloud DLP se sert pour rechercher des correspondances. Utilisez des détecteurs de dictionnaires personnalisés standards lorsque vous avez une liste qui contient au maximum plusieurs dizaines de milliers de mots ou d'expressions. Les détecteurs de dictionnaires personnalisés standards sont recommandés si vous pensez que votre liste de mots ne changera pas de manière significative.
    • Les détecteurs de dictionnaires personnalisés stockés sont générés par Cloud DLP à l'aide de listes volumineuses de mots ou d'expressions stockés dans Cloud Storage ou BigQuery. Utilisez des détecteurs de dictionnaires personnalisés stockés lorsque vous avez une longue liste de mots ou d'expressions, pouvant atteindre plusieurs dizaines de millions d'éléments.
    • Les détecteurs d'expressions régulières (regex) permettent à Cloud DLP de détecter les correspondances basées sur un motif d'expression régulière.

En outre, Cloud DLP intègre le concept de règles d'inspection grâce auxquelles vous pouvez affiner les résultats de l'analyse à l'aide des éléments suivants :

  • Les règles d'exclusion vous permettent de réduire le nombre de résultats renvoyés en ajoutant des règles à un détecteur d'infoType intégré ou personnalisé.
  • Les règles concernant les mots-clés vous permettent d'augmenter la quantité ou de modifier la valeur de probabilité des résultats renvoyés en ajoutant des règles à un détecteur d'infoType intégré ou personnalisé.

Détecteurs d'infoTypes intégrés

Les détecteurs d'infoTypes intégrés font partie intégrante de Cloud DLP. Ils comprennent des détecteurs pour les types de données sensibles spécifiques à un pays ou une région, par exemple le Numéro d'Inscription au répertoire ou NIR pour la France (FRANCE_NIR), le numéro de permis de conduire pour le Royaume-Uni (UK_DRIVERS_LICENSE_NUMBER) et le numéro de sécurité sociale pour les États-Unis (US_SOCIAL_SECURITY_NUMBER). Ils incluent également les types de données applicables au niveau mondial, tels que les noms de personnes (PERSON_NAME), les numéros de téléphone (PHONE_NUMBER), les adresses e-mail (EMAIL_ADDRESS) et les numéros de carte de paiement (CREDIT_CARD_NUMBER). Pour détecter le contenu correspondant aux infoTypes, Cloud DLP exploite diverses techniques, dont la correspondance de modèles, les sommes de contrôle, le machine learning, l'analyse contextuelle, etc.

La liste des détecteurs d'infoTypes intégrés est constamment mise à jour. Pour obtenir la liste complète des détecteurs d'infoTypes intégrés actuellement acceptés, consultez la documentation de référence sur les détecteurs d'infoTypes.

Vous pouvez également afficher cette liste en appelant la méthode infoTypes.list de Cloud DLP.

Les détecteurs d'infoTypes intégrés ne constituent pas une méthode de détection précise à 100 %. Par exemple, ils ne peuvent pas garantir le respect de la réglementation en vigueur. Vous devez décider quelles sont les données sensibles et définir la meilleure méthode pour les protéger. Nous vous recommandons de tester vos paramètres pour vous assurer que votre configuration répond à vos exigences.

Détecteurs d'infoTypes personnalisés

Il existe trois types de détecteurs d'infoTypes personnalisés :

En outre, Cloud DLP inclut les règles d'inspection qui vous permettent d'affiner les résultats de l'analyse en ajoutant à des détecteurs les éléments suivants :

Détecteurs de dictionnaires personnalisés standards

Servez-vous des détecteurs de dictionnaires personnalisés standards pour rechercher des correspondances avec une liste de mots ou d'expressions relativement courte (jusqu'à plusieurs dizaines de milliers d'éléments). Un dictionnaire personnalisé standard peut agir comme son propre détecteur unique.

Les détecteurs de dictionnaire personnalisés sont utiles lorsque vous souhaitez baser l'analyse sur une liste de mots ou d'expressions pour lesquels une expression régulière ou un détecteur intégré ne trouvera pas facilement de correspondance. Par exemple, supposons que vous souhaitiez rechercher des salles de conférence à partir du nom qui leur est attribué (basé, par exemple, sur des noms d'États ou de régions, de monuments, de personnages de fiction, etc.) plutôt qu'à partir de leur numéro de salle. Vous pouvez créer un détecteur de dictionnaire personnalisé standard contenant la liste de ces noms de salles. Cloud DLP peut analyser votre contenu pour rechercher chacun des noms de salle et renvoyer une correspondance lorsqu'elle rencontre l'un d'entre eux dans le bon contexte. Pour en savoir plus sur la manière dont Cloud DLP identifie des correspondances entre les mots et expressions du dictionnaire, consultez la section Caractéristiques des correspondances avec le dictionnaire de la page Créer un détecteur de dictionnaire personnalisé standard.

Pour en savoir plus sur le fonctionnement des détecteurs de dictionnaires personnalisés standards et pour obtenir des exemples concrets, consultez la page Créer un détecteur de dictionnaire personnalisé standard.

Détecteurs de dictionnaires personnalisés stockés

Utilisez des détecteurs de dictionnaire personnalisés stockés lorsque vous avez plus que quelques mots ou expressions à analyser, ou si votre liste de mots ou d'expressions change fréquemment. Les détecteurs de dictionnaires personnalisés stockés permettent d'identifier des correspondances avec des listes allant jusqu'à plusieurs dizaines de millions de mots ou d'expressions.

Les détecteurs de dictionnaires personnalisés stockés, de par leur nature même de très grands détecteurs personnalisés, sont créés différemment des détecteurs personnalisés à base d'expressions régulières et des détecteurs de dictionnaires personnalisés standards. Chaque dictionnaire personnalisé stocké possède deux composants :

  • Une liste d'expressions que vous créez et définissez. Cette liste est stockée sous forme de fichier texte dans Cloud Storage ou de colonne dans une table BigQuery.
  • Les fichiers de dictionnaire générés, qui sont compilés par Cloud DLP à partir de votre liste d'expressions. Les fichiers de dictionnaire sont stockés dans Cloud Storage et comprennent une copie des données sources (les expressions) ainsi que des filtres de Bloom qui facilitent la recherche et la correspondance. Vous ne pouvez pas modifier ces fichiers directement.

Une fois que vous avez créé une liste de mots, puis généré le dictionnaire personnalisé à l'aide de Cloud DLP, vous lancez ou planifiez une analyse avec un détecteur de dictionnaire personnalisé stocké de la même manière qu'avec les autres détecteurs d'infoTypes.

Pour en savoir plus sur le fonctionnement des détecteurs de dictionnaires personnalisés stockés et pour obtenir des exemples concrets, consultez la page Créer un détecteur de dictionnaire personnalisé stocké.

Expressions régulières

Un détecteur d'infoType personnalisé à base d'expression régulière (regex) vous permet de créer vos propres détecteurs d'infoTypes grâce auxquels Cloud DLP détecte les correspondances basées sur un motif d'expression régulière. Supposons, par exemple, que vous ayez des numéros de dossiers médicaux au format ###-#-#####. Vous pouvez définir un motif d'expression régulière comme ci-dessous :

[1-9]{3}-[1-9]{1}-[1-9]{5}

Cloud DLP trouve alors les éléments comme ceux-ci :

123-4-56789

Vous pouvez également spécifier une probabilité à attribuer à chaque correspondance d'infoType personnalisé. Lorsqu'elle trouve la séquence spécifiée, l'API Cloud DLP attribue alors la probabilité que vous avez indiquée. Cette technique est utile si votre expression régulière personnalisée définit une séquence relativement courante, car celle-ci peut facilement être mise en correspondance avec une autre séquence aléatoire. Or, il ne faut pas que Cloud DLP attribue l'étiquette VERY_LIKELY à chaque correspondance. Cela pourrait en effet affecter la fiabilité des résultats d'analyse et entraîner la suppression d'informations par erreur.

Pour en savoir plus sur les détecteurs d'infoTypes personnalisés à base d'expressions régulières et pour obtenir des exemples concrets, consultez la page Créer un détecteur d'expression régulière personnalisé.

Règles d'inspection

Vous pouvez utiliser des règles d'inspection dans le but d'affiner les résultats renvoyés par les détecteurs d'infoTypes existants, qu'ils soient intégrés ou personnalisés. Les règles d'inspection peuvent être utiles lorsque les résultats renvoyés par Cloud DLP doivent être augmentés d'une manière ou d'une autre, soit en les ajoutant au détecteur d'infoType existant, soit en les supprimant.

Les deux types de règles d'inspection sont les suivants :

  • Règles d'exclusion
  • Règles relatives aux mots clés

Pour en savoir plus sur les règles d'inspection, consultez la page Modifier les détecteurs d'InfoTypes pour affiner les résultats de l'analyse.

Règles d'exclusion

Les règles d'exclusion vous permettent de réduire la quantité ou la précision des résultats renvoyés en ajoutant des règles à un détecteur d'infoType intégré ou personnalisé. Les règles d'exclusion peuvent vous aider à éviter que le bruit et d'autres résultats indésirables ne soient renvoyés par un détecteur d'infoType.

Par exemple, si vous analysez des adresses e-mail dans une base de données, vous pouvez ajouter une règle d'exclusion sous la forme d'une expression régulière personnalisée indiquant à Cloud DLP d'exclure tout résultat se terminant par "@example.com".

Pour en savoir plus sur les règles d'exclusion, consultez la page Modifier les détecteurs d'infoTypes pour affiner les résultats de l'analyse.

Règles relatives aux mots clés

Les règles relatives aux mots-clés vous permettent d'augmenter la quantité ou d'améliorer la justesse des résultats renvoyés en ajoutant des règles à un détecteur d'infoType intégré ou personnalisé. Les règles relatives aux mots-clés peuvent ainsi vous aider à assouplir les règles d'un détecteur d'infoType existant.

Par exemple, supposons que vous souhaitez analyser une base de données médicale afin d'identifier les noms des patients. Pour cela, vous pouvez utiliser le détecteur d'infoType PERSON_NAME intégré à Cloud DLP, mais vous obtiendrez des correspondances avec tous les noms de personnes, et non uniquement les noms de patients. Pour résoudre ce problème, vous pouvez inclure une règle relative aux mots-clés sous la forme d'un infoType personnalisé d'expression régulière, qui recherche le mot "patient" dans un voisinage du premier caractère des correspondances potentielles. Vous pouvez ensuite attribuer aux résultats correspondant à ce modèle une valeur de probabilité "very_likely" (très probable), car ils répondent à vos critères spéciaux.

Pour en savoir plus sur les règles relatives aux mots-clés, consultez la page Modifier les détecteurs d'infoTypes pour affiner les résultats de l'analyse.