Cette série de documents fournit des stratégies pour évaluer et atténuer les risques liés aux données dans votre organisation. Il décrit et compare également deux services de protection des données sensibles qui vous aident à en savoir plus sur votre niveau de sécurité des données actuel.
Objectifs de la gestion des risques liés aux données
La gestion des risques liés aux données implique de stocker, de traiter et d'utiliser vos données dans les niveaux de risque appropriés pour votre entreprise. Lorsque vous effectuez la gestion des risques liés aux données, nous vous recommandons de viser les objectifs suivants:
- Vos données sont correctement détectées et classées.
- Le risque d'exposition des données est correctement compris.
- Les données sont protégées par des contrôles appropriés ou atténuées par l'obscurcissement.
Lorsque vous évaluez vos charges de travail de données, vous pouvez commencer par vous poser les questions suivantes:
- Quel type de données cette charge de travail gère-t-elle ? Certaines d'entre elles sont-elles sensibles ?
- Ces données sont-elles correctement exposées ? Par exemple, l'accès aux données est-il limité aux bons utilisateurs, dans le bon environnement et à des fins approuvées ?
- Le risque lié à ces données peut-il être réduit grâce à des stratégies de minimisation et d'obscurcissement des données ?
Une approche éclairée et basée sur les risques peut vous aider à exploiter pleinement vos données sans compromettre la confidentialité de vos utilisateurs.
Exemple d'analyse
Pour cet exemple, supposons que votre équipe chargée des données essaie de créer un modèle de machine learning basé sur les commentaires des clients dans les avis sur les produits.
Quel type de données cette charge de travail gère-t-elle ? Certaines d'entre elles sont-elles sensibles ?
Dans la charge de travail de données, vous avez constaté que la clé primaire utilisée est l'adresse e-mail du client. Les adresses e-mail des clients contiennent souvent leur nom. De plus, les avis sur les produits contiennent des données non structurées (ou données de format libre) envoyées par le client. Les données non structurées peuvent contenir des instances intermittentes de données sensibles, telles que des numéros de téléphone et des adresses.
Ces données sont-elles correctement exposées ?
Vous avez constaté que les données ne sont accessibles qu'à l'équipe produit. Toutefois, vous souhaitez partager les données avec votre équipe d'analyse de données afin qu'elle puisse les utiliser pour créer un modèle de machine learning. Exposer les données à un plus grand nombre de personnes signifie également les exposer à davantage d'environnements de développement dans lesquels elles seront stockées et traitées. Vous avez déterminé que le risque d'exposition augmentera.
Le risque lié à ces données peut-il être réduit grâce à des stratégies de minimisation et d'obscurcissement des données ?
Vous savez que l'équipe d'analyse n'a pas besoin des informations permettant d'identifier personnellement l'utilisateur (PII) sensibles de l'ensemble de données. Toutefois, il doit agréger les données par client. Il a besoin d'un moyen de déterminer quelles avis appartiennent au même client. Pour répondre à ce besoin, vous décidez de tokeniser toutes les informations permettant d'identifier personnellement l'utilisateur structurées (les adresses e-mail des clients) afin de préserver l'intégrité référentielle de vos données. Vous décidez également d'inspecter les données non structurées (les avis) et de masquer les données sensibles intermittentes qu'elles contiennent.
Étape suivante
- Comparer les services de protection des données sensibles qui vous aident à en savoir plus sur vos données (document suivant de cette série)