Cette série de documents fournit des stratégies d'évaluation et d'atténuation des risques liés aux données dans votre organisation. Il décrit et compare également deux services de protection des données sensibles qui vous permettent d'en savoir plus sur votre stratégie actuelle de sécurité des données.
Objectifs de la gestion des risques liés aux données
La gestion des risques liés aux données implique de stocker, de traiter et d'utiliser vos données selon les niveaux de risque appropriés pour votre entreprise. Lorsque vous gérez les risques liés aux données, nous vous recommandons de viser les objectifs suivants:
- Vos données sont découvertes et classées correctement.
- Le risque d'exposition des données est bien compris.
- Les données sont protégées par des contrôles appropriés ou atténuées par l'obscurcissement.
Lorsque vous évaluez vos charges de travail de données, vous pouvez commencer par vous poser les questions suivantes:
- Quel type de données cette charge de travail gère-t-elle ? Est-elle sensible ?
- Ces données sont-elles correctement exposées ? Par exemple, l'accès aux données est-il réservé aux bons utilisateurs, dans le bon environnement et dans un but approuvé ?
- Le risque lié à ces données peut-il être réduit par des stratégies de minimisation et d'obscurcissement des données ?
En adoptant une approche bien éclairée et axée sur les risques, vous pouvez exploiter pleinement vos données sans compromettre la confidentialité de vos utilisateurs.
Exemple d'analyse
Dans cet exemple, supposons que votre équipe de données tente de créer un modèle de machine learning basé sur les commentaires des clients dans les avis sur les produits.
Quel type de données cette charge de travail gère-t-elle ? Est-ce qu'elles sont sensibles ?
Dans la charge de travail de données, vous avez constaté que la clé primaire utilisée est l'adresse e-mail du client. Les adresses e-mail des clients contiennent souvent le nom des clients. De plus, les avis sur les produits eux-mêmes contiennent des données non structurées (ou données de forme libre) envoyées par les clients. Les données non structurées peuvent contenir des instances intermittentes de données sensibles telles que des numéros de téléphone et des adresses.
Ces données sont-elles correctement exposées ?
Vous avez constaté que seule l'équipe produit peut accéder aux données. Cependant, vous souhaitez partager les données avec votre équipe d'analyse de données, afin qu'elle puisse les utiliser pour créer un modèle de machine learning. Exposer les données à un plus grand nombre de personnes signifie également les exposer à un plus grand nombre d'environnements de développement où elles seront stockées et traitées. Vous avez déterminé que le risque d'exposition va augmenter.
Le risque lié à ces données peut-il être réduit par des stratégies de minimisation et d'obscurcissement des données ?
Vous savez que l'équipe d'analyse n'a besoin d'aucune des informations personnelles sensibles contenues dans l'ensemble de données. Ils doivent toutefois agréger les données par client. Ils ont besoin d'un moyen de déterminer quels avis appartiennent au même client. Pour répondre à ce besoin, vous décidez de tokeniser toutes les informations structurées d'informations permettant d'identifier personnellement l'utilisateur (les adresses e-mail des clients) afin de préserver l'intégrité référentielle de vos données. Vous décidez également d'inspecter les données non structurées (les avis) et de masquer les données sensibles intermittentes qu'elles contiennent.
Étapes suivantes
- Comparez les services de protection des données sensibles qui vous permettent d'en savoir plus sur vos données (prochain document de cette série)