Cette page présente les stratégies recommandées pour identifier et corriger les risques liés aux données dans votre organisation.
La protection de vos données commence par comprendre quelles données vous gérez, où se trouvent les données sensibles et comment elles sont sécurisées et utilisées. Lorsque vous disposez d'une vue complète de vos données et de leur posture de sécurité, vous pouvez prendre les mesures appropriées pour les protéger et surveiller en permanence la conformité et les risques.
Cette page part du principe que vous connaissez les services de découverte et d'inspection, ainsi que leurs différences.
Activer la découverte de données sensibles
Pour déterminer où se trouvent les données sensibles dans votre entreprise, configurez la découverte au niveau de l'organisation, du dossier ou du projet. Ce service génère des profils de données contenant des métriques et des insights sur vos données, y compris leurs niveaux de sensibilité et de risque.
En tant que service, la détection sert de source de vérité sur vos composants de données et peut générer automatiquement des métriques pour les rapports d'audit. De plus, la découverte peut se connecter à d'autres services Google Cloud tels que Security Command Center, Google Security Operations et Dataplex pour enrichir les opérations de sécurité et la gestion des données.
Le service de découverte s'exécute en continu et détecte de nouvelles données à mesure que votre organisation fonctionne et se développe. Par exemple, si un membre de votre organisation crée un projet et importe une grande quantité de nouvelles données, le service de découverte peut découvrir, classer et générer des rapports sur les nouvelles données automatiquement.
La protection des données sensibles fournit un rapport Looker multipage prédéfini qui vous offre une vue d'ensemble de vos données, y compris une répartition par risque, par infoType et par emplacement. Dans l'exemple suivant, le rapport montre que des données à faible et à haute sensibilité sont présentes dans plusieurs pays du monde.
Intervenir en fonction des résultats de la recherche
Une fois que vous avez obtenu une vue d'ensemble de votre niveau de sécurité des données, vous pouvez corriger les problèmes détectés. En général, les résultats de la découverte entrent dans l'un des scénarios suivants:
- Scénario 1: Des données sensibles ont été détectées dans une charge de travail où elles sont attendues et correctement protégées.
- Scénario 2: Des données sensibles ont été détectées dans une charge de travail où elles n'étaient pas attendues ou où les contrôles appropriés n'étaient pas en place.
- Scénario 3: Des données sensibles ont été détectées, mais des recherches supplémentaires sont nécessaires.
Scénario 1: Des données sensibles ont été détectées et sont correctement protégées
Bien que ce scénario ne nécessite aucune action spécifique, vous devez inclure les profils de données dans vos rapports d'audit et vos workflows d'analyse de sécurité, et continuer à surveiller les modifications susceptibles de mettre vos données en danger.
Nous vous recommandons d'adopter les bonnes pratiques suivantes:
Publiez les profils de données dans des outils permettant de surveiller votre stratégie de sécurité et d'enquêter sur les cybermenaces. Les profils de données peuvent vous aider à déterminer la gravité d'une menace ou d'une faille de sécurité pouvant mettre en péril vos données sensibles. Vous pouvez exporter automatiquement des profils de données vers les destinations suivantes:
Publiez les profils de données dans Dataplex ou dans un système d'inventaire pour suivre les métriques des profils de données, ainsi que toutes les autres métadonnées commerciales appropriées. Pour en savoir plus sur l'exportation automatique des profils de données vers Dataplex, consultez Taguer des tables dans Dataplex en fonction des insights issus des profils de données.
Scénario 2: Des données sensibles ont été détectées et ne sont pas correctement protégées
Si la découverte détecte des données sensibles dans une ressource qui n'est pas correctement sécurisée par des contrôles d'accès, tenez compte des recommandations décrites dans cette section.
Une fois que vous avez défini les contrôles et la stratégie de sécurité des données appropriés pour vos données, surveillez toute modification pouvant les mettre en péril. Consultez les recommandations du scénario 1.
Recommandations générales
Voici quelques conseils:
Créez une copie anonymisée de vos données pour masquer ou coder les colonnes sensibles afin que vos analystes et ingénieurs de données puissent continuer à travailler avec vos données sans révéler d'identifiants bruts et sensibles tels que des informations permettant d'identifier personnellement l'utilisateur.
Pour les données Cloud Storage, vous pouvez utiliser une fonctionnalité intégrée de la protection des données sensibles pour créer des copies anonymisées.
Si vous n'en avez pas besoin, envisagez de les supprimer.
Recommandations pour protéger les données BigQuery
- Ajustez les autorisations au niveau des tables à l'aide d'IAM.
Définir des contrôles d'accès précis au niveau des colonnes à l'aide de tags avec stratégie BigQuery pour restreindre l'accès aux colonnes sensibles et à haut risque. Cette fonctionnalité vous permet de protéger ces colonnes tout en autorisant l'accès au reste du tableau.
Vous pouvez également utiliser des tags de stratégie pour activer le masquage automatique des données, qui peut fournir aux utilisateurs des données partiellement masquées.
Utilisez la fonctionnalité de sécurité au niveau des lignes de BigQuery pour masquer ou afficher certaines lignes de données, selon qu'un utilisateur ou un groupe figure dans une liste autorisée.
Anonymiser les données BigQuery au moment de la requête à l'aide de fonctions distantes (UDF)
Recommandations pour protéger les données Cloud Storage
Scénario 3: Des données sensibles ont été détectées, mais des investigations supplémentaires sont nécessaires
Dans certains cas, vous obtiendrez des résultats qui nécessiteront une enquête plus approfondie. Par exemple, un profil de données peut spécifier qu'une colonne a un score de texte libre élevé et qu'elle contient des données sensibles. Un score de texte libre élevé indique que les données n'ont pas de structure prévisible et qu'elles peuvent contenir des instances intermittentes de données sensibles. Il peut s'agir d'une colonne de notes dans laquelle certaines lignes contiennent des informations permettant d'identifier personnellement l'utilisateur, telles que des noms, des coordonnées ou des identifiants émis par une autorité gouvernementale. Dans ce cas, nous vous recommandons de définir des contrôles d'accès supplémentaires sur la table et d'effectuer les autres mesures correctives décrites dans le scénario 2. En outre, nous vous recommandons d'effectuer une inspection plus approfondie et ciblée pour identifier l'étendue du risque.
Le service d'inspection vous permet d'effectuer une analyse approfondie d'une seule ressource, telle qu'une table BigQuery ou un bucket Cloud Storage. Pour les sources de données qui ne sont pas directement compatibles avec le service d'inspection, vous pouvez exporter les données vers un bucket Cloud Storage ou une table BigQuery, puis exécuter une tâche d'inspection sur cette ressource. Par exemple, si vous avez des données à inspecter dans une base de données Cloud SQL, vous pouvez les exporter vers un fichier CSV ou AVRO dans Cloud Storage, puis exécuter une tâche d'inspection.
Une tâche d'inspection permet de localiser des instances individuelles de données sensibles, telles qu'un numéro de carte de crédit au milieu d'une phrase dans une cellule de tableau. Ce niveau de détail peut vous aider à comprendre le type de données présentes dans les colonnes non structurées ou dans les objets de données, y compris les fichiers texte, les PDF, les images et d'autres formats de documents enrichis. Vous pouvez ensuite corriger les problèmes identifiés en suivant l'une des recommandations décrites dans le scénario 2.
En plus des étapes recommandées dans le scénario 2, envisagez de prendre des mesures pour empêcher les informations sensibles d'entrer dans votre stockage de données backend.
Les méthodes content
de l'API Cloud Data Loss Prevention peuvent accepter les données de n'importe quelle charge de travail ou application pour l'inspection et le masquage des données en cours de transmission. Par exemple, votre application peut effectuer les opérations suivantes:
- Accepter un commentaire fourni par l'utilisateur.
- Exécutez
content.deidentify
pour anonymiser toutes les données sensibles de cette chaîne. - Enregistrez la chaîne anonymisée dans votre stockage backend au lieu de la chaîne d'origine.
Récapitulatif des bonnes pratiques
Le tableau suivant récapitule les bonnes pratiques recommandées dans ce document:
Défi | Action |
---|---|
Vous souhaitez savoir quel type de données votre organisation stocke. | Exécutez la découverte au niveau de l'organisation, du dossier ou du projet. |
Vous avez détecté des données sensibles dans une ressource déjà protégée. | Surveillez en continu cette ressource en exécutant une découverte et en exportant automatiquement les profils vers Security Command Center, Google SecOps et Dataplex. |
Vous avez détecté des données sensibles dans une ressource non protégée. | Masquer ou afficher des données en fonction de l'utilisateur qui les consulte : utilisez IAM, la sécurité au niveau des colonnes ou la sécurité au niveau des lignes. Vous pouvez également utiliser les outils d'anonymisation de la protection des données sensibles pour transformer ou supprimer les éléments sensibles. |
Vous avez trouvé des données sensibles et vous devez approfondir votre analyse pour comprendre l'étendue du risque lié à vos données. | Exécutez une tâche d'inspection sur la ressource. Vous pouvez également empêcher de manière proactive l'entrée de données sensibles dans votre stockage backend à l'aide des méthodes content synchrones de l'API DLP, qui traitent les données en quasi temps réel. |