Ce document du framework d'architecture Google Cloud présente les bonnes pratiques à suivre pour appliquer la sécurité des données.
Dans le cadre de votre architecture de déploiement, vous devez prendre en compte les données que vous prévoyez de traiter et de stocker dans Google Cloud, ainsi que leur sensibilité. Concevez vos contrôles pour sécuriser les données tout au long de leur cycle de vie, pour identifier leur propriétaire et leur classification, et pour protéger les données contre toute utilisation non autorisée.
Pour obtenir un plan de sécurité qui déploie un entrepôt de données BigQuery avec les bonnes pratiques de sécurité décrites dans ce document, consultez la page Sécuriser un entrepôt de données BigQuery qui stocke des données confidentielles.
Classer automatiquement vos données
Classez les données le plus tôt possible dans le cycle de gestion des données, idéalement lorsqu'elles sont créées. En général, les tâches de classification des données ne nécessitent que quelques catégories comme les suivantes :
- Public : données dont l'accès public a été approuvé.
- Interne : données non sensibles qui ne sont pas divulguées au public.
- Confidentiel : données sensibles disponibles pour une distribution interne générale.
- Limitée : données très sensibles ou réglementées qui nécessitent une distribution restreinte.
Utilisez la protection des données sensibles pour détecter et classifier les données de votre environnement Google Cloud. La protection des données sensibles dispose d'une compatibilité native pour l'analyse et la classification de données sensibles dans Cloud Storage, BigQuery et Datastore. Il offre également une API de streaming compatible avec d'autres sources de données et charges de travail personnalisées.
La protection des données sensibles peut identifier les données sensibles à l'aide d'infoTypes intégrés. Il peut automatiquement classer, masquer, tokeniser et transformer des éléments sensibles (tels que les informations personnelles) pour vous permettre de gérer les risques liés à la collecte, au stockage et à l'utilisation des données. En d'autres termes, il peut s'intégrer à vos processus de cycle de vie des données pour garantir la protection des données à chaque étape.
Pour en savoir plus, consultez la section Anonymiser et désanonymiser les informations personnelles dans les ensembles de données à grande échelle à l'aide de la protection des données sensibles.
Gérer la gouvernance des données à l'aide de métadonnées
La gouvernance des données est un ensemble de processus qui garantissent la sécurité, la confidentialité, l'exactitude, la disponibilité et l'exploitabilité des données. Bien que vous soyez seul responsable de la définition d'une stratégie de gouvernance des données pour votre entreprise, Google Cloud fournit des outils et des technologies qui vous aideront à mettre en œuvre votre stratégie. Google Cloud propose également un framework pour la gouvernance des données (PDF) dans le cloud.
Utilisez Data Catalog pour trouver, organiser et utiliser des métadonnées afin de décrire vos éléments de données dans le cloud. Vous pouvez utiliser Data Catalog pour rechercher des éléments de données, puis leur ajouter des tags contenant des métadonnées. Pour accélérer vos efforts de classification des données, intégrez Data Catalog à la protection des données sensibles pour identifier automatiquement les données confidentielles. Une fois les données taguées, vous pouvez utiliser Google Identity and Access Management (IAM) pour limiter les données que les utilisateurs peuvent interroger ou utiliser via les vues Data Catalog.
Utilisez Dataproc Metastore ou le métastore Hive pour gérer les métadonnées des charges de travail. Data Catalog dispose d'un connecteur Hive qui permet au service de découvrir les métadonnées présentes dans un métastore Hive.
Utilisez Dataprep by Trifacta pour définir et appliquer des règles de qualité des données via une console. Vous pouvez utiliser Dataprep à partir de Cloud Data Fusion ou en tant que service autonome.
Protéger les données en fonction de leur phase de cycle de vie et de leur classification
Une fois que vous avez défini les données dans le contexte de leur cycle de vie et que vous les avez classées en fonction de leur sensibilité et des risques associés, vous pouvez attribuer des contrôles de sécurité appropriés pour les protéger. Vous devez vous assurer que vos contrôles offrent des protections appropriées, respectent les exigences de conformité et réduisent les risques. Lors de la transition vers le cloud, examinez votre stratégie actuelle et les points susceptibles de nécessiter une modification de vos processus actuels.
Le tableau suivant décrit trois caractéristiques d'une stratégie de sécurité des données dans le cloud.
Caractéristique | Description |
---|---|
Identification | Comprenez l'identité des utilisateurs, des ressources et des applications lors de la création, de la modification, du stockage, de l'utilisation, du partage et de la suppression de données. Utilisez Cloud Identity et IAM pour contrôler l'accès aux données. Si vos identités requièrent des certificats, envisagez d'utiliser Certificate Authority Service. Pour en savoir plus, consultez la page Gérer l'authentification et l'accès. |
Limites et accès | Mettez en place des contrôles sur la manière dont les données sont accessibles, par qui et dans quelles circonstances. Les limites d'accès aux données peuvent être gérées à ces niveaux :
|
Visibilité | Vous pouvez auditer l'utilisation et créer des rapports montrant comment les données sont contrôlées et consultées. Google Cloud Logging et Access Transparency fournissent des informations sur les activités de vos propres administrateurs cloud et du personnel Google. Pour en savoir plus, consultez la page Surveiller vos données. |
Chiffrer les données
Par défaut, Google Cloud chiffre les données client stockées au repos, sans aucune action requise de votre part. En plus du chiffrement par défaut, Google Cloud propose des options de chiffrement encapsulé et de gestion des clés de chiffrement. Par exemple, les disques persistants Compute Engine sont chiffrés automatiquement mais vous pouvez fournir ou gérer vos propres clés.
Vous devez identifier les solutions les plus adaptées à vos exigences en termes de génération, de stockage et de rotation des clés, que ce soit pour des charges de travail de stockage, de calcul ou de big data.
Google Cloud propose les options suivantes pour le chiffrement et la gestion des clés :
- Clés de chiffrement gérées par le client (CMEK). Vous pouvez générer et gérer vos clés de chiffrement à l'aide de Cloud Key Management Service (Cloud KMS). Utilisez cette option si vous avez des exigences spécifiques pour la gestion des clés, par exemple si vous avez besoin d'alterner régulièrement les clés de chiffrement.
- Clés de chiffrement fournies par le client (CSEK). Vous pouvez créer et gérer vos propres clés de chiffrement, puis les fournir à Google Cloud si nécessaire. Utilisez cette option pour apporter votre propre clé (BYOK) si vous générez vos propres clés à l'aide de votre système de gestion de clés sur site. Si vous fournissez vos propres clés à l'aide de CSEK, Google les réplique et les met à la disposition de vos charges de travail. Toutefois, la sécurité et la disponibilité des CSEK relèvent de votre responsabilité, car les clés fournies par le client ne sont pas stockées dans les modèles d'instance ni dans l'infrastructure Google. Si vous perdez l'accès aux clés, Google ne peut pas vous aider à récupérer les données chiffrées. Réfléchissez bien aux clés que vous souhaitez créer et gérer vous-même. Vous pouvez utiliser les CSEK pour les informations les plus sensibles. Une autre option consiste à effectuer un chiffrement côté client sur vos données, puis à stocker les données chiffrées dans Google Cloud, où les données sont à nouveau chiffrées par Google.
- Système de gestion de clés tiers avec Cloud External Key Manager (Cloud EKM). Cloud EKM protège vos données au repos à l'aide de clés de chiffrement stockées et gérées dans un système de gestion de clés tiers que vous contrôlez en dehors de l'infrastructure Google. Lorsque vous utilisez cette méthode, vous avez la certitude que vos données ne sont pas accessibles à des personnes externes à votre organisation. Cloud EKM vous permet d'obtenir un modèle HYOK ("Hold Your Own Key") pour la gestion des clés. Pour plus d'informations sur la compatibilité, consultez la liste des services compatibles avec Cloud EKM.
Cloud KMS vous permet également de chiffrer vos données avec des clés de chiffrement logicielles ou des modules de sécurité matériels (HSM) validés FIPS 140-2 de niveau 3. Si vous utilisez Cloud KMS, vos clés cryptographiques sont stockées dans la région où vous déployez la ressource. Cloud HSM distribue vos besoins en gestion des clés entre les régions, et assure la redondance et la disponibilité mondiale des clés.
Pour en savoir plus sur le fonctionnement du chiffrement encapsulé, consultez la page Chiffrement au repos dans Google Cloud.
Contrôler l'accès des administrateurs cloud à vos données
Vous pouvez contrôler l'accès de votre personnel d'assistance et d'ingénierie à votre environnement Google Cloud. Access Approval vous permet d'autoriser explicitement les employés de Google à accéder à vos données ou ressources sur Google Cloud. Ce produit vient compléter la visibilité fournie par Access Transparency, qui génère des journaux lorsque le personnel de Google interagit avec vos données. Ces journaux incluent l'emplacement du bureau et le motif de l'accès.
En utilisant ces produits ensemble, vous pouvez refuser à Google la possibilité de déchiffrer vos données pour quelque raison que ce soit.
Configurez l'emplacement de stockage de vos données et l'emplacement où les utilisateurs peuvent y accéder.
Vous pouvez contrôler les emplacements réseau à partir desquels les utilisateurs peuvent accéder aux données à l'aide de VPC Service Controls. Cet outil vous permet de limiter l'accès aux utilisateurs d'une région spécifique. Vous pouvez appliquer cette contrainte même si l'utilisateur est autorisé conformément à votre stratégie IAM Cloud. À l'aide de VPC Service Controls, vous pouvez créer un périmètre de service qui définit les limites virtuelles à partir desquelles un service est accessible, ce qui empêche le déplacement des données en dehors de ces limites.
Pour en savoir plus, consultez les ressources suivantes :
- Automatisation de la classification des données téléchargées sur Cloud Storage
- Gouvernance des données dans le cloud
- Gouvernance de données depuis l'entrepôt de données vers BigQuery
- Métastore Hive désormais disponible
Gérer les secrets avec le gestionnaire de secrets
Secret Manager vous permet de stocker tous vos secrets de manière centralisée. Les codes secrets sont des informations de configuration telles que les mots de passe de base de données, les clés API ou les certificats TLS. Vous pouvez effectuer une rotation automatique des secrets et configurer les applications pour qu'elles utilisent automatiquement la dernière version d'un secret. Chaque interaction avec Secret Manager génère une entrée de journal d'audit. Vous pouvez donc contrôler chaque accès à chaque secret.
La protection des données sensibles intègre également une catégorie de détecteurs pour vous aider à identifier les identifiants et les secrets dans les données pouvant être protégées par Secret Manager.
Surveiller vos données
Pour consulter les journaux des activités d'administration et de l'utilisation des clés, utilisez Cloud Audit Logging. Pour sécuriser vos données et vous assurer que vos clés sont utilisées correctement, surveillez les journaux à l'aide de Cloud Monitoring.
Cloud Logging capture les événements Google Cloud et vous permet d'ajouter des sources supplémentaires si nécessaire. Vous pouvez segmenter vos journaux par région, les stocker dans des buckets et intégrer du code personnalisé pour le traitement des journaux. Pour obtenir un exemple, consultez la section Solution personnalisée pour l'analyse automatisée des journaux.
Vous pouvez également exporter les journaux vers BigQuery pour effectuer des analyses de sécurité et d'accès afin d'identifier les modifications non autorisées et les accès inappropriés aux données de votre organisation.
Security Command Center peut vous aider à identifier et à résoudre les problèmes d'accès non sécurisé aux données organisationnelles sensibles stockées dans le cloud. Grâce à une interface de gestion unique, vous pouvez rechercher une grande variété de failles et de risques de sécurité dans votre infrastructure cloud. Par exemple, vous pouvez surveiller l'exfiltration de données, rechercher des données confidentielles dans les systèmes de stockage et détecter les buckets Cloud Storage ouverts à Internet.
Étape suivante
Pour en savoir plus sur la sécurité des données, consultez les ressources suivantes :
Déployer des applications en toute sécurité (document suivant de cette série)
Sécuriser un entrepôt de données BigQuery qui stocke des données confidentielles
Concevoir et déployer une stratégie de sécurité des données (PDF)
Stocker des données en toute confiance avec Google Cloud Platform (PDF)