Bonnes pratiques de sécurité pour Dataproc

Sécuriser votre environnement Dataproc est essentiel pour protéger les données sensibles et empêcher les accès non autorisés. Ce document décrit les bonnes pratiques clés à suivre pour améliorer votre stratégie de sécurité Dataproc, y compris des recommandations concernant la sécurité réseau, Identity and Access Management, le chiffrement et la configuration sécurisée des clusters.

La sécurité du réseau

  • Déployez Dataproc dans un VPC privé. Créez un cloud privé virtuel dédié pour vos clusters Dataproc, en les isolant des autres réseaux et de l'Internet public.

  • Utilisez des adresses IP privées. Pour protéger vos clusters Dataproc contre l'exposition à l'Internet public, utilisez des adresses IP privées pour améliorer la sécurité et l'isolation.

  • Configurez des règles de pare-feu. Mettez en œuvre des règles de pare-feu strictes pour contrôler le trafic à destination et en provenance de vos clusters Dataproc. N'autorisez que les ports et protocoles nécessaires.

  • Utilisez l'appairage de réseaux. Pour une isolation améliorée, établissez un appairage de réseaux VPC entre votre VPC Dataproc et d'autres VPC sensibles pour une communication contrôlée.

  • Activez la passerelle des composants. Activez la passerelle des composants Dataproc lorsque vous créez des clusters pour accéder de manière sécurisée aux interfaces utilisateur de l'écosystème Hadoop, telles que l'UI du serveur YARN, HDFS ou Spark, au lieu d'ouvrir les ports de pare-feu.

Identity and Access Management

  • Isolez les autorisations. Utilisez différents comptes de service de plan de données pour différents clusters. N'attribuez aux comptes de service que les autorisations dont les clusters ont besoin pour exécuter leurs charges de travail.

  • Évitez d'utiliser le compte de service par défaut de Google Compute Engine (GCE). N'utilisez pas le compte de service par défaut pour vos clusters.

  • Suivez le principe du moindre privilège. N'accordez que les autorisations minimales nécessaires aux comptes de service et aux utilisateurs Dataproc.

  • Appliquez le contrôle des accès basé sur les rôles (RBAC). Envisagez de définir des autorisations IAM pour chaque cluster.

  • Utiliser des rôles personnalisés Créez des rôles IAM personnalisés ultraprécis adaptés à des fonctions métier spécifiques dans votre environnement Dataproc.

  • Vérifiez régulièrement. Auditez régulièrement les autorisations et les rôles IAM afin d'identifier et de supprimer tout droit en excès ou non utilisé.

Chiffrement

  • Chiffrer les données au repos : Pour le chiffrement des données au repos, utilisez le service Cloud Key Management Service (KMS) ou les clés de chiffrement gérées par le client (CMEK). De plus, utilisez des règles d'administration pour appliquer le chiffrement des données au repos lors de la création de clusters.

  • Chiffrer les données en transit Activez SSL/TLS pour la communication entre les composants Dataproc (en activant le mode sécurisé Hadoop) et les services externes. Cela protège les données en mouvement.

  • Méfiez-vous des données sensibles. Soyez prudent lorsque vous stockez et transmettez des données sensibles telles que des informations permettant d'identifier personnellement l'utilisateur ou des mots de passe. Si nécessaire, utilisez des solutions de chiffrement et de gestion des secrets.

Configuration sécurisée du cluster

  • Authentifiez-vous à l'aide de Kerberos. Pour empêcher tout accès non autorisé aux ressources du cluster, mettez en œuvre le mode sécurisé Hadoop à l'aide de l'authentification Kerberos. Pour en savoir plus, consultez la page Architecture mutualisée sécurisée via Kerberos.

  • Utilisez un mot de passe principal racine sécurisé et un espace de stockage sécurisé basé sur KMS. Pour les clusters qui utilisent Kerberos, Dataproc configure automatiquement les fonctionnalités de renforcement de la sécurité pour tous les composants Open Source exécutés dans le cluster.

  • Activez OS Login. Activez OS Login pour plus de sécurité lors de la gestion des nœuds de cluster à l'aide de SSH.

  • Séparez les buckets de préproduction et les buckets temporaires sur Google Cloud Storage (GCS). Pour assurer l'isolation des autorisations, séparez les buckets de préproduction et les buckets temporaires pour chaque cluster Dataproc.

  • Stockez les identifiants à l'aide de Secret Manager. Secret Manager peut protéger vos données sensibles, telles que vos clés API, vos mots de passe et vos certificats. Utilisez-le pour gérer vos secrets, y accéder et les auditer sur Google Cloud.

  • Utilisez des contraintes organisationnelles personnalisées. Vous pouvez utiliser une règle d'administration personnalisée pour autoriser ou refuser des opérations spécifiques sur les clusters Dataproc. Par exemple, si une requête de création ou de mise à jour d'un cluster ne répond pas aux exigences de validation de contrainte personnalisée définie par votre règle d'administration, la requête échoue et une erreur est renvoyée à l'appelant.

Étapes suivantes

En savoir plus sur les autres fonctionnalités de sécurité de Dataproc: