Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Il est essentiel de sécuriser votre environnement Dataproc pour protéger les données sensibles et empêcher les accès non autorisés.
Ce document présente les principales bonnes pratiques pour améliorer votre stratégie de sécurité Dataproc, y compris des recommandations pour la sécurité du réseau, Identity and Access Management, le chiffrement et la configuration sécurisée des clusters.
Sécurité du réseau
Déployez Dataproc dans un VPC privé. Créez un cloud privé virtuel dédié pour vos clusters Dataproc, en les isolant des autres réseaux et de l'Internet public.
Utilisez des adresses IP privées. Pour protéger vos clusters Dataproc contre l'exposition à l'Internet public, utilisez des adresses IP privées pour renforcer la sécurité et l'isolation.
Configurez des règles de pare-feu. Implémentez des règles de pare-feu strictes pour contrôler le trafic vers et depuis vos clusters Dataproc. N'autorisez que les ports et protocoles nécessaires.
Utilisez l'appairage de réseaux. Pour une isolation renforcée, établissez un appairage de réseaux VPC entre votre VPC Dataproc et d'autres VPC sensibles pour une communication contrôlée.
Activez la passerelle des composants. Activez la passerelle des composants Dataproc lorsque vous créez des clusters pour accéder de manière sécurisée aux interfaces utilisateur de l'écosystème Hadoop, comme les interfaces utilisateur des serveurs YARN, HDFS ou Spark, au lieu d'ouvrir les ports du pare-feu.
Identity and Access Management
Isoler les autorisations. Utilisez des comptes de service de plan de données différents pour différents clusters. N'attribuez aux comptes de service que les autorisations dont les clusters ont besoin pour exécuter leurs charges de travail.
Évitez de vous appuyer sur le compte de service Google Compute Engine (GCE) par défaut.
N'utilisez pas le compte de service par défaut pour vos clusters.
Respectez le principe du moindre privilège. N'accordez que les autorisations minimales nécessaires aux comptes de service et aux utilisateurs Dataproc.
Appliquez le contrôle des accès basé sur les rôles (RBAC). Envisagez de définir des autorisations IAM pour chaque cluster.
Utilisez des rôles personnalisés. Créez des rôles IAM personnalisés précis, adaptés à des fonctions spécifiques dans votre environnement Dataproc.
Vérifiez régulièrement. Auditez régulièrement les autorisations et les rôles IAM pour identifier et supprimer les privilèges inutiles ou excessifs.
Chiffrement
Chiffrer les données au repos. Pour le chiffrement des données au repos, utilisez Cloud Key Management Service (KMS) ou les clés de chiffrement gérées par le client (CMEK).
De plus, utilisez des règles d'administration pour appliquer le chiffrement des données au repos lors de la création de clusters.
Chiffrez les données en transit. Activez SSL/TLS pour la communication entre les composants Dataproc (en activant le mode sécurisé Hadoop) et les services externes.
Cela protège les données en transit.
Faites attention aux données sensibles. Soyez prudent lorsque vous stockez et transmettez des données sensibles telles que des informations permettant d'identifier personnellement l'utilisateur ou des mots de passe. Utilisez des solutions de chiffrement et de gestion des secrets si nécessaire.
Configuration sécurisée du cluster
Authentifiez-vous à l'aide de Kerberos. Pour empêcher tout accès non autorisé aux ressources du cluster, implémentez le mode sécurisé Hadoop à l'aide de l'authentification Kerberos. Pour en savoir plus, consultez Sécuriser la multitenancy avec Kerberos.
Utilisez un mot de passe principal racine sécurisé et un stockage sécurisé basé sur KMS. Pour les clusters qui utilisent Kerberos, Dataproc configure automatiquement des fonctionnalités de renforcement de la sécurité pour tous les composants Open Source exécutés dans le cluster.
Activez la connexion au système d'exploitation. Activez OS Login pour renforcer la sécurité lorsque vous gérez des nœuds de cluster à l'aide de SSH.
Séparez les buckets de préproduction et temporaires sur Google Cloud Storage (GCS). Pour assurer l'isolation des autorisations, séparez les buckets de préproduction et temporaires pour chaque cluster Dataproc.
Utilisez Secret Manager pour stocker les identifiants.Secret Manager peut protéger vos données sensibles, telles que vos clés API, vos mots de passe et vos certificats.
Utilisez-le pour gérer, consulter et auditer vos secrets sur Google Cloud.
Utilisez des contraintes organisationnelles personnalisées. Vous pouvez utiliser une règle d'administration personnalisée pour autoriser ou refuser des opérations spécifiques sur les clusters Dataproc.
Par exemple, si une demande de création ou de mise à jour d'un cluster ne satisfait pas la validation des contraintes personnalisées définies par votre règle d'administration, la requête échoue et une erreur est renvoyée à l'appelant.
Étapes suivantes
En savoir plus sur les autres fonctionnalités de sécurité de Dataproc :
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[[["\u003cp\u003eSecuring your Dataproc environment involves implementing best practices for network security, Identity and Access Management (IAM), encryption, and secure cluster configurations.\u003c/p\u003e\n"],["\u003cp\u003eNetwork security measures include deploying Dataproc in a private Virtual Private Cloud (VPC), using private IPs, configuring firewall rules, implementing VPC Network Peering, and enabling the Component Gateway.\u003c/p\u003e\n"],["\u003cp\u003eIdentity and Access Management practices include isolating permissions with separate service accounts, adhering to the principle of least privilege, enforcing role-based access control (RBAC), and regularly reviewing IAM permissions.\u003c/p\u003e\n"],["\u003cp\u003eEncryption involves encrypting data at rest using Cloud Key Management Service (KMS) or Customer Managed Encryption Keys (CMEK), encrypting data in transit with SSL/TLS, and using secure practices for sensitive data.\u003c/p\u003e\n"],["\u003cp\u003eSecure cluster configuration involves using Kerberos authentication, enabling OS Login, segregating staging and temp buckets on Google Cloud Storage (GCS), utilizing Secret Manager, and leveraging custom organizational constraints.\u003c/p\u003e\n"]]],[],null,["Securing your Dataproc environment is crucial for protecting\nsensitive data and preventing unauthorized access.\nThis document outlines key best practices to enhance your\nDataproc security posture, including recommendations for\nnetwork security, Identity and Access Management, encryption, and secure cluster configuration.\n\nNetwork security\n\n- **Deploy Dataproc in a private VPC** . Create a dedicated\n [Virtual Private Cloud](/vpc/docs/overview) for your Dataproc clusters,\n isolating them from other networks and the public internet.\n\n- **Use private IPs**. To protect your Dataproc clusters\n from exposure to the public internet, use private IP addresses\n for enhanced security and isolation.\n\n- **Configure firewall rules** . Implement strict [firewall rules](/firewall/docs/using-firewalls) to control traffic to and from your\n Dataproc clusters. Allow only necessary ports and protocols.\n\n- **Use network peering** . For enhanced isolation, establish\n [VPC Network Peering](/vpc/docs/vpc-peering) between your\n Dataproc VPC and other sensitive VPCs for controlled\n communication.\n\n- **Enable Component Gateway** . Enable the [Dataproc\n Component Gateway](/dataproc/docs/concepts/accessing/dataproc-gateways) when you\n create clusters to securely access Hadoop ecosystem UIs, such as like the YARN,\n HDFS, or Spark server UI, instead of opening the firewall ports.\n\nIdentity and Access Management\n\n- **Isolate permissions** . Use different [data plane service accounts](/dataproc/docs/concepts/configuring-clusters/service-accounts#VM_service_account)\n for different clusters. Assign to service accounts only the permissions\n that clusters need to run their workloads.\n\n- **Avoid relying on the Google Compute Engine (GCE) default service account** .\n Don't use the [default service account](/compute/docs/access/service-accounts#default_service_account) for your clusters.\n\n- **Adhere to the principle of least privilege** . Grant only the [minimum\n necessary permissions](/iam/docs/using-iam-securely#least_privilege) to\n Dataproc service accounts and users.\n\n- **Enforce role-based access control (RBAC)** . Consider setting [IAM permissions](/iam/docs/roles-overview) for each cluster.\n\n- **Use custom roles** . Create fine-grained [custom IAM roles](/iam/docs/creating-custom-roles) tailored to\n specific job functions within your Dataproc environment.\n\n- **Review regularly**. Regularly audit IAM permissions and roles to identify\n and remove any excessive or unused privileges.\n\nEncryption\n\n- **Encrypt data at rest** . For data encryption at rest, use the\n [Cloud Key Management Service](/kms/docs/key-management-service) (KMS) or\n [Customer Managed Encryption Keys](/dataproc/docs/concepts/configuring-clusters/customer-managed-encryption) (CMEK).\n Additionally, use organizational policies to enforce data encryption at rest\n for cluster creation.\n\n- **Encrypt data in transit** . Enable SSL/TLS for communication between\n Dataproc components (by enabling [Hadoop Secure Mode](/dataproc/docs/concepts/configuring-clusters/security)) and external services.\n This protects data in motion.\n\n- **Beware of sensitive data**. Exercise caution when storing and passing\n sensitive data like PII or passwords. Where required, use encryption and\n secrets management solutions.\n\nSecure cluster configuration\n\n- **Authenticate using Kerberos** . To prevent unauthorized access to cluster\n resources, implement Hadoop Secure Mode using [Kerberos](https://web.mit.edu/kerberos/#what_is) authentication. For\n more information, see [Secure multi-tenancy through Kerberos](/dataproc/docs/concepts/configuring-clusters/security).\n\n- **Use a strong root principal password and secure KMS-based storage**. For\n clusters that use Kerberos, Dataproc automatically configures\n security hardening features for all open source components running in the cluster.\n\n- **Enable OS login** . Enable [OS Login](/compute/docs/oslogin/set-up-oslogin)\n for added security when managing cluster nodes using SSH.\n\n- **Segregate staging and temp buckets on Google Cloud Storage (GCS)** . To\n ensure permission isolation, segregate [staging and temp buckets](/dataproc/docs/concepts/configuring-clusters/staging-bucket) for each\n Dataproc cluster.\n\n- **Use Secret Manager to store credentials** . The [Secret Manager](/dataproc/docs/guides/hadoop-google-secret-manager-credential-provider) can\n safeguard your sensitive data, such as your API keys, passwords, and certificates.\n Use it to manage, access, and audit your secrets across Google Cloud.\n\n- **Use custom organizational constraints** . You can use a [custom organization\n policy](/resource-manager/docs/organization-policy/overview#custom-organization-policies)\n to allow or deny specific operations on Dataproc clusters.\n For example, if a request to create or update a cluster fails to satisfy custom\n constraint validation as set by your organization policy, the request fails and\n an error is returned to the caller.\n\nWhat's next\n\nLearn more about other Dataproc security features:\n\n- [Secure multi-tenancy through service accounts](/dataproc/docs/concepts/iam/sa-multi-tenancy)\n- [Set up a Confidential VM with inline memory encryption](/dataproc/docs/concepts/configuring-clusters/confidential-compute)\n- [Activate an authorization service on each cluster VM](/dataproc/docs/concepts/configuring-clusters/ranger-plugin)"]]