Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Proteggere l'ambiente Dataproc è fondamentale per proteggere
i dati sensibili e impedire accessi non autorizzati.
Questo documento descrive le best practice chiave per migliorare la
postura di sicurezza di Dataproc, inclusi i consigli per
la sicurezza di rete, Identity and Access Management, la crittografia e la configurazione sicura del cluster.
Sicurezza della rete
Esegui il deployment di Dataproc in un VPC privato. Crea un Virtual Private Cloud dedicato per i tuoi cluster Dataproc, isolandoli da altre reti e da internet pubblico.
Utilizza IP privati. Per proteggere i cluster Dataproc
dall'esposizione a internet pubblico, utilizza indirizzi IP privati
per una maggiore sicurezza e isolamento.
Configura le regole firewall. Implementa regole firewall rigorose per controllare il traffico da e verso i cluster Dataproc. Consenti solo le porte e i protocolli necessari.
Utilizza il peering di rete. Per un isolamento avanzato, stabilisci il
peering di rete VPC tra il tuo
VPC Dataproc e altri VPC sensibili per una comunicazione
controllata.
Attiva gateway dei componenti. Attiva il gateway dei componenti di Dataproc quando crei cluster per accedere in modo sicuro alle UI dell'ecosistema Hadoop, come le UI del server YARN, HDFS o Spark, anziché aprire le porte del firewall.
Identity and Access Management
Isola autorizzazioni. Utilizza account di servizio del data plane diversi
per cluster diversi. Assegna ai service account solo le autorizzazioni
necessarie ai cluster per eseguire i workload.
Evita di fare affidamento sull'account di servizio predefinito di Google Compute Engine (GCE).
Non utilizzare l'account di servizio predefinito per i cluster.
Rispetta il principio del privilegio minimo. Concedi solo le autorizzazioni minime necessarie agli utenti e agli account di servizio Dataproc.
Applica controllo dell'accesso basato sui ruoli (RBAC). Valuta la possibilità di impostare le autorizzazioni IAM per ogni cluster.
Utilizzare ruoli personalizzati. Crea ruoli IAM personalizzati granulari adatti a
mansioni specifiche all'interno del tuo ambiente Dataproc.
Rivedi regolarmente. Controlla regolarmente i ruoli e le autorizzazioni IAM per identificare e rimuovere eventuali privilegi eccessivi o inutilizzati.
Crittografia
Crittografare i dati inattivi. Per la crittografia dei dati inattivi, utilizza
Cloud Key Management Service (KMS) o
chiavi di crittografia gestite dal cliente (CMEK).
Inoltre, utilizza i criteri dell'organizzazione per applicare la crittografia dei dati inattivi
per la creazione del cluster.
Cripta i dati in transito. Attiva SSL/TLS per la comunicazione tra i componenti Dataproc (attivando la modalità sicura di Hadoop) e i servizi esterni.
In questo modo i dati in transito sono protetti.
Fai attenzione ai dati sensibili. Presta attenzione quando memorizzi e trasmetti
dati sensibili come PII o password. Se necessario, utilizza soluzioni di crittografia e
gestione dei secret.
Configurazione sicura del cluster
Esegui l'autenticazione utilizzando Kerberos. Per impedire l'accesso non autorizzato alle risorse del cluster, implementa la modalità protetta di Hadoop utilizzando l'autenticazione Kerberos. Per
maggiori informazioni, consulta Multitenancy sicura tramite Kerberos.
Utilizza una password dell'entità root efficace e un archivio sicuro basato su KMS. Per
i cluster che utilizzano Kerberos, Dataproc configura automaticamente
le funzionalità di protezione avanzata per tutti i componenti open source in esecuzione nel cluster.
Attiva OS Login. Abilita OS Login
per una maggiore sicurezza durante la gestione dei nodi del cluster tramite SSH.
Separa i bucket temporanei e di gestione temporanea su Google Cloud Storage (GCS). Per
garantire l'isolamento delle autorizzazioni, separa i bucket temporanei e di gestione temporanea per ogni
cluster Dataproc.
Utilizza Secret Manager per archiviare le credenziali. Secret Manager può proteggere i tuoi dati sensibili, come chiavi API, password e certificati.
Utilizzalo per gestire, accedere e controllare i tuoi secret in Google Cloud.
Utilizzare vincoli organizzativi personalizzati. Puoi utilizzare un criterio dell'organizzazione personalizzato per consentire o negare operazioni specifiche sui cluster Dataproc.
Ad esempio, se una richiesta di creazione o aggiornamento di un cluster non soddisfa la convalida dei vincoli personalizzati impostata dalle norme della tua organizzazione, la richiesta non va a buon fine e viene restituito un errore al chiamante.
Passaggi successivi
Scopri di più sulle altre funzionalità di sicurezza di Dataproc:
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-09-04 UTC."],[[["\u003cp\u003eSecuring your Dataproc environment involves implementing best practices for network security, Identity and Access Management (IAM), encryption, and secure cluster configurations.\u003c/p\u003e\n"],["\u003cp\u003eNetwork security measures include deploying Dataproc in a private Virtual Private Cloud (VPC), using private IPs, configuring firewall rules, implementing VPC Network Peering, and enabling the Component Gateway.\u003c/p\u003e\n"],["\u003cp\u003eIdentity and Access Management practices include isolating permissions with separate service accounts, adhering to the principle of least privilege, enforcing role-based access control (RBAC), and regularly reviewing IAM permissions.\u003c/p\u003e\n"],["\u003cp\u003eEncryption involves encrypting data at rest using Cloud Key Management Service (KMS) or Customer Managed Encryption Keys (CMEK), encrypting data in transit with SSL/TLS, and using secure practices for sensitive data.\u003c/p\u003e\n"],["\u003cp\u003eSecure cluster configuration involves using Kerberos authentication, enabling OS Login, segregating staging and temp buckets on Google Cloud Storage (GCS), utilizing Secret Manager, and leveraging custom organizational constraints.\u003c/p\u003e\n"]]],[],null,["Securing your Dataproc environment is crucial for protecting\nsensitive data and preventing unauthorized access.\nThis document outlines key best practices to enhance your\nDataproc security posture, including recommendations for\nnetwork security, Identity and Access Management, encryption, and secure cluster configuration.\n\nNetwork security\n\n- **Deploy Dataproc in a private VPC** . Create a dedicated\n [Virtual Private Cloud](/vpc/docs/overview) for your Dataproc clusters,\n isolating them from other networks and the public internet.\n\n- **Use private IPs**. To protect your Dataproc clusters\n from exposure to the public internet, use private IP addresses\n for enhanced security and isolation.\n\n- **Configure firewall rules** . Implement strict [firewall rules](/firewall/docs/using-firewalls) to control traffic to and from your\n Dataproc clusters. Allow only necessary ports and protocols.\n\n- **Use network peering** . For enhanced isolation, establish\n [VPC Network Peering](/vpc/docs/vpc-peering) between your\n Dataproc VPC and other sensitive VPCs for controlled\n communication.\n\n- **Enable Component Gateway** . Enable the [Dataproc\n Component Gateway](/dataproc/docs/concepts/accessing/dataproc-gateways) when you\n create clusters to securely access Hadoop ecosystem UIs, such as like the YARN,\n HDFS, or Spark server UI, instead of opening the firewall ports.\n\nIdentity and Access Management\n\n- **Isolate permissions** . Use different [data plane service accounts](/dataproc/docs/concepts/configuring-clusters/service-accounts#VM_service_account)\n for different clusters. Assign to service accounts only the permissions\n that clusters need to run their workloads.\n\n- **Avoid relying on the Google Compute Engine (GCE) default service account** .\n Don't use the [default service account](/compute/docs/access/service-accounts#default_service_account) for your clusters.\n\n- **Adhere to the principle of least privilege** . Grant only the [minimum\n necessary permissions](/iam/docs/using-iam-securely#least_privilege) to\n Dataproc service accounts and users.\n\n- **Enforce role-based access control (RBAC)** . Consider setting [IAM permissions](/iam/docs/roles-overview) for each cluster.\n\n- **Use custom roles** . Create fine-grained [custom IAM roles](/iam/docs/creating-custom-roles) tailored to\n specific job functions within your Dataproc environment.\n\n- **Review regularly**. Regularly audit IAM permissions and roles to identify\n and remove any excessive or unused privileges.\n\nEncryption\n\n- **Encrypt data at rest** . For data encryption at rest, use the\n [Cloud Key Management Service](/kms/docs/key-management-service) (KMS) or\n [Customer Managed Encryption Keys](/dataproc/docs/concepts/configuring-clusters/customer-managed-encryption) (CMEK).\n Additionally, use organizational policies to enforce data encryption at rest\n for cluster creation.\n\n- **Encrypt data in transit** . Enable SSL/TLS for communication between\n Dataproc components (by enabling [Hadoop Secure Mode](/dataproc/docs/concepts/configuring-clusters/security)) and external services.\n This protects data in motion.\n\n- **Beware of sensitive data**. Exercise caution when storing and passing\n sensitive data like PII or passwords. Where required, use encryption and\n secrets management solutions.\n\nSecure cluster configuration\n\n- **Authenticate using Kerberos** . To prevent unauthorized access to cluster\n resources, implement Hadoop Secure Mode using [Kerberos](https://web.mit.edu/kerberos/#what_is) authentication. For\n more information, see [Secure multi-tenancy through Kerberos](/dataproc/docs/concepts/configuring-clusters/security).\n\n- **Use a strong root principal password and secure KMS-based storage**. For\n clusters that use Kerberos, Dataproc automatically configures\n security hardening features for all open source components running in the cluster.\n\n- **Enable OS login** . Enable [OS Login](/compute/docs/oslogin/set-up-oslogin)\n for added security when managing cluster nodes using SSH.\n\n- **Segregate staging and temp buckets on Google Cloud Storage (GCS)** . To\n ensure permission isolation, segregate [staging and temp buckets](/dataproc/docs/concepts/configuring-clusters/staging-bucket) for each\n Dataproc cluster.\n\n- **Use Secret Manager to store credentials** . The [Secret Manager](/dataproc/docs/guides/hadoop-google-secret-manager-credential-provider) can\n safeguard your sensitive data, such as your API keys, passwords, and certificates.\n Use it to manage, access, and audit your secrets across Google Cloud.\n\n- **Use custom organizational constraints** . You can use a [custom organization\n policy](/resource-manager/docs/organization-policy/overview#custom-organization-policies)\n to allow or deny specific operations on Dataproc clusters.\n For example, if a request to create or update a cluster fails to satisfy custom\n constraint validation as set by your organization policy, the request fails and\n an error is returned to the caller.\n\nWhat's next\n\nLearn more about other Dataproc security features:\n\n- [Secure multi-tenancy through service accounts](/dataproc/docs/concepts/iam/sa-multi-tenancy)\n- [Set up a Confidential VM with inline memory encryption](/dataproc/docs/concepts/configuring-clusters/confidential-compute)\n- [Activate an authorization service on each cluster VM](/dataproc/docs/concepts/configuring-clusters/ranger-plugin)"]]