Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Proteger tu entorno de Dataproc es fundamental para proteger los datos sensibles y evitar el acceso no autorizado.
En este documento, se describen las principales prácticas recomendadas para mejorar tu postura de seguridad de Dataproc, incluidas las recomendaciones para la seguridad de la red, Identity and Access Management, la encriptación y la configuración segura del clúster.
Seguridad de red
Implementa Dataproc en una VPC privada. Crea una nube privada virtual dedicada para tus clústeres de Dataproc, y aísla estos de otras redes y de Internet pública.
Usa IPs privadas. Para proteger tus clústeres de Dataproc de la exposición a Internet pública, usa direcciones IP privadas para mejorar la seguridad y el aislamiento.
Configura reglas de firewall. Implementa reglas de firewall estrictas para controlar el tráfico hacia y desde tus clústeres de Dataproc. Permite solo los puertos y protocolos necesarios.
Usa el intercambio de tráfico entre redes. Para mejorar el aislamiento, establece el intercambio de tráfico entre redes de VPC entre tu VPC de Dataproc y otras VPC sensibles para una comunicación controlada.
Habilita la puerta de enlace de componentes. Habilita la puerta de enlace de componentes de Dataproc cuando crees clústeres para acceder de forma segura a las IU del ecosistema de Hadoop, como la IU del servidor de YARN, HDFS o Spark, en lugar de abrir los puertos del firewall.
Identity and Access Management
Aísla los permisos. Usa diferentes cuentas de servicio del plano de datos para diferentes clústeres. Asigna a las cuentas de servicio solo los permisos que los clústeres necesitan para ejecutar sus cargas de trabajo.
Evita depender de la cuenta de servicio predeterminada de Google Compute Engine (GCE).
No uses la cuenta de servicio predeterminada para tus clústeres.
Sigue el principio de privilegio mínimo. Otorga solo los permisos mínimos necesarios a los usuarios y las cuentas de servicio de Dataproc.
Aplica el control de acceso basado en roles (RBAC). Considera configurar los permisos de IAM para cada clúster.
Usa roles personalizados. Crea roles de IAM personalizados detallados y adaptados a las funciones laborales específicas dentro de tu entorno de Dataproc.
Revisa con frecuencia. Audita periódicamente los permisos y roles de IAM para identificar y quitar los privilegios excesivos o sin usar.
Encripta los datos en tránsito. Habilita SSL/TLS para la comunicación entre los componentes de Dataproc (habilitando el modo seguro de Hadoop) y los servicios externos.
Esto protege los datos en movimiento.
Ten cuidado con los datos sensibles. Ten cuidado cuando almacenes y pases datos sensibles, como PII o contraseñas. Cuando sea necesario, usa soluciones de encriptación y administración de secretos.
Configuración segura del clúster
Autentícate con Kerberos. Para evitar el acceso no autorizado a los recursos del clúster, implementa el modo seguro de Hadoop con la autenticación de Kerberos. Para obtener más información, consulta Multiinclusión segura a través de Kerberos.
Usa una contraseña de cuenta principal raíz segura y un almacenamiento seguro basado en KMS. En el caso de los clústeres que usan Kerberos, Dataproc configura automáticamente las funciones de refuerzo de seguridad para todos los componentes de código abierto que se ejecutan en el clúster.
Habilita el acceso al SO. Habilita el Acceso al SO para mayor seguridad cuando administres nodos del clúster con SSH.
Segrega los buckets temporales y de etapa de pruebas en Google Cloud Storage (GCS). Para garantizar el aislamiento de permisos, segrega los buckets de etapa de pruebas y temporales para cada clúster de Dataproc.
Usa Secret Manager para almacenar credenciales. Secret Manager puede proteger tus datos sensibles, como tus claves de API, contraseñas y certificados.
Úsalo para administrar, acceder y auditar tus secretos en Google Cloud.
Usa restricciones organizacionales personalizadas. Puedes usar una política de la organización personalizada para permitir o rechazar operaciones específicas en clústeres de Dataproc.
Por ejemplo, si una solicitud para crear o actualizar un clúster no satisface la validación de restricciones personalizadas según lo establece la política de la organización, la solicitud falla y se devuelve un error a la entidad llamadora.
¿Qué sigue?
Obtén más información sobre otras funciones de seguridad de Dataproc:
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[[["\u003cp\u003eSecuring your Dataproc environment involves implementing best practices for network security, Identity and Access Management (IAM), encryption, and secure cluster configurations.\u003c/p\u003e\n"],["\u003cp\u003eNetwork security measures include deploying Dataproc in a private Virtual Private Cloud (VPC), using private IPs, configuring firewall rules, implementing VPC Network Peering, and enabling the Component Gateway.\u003c/p\u003e\n"],["\u003cp\u003eIdentity and Access Management practices include isolating permissions with separate service accounts, adhering to the principle of least privilege, enforcing role-based access control (RBAC), and regularly reviewing IAM permissions.\u003c/p\u003e\n"],["\u003cp\u003eEncryption involves encrypting data at rest using Cloud Key Management Service (KMS) or Customer Managed Encryption Keys (CMEK), encrypting data in transit with SSL/TLS, and using secure practices for sensitive data.\u003c/p\u003e\n"],["\u003cp\u003eSecure cluster configuration involves using Kerberos authentication, enabling OS Login, segregating staging and temp buckets on Google Cloud Storage (GCS), utilizing Secret Manager, and leveraging custom organizational constraints.\u003c/p\u003e\n"]]],[],null,["Securing your Dataproc environment is crucial for protecting\nsensitive data and preventing unauthorized access.\nThis document outlines key best practices to enhance your\nDataproc security posture, including recommendations for\nnetwork security, Identity and Access Management, encryption, and secure cluster configuration.\n\nNetwork security\n\n- **Deploy Dataproc in a private VPC** . Create a dedicated\n [Virtual Private Cloud](/vpc/docs/overview) for your Dataproc clusters,\n isolating them from other networks and the public internet.\n\n- **Use private IPs**. To protect your Dataproc clusters\n from exposure to the public internet, use private IP addresses\n for enhanced security and isolation.\n\n- **Configure firewall rules** . Implement strict [firewall rules](/firewall/docs/using-firewalls) to control traffic to and from your\n Dataproc clusters. Allow only necessary ports and protocols.\n\n- **Use network peering** . For enhanced isolation, establish\n [VPC Network Peering](/vpc/docs/vpc-peering) between your\n Dataproc VPC and other sensitive VPCs for controlled\n communication.\n\n- **Enable Component Gateway** . Enable the [Dataproc\n Component Gateway](/dataproc/docs/concepts/accessing/dataproc-gateways) when you\n create clusters to securely access Hadoop ecosystem UIs, such as like the YARN,\n HDFS, or Spark server UI, instead of opening the firewall ports.\n\nIdentity and Access Management\n\n- **Isolate permissions** . Use different [data plane service accounts](/dataproc/docs/concepts/configuring-clusters/service-accounts#VM_service_account)\n for different clusters. Assign to service accounts only the permissions\n that clusters need to run their workloads.\n\n- **Avoid relying on the Google Compute Engine (GCE) default service account** .\n Don't use the [default service account](/compute/docs/access/service-accounts#default_service_account) for your clusters.\n\n- **Adhere to the principle of least privilege** . Grant only the [minimum\n necessary permissions](/iam/docs/using-iam-securely#least_privilege) to\n Dataproc service accounts and users.\n\n- **Enforce role-based access control (RBAC)** . Consider setting [IAM permissions](/iam/docs/roles-overview) for each cluster.\n\n- **Use custom roles** . Create fine-grained [custom IAM roles](/iam/docs/creating-custom-roles) tailored to\n specific job functions within your Dataproc environment.\n\n- **Review regularly**. Regularly audit IAM permissions and roles to identify\n and remove any excessive or unused privileges.\n\nEncryption\n\n- **Encrypt data at rest** . For data encryption at rest, use the\n [Cloud Key Management Service](/kms/docs/key-management-service) (KMS) or\n [Customer Managed Encryption Keys](/dataproc/docs/concepts/configuring-clusters/customer-managed-encryption) (CMEK).\n Additionally, use organizational policies to enforce data encryption at rest\n for cluster creation.\n\n- **Encrypt data in transit** . Enable SSL/TLS for communication between\n Dataproc components (by enabling [Hadoop Secure Mode](/dataproc/docs/concepts/configuring-clusters/security)) and external services.\n This protects data in motion.\n\n- **Beware of sensitive data**. Exercise caution when storing and passing\n sensitive data like PII or passwords. Where required, use encryption and\n secrets management solutions.\n\nSecure cluster configuration\n\n- **Authenticate using Kerberos** . To prevent unauthorized access to cluster\n resources, implement Hadoop Secure Mode using [Kerberos](https://web.mit.edu/kerberos/#what_is) authentication. For\n more information, see [Secure multi-tenancy through Kerberos](/dataproc/docs/concepts/configuring-clusters/security).\n\n- **Use a strong root principal password and secure KMS-based storage**. For\n clusters that use Kerberos, Dataproc automatically configures\n security hardening features for all open source components running in the cluster.\n\n- **Enable OS login** . Enable [OS Login](/compute/docs/oslogin/set-up-oslogin)\n for added security when managing cluster nodes using SSH.\n\n- **Segregate staging and temp buckets on Google Cloud Storage (GCS)** . To\n ensure permission isolation, segregate [staging and temp buckets](/dataproc/docs/concepts/configuring-clusters/staging-bucket) for each\n Dataproc cluster.\n\n- **Use Secret Manager to store credentials** . The [Secret Manager](/dataproc/docs/guides/hadoop-google-secret-manager-credential-provider) can\n safeguard your sensitive data, such as your API keys, passwords, and certificates.\n Use it to manage, access, and audit your secrets across Google Cloud.\n\n- **Use custom organizational constraints** . You can use a [custom organization\n policy](/resource-manager/docs/organization-policy/overview#custom-organization-policies)\n to allow or deny specific operations on Dataproc clusters.\n For example, if a request to create or update a cluster fails to satisfy custom\n constraint validation as set by your organization policy, the request fails and\n an error is returned to the caller.\n\nWhat's next\n\nLearn more about other Dataproc security features:\n\n- [Secure multi-tenancy through service accounts](/dataproc/docs/concepts/iam/sa-multi-tenancy)\n- [Set up a Confidential VM with inline memory encryption](/dataproc/docs/concepts/configuring-clusters/confidential-compute)\n- [Activate an authorization service on each cluster VM](/dataproc/docs/concepts/configuring-clusters/ranger-plugin)"]]