Proteger tu entorno de Dataproc es fundamental para proteger los datos sensibles y evitar el acceso no autorizado. En este documento se describen las prácticas recomendadas clave para mejorar la seguridad de Dataproc, incluidas las recomendaciones sobre seguridad de redes, gestión de identidades y accesos, cifrado y configuración segura de clústeres.
Seguridad de la red
Despliega Dataproc en una VPC privada. Crea una nube privada virtual dedicada para tus clústeres de Dataproc, aislándolos de otras redes y de Internet público.
Usa IPs privadas. Para proteger tus clústeres de Dataproc de la exposición a Internet público, usa direcciones IP privadas para mejorar la seguridad y el aislamiento.
Configura las reglas de cortafuegos. Implementa reglas de cortafuegos estrictas para controlar el tráfico hacia tus clústeres de Dataproc y desde ellos. Permite solo los puertos y protocolos necesarios.
Usa el emparejamiento entre redes. Para mejorar el aislamiento, establece el emparejamiento entre redes de VPC entre tu VPC de Dataproc y otras VPCs sensibles para controlar la comunicación.
Habilita Pasarela de componentes. Habilita la pasarela de componentes de Dataproc al crear clústeres para acceder de forma segura a las interfaces de usuario del ecosistema de Hadoop, como las de los servidores YARN, HDFS o Spark, en lugar de abrir los puertos del cortafuegos.
Gestión de Identidades y Accesos
Aísla los permisos. Usa diferentes cuentas de servicio del plano de datos para diferentes clústeres. Asigna a las cuentas de servicio solo los permisos que necesiten los clústeres para ejecutar sus cargas de trabajo.
No dependas de la cuenta de servicio predeterminada de Google Compute Engine (GCE). No utilices la cuenta de servicio predeterminada en tus clústeres.
Cumple el principio de mínimos accesos. Concede solo los permisos mínimos necesarios a las cuentas de servicio y los usuarios de Dataproc.
Implementar obligatoriamente el control de acceso basado en roles (RBAC). Considera la posibilidad de definir permisos de gestión de identidades y accesos para cada clúster.
Usar roles personalizados. Crea roles de gestión de identidades y accesos personalizados con un nivel de detalle alto y adaptados a funciones específicas de tu entorno de Dataproc.
Revisa la información periódicamente. Audita periódicamente los permisos y roles de gestión de identidades y accesos para identificar y eliminar los privilegios excesivos o que no se utilicen.
Cifrado
Encripta los datos en reposo. Para cifrar los datos en reposo, usa Cloud Key Management Service (KMS) o claves de cifrado gestionadas por el cliente (CMEK). Además, usa políticas de la organización para aplicar el cifrado de datos en reposo al crear clústeres.
Cifra los datos en tránsito. Habilita SSL/TLS para la comunicación entre los componentes de Dataproc (habilitando el modo seguro de Hadoop) y los servicios externos. De esta forma, se protegen los datos en tránsito.
Ten cuidado con los datos sensibles. Tenga cuidado al almacenar y transferir datos sensibles, como información personal identificable o contraseñas. Cuando sea necesario, usa soluciones de cifrado y gestión de secretos.
Configuración segura de clústeres
Autenticar con Kerberos. Para evitar el acceso no autorizado a los recursos del clúster, implementa el modo seguro de Hadoop mediante la autenticación Kerberos. Para obtener más información, consulta Multiinquilino seguro mediante Kerberos.
Usa una contraseña raíz principal segura y un almacenamiento seguro basado en KMS. En el caso de los clústeres que usan Kerberos, Dataproc configura automáticamente las funciones de protección de seguridad para todos los componentes de código abierto que se ejecutan en el clúster.
Habilita OS Login. Habilita OS Login para aumentar la seguridad al gestionar nodos de clúster mediante SSH.
Segrega los segmentos de almacenamiento provisional y temporal en Google Cloud Storage (GCS). Para asegurar el aislamiento de los permisos, segrega los segmentos de almacenamiento provisional y temporales de cada clúster de Dataproc.
Usa Secret Manager para almacenar credenciales. Secret Manager puede proteger tus datos sensibles, como tus claves de API, contraseñas y certificados. Úsalo para gestionar, acceder y auditar tus secretos en Google Cloud.
Usa restricciones organizativas personalizadas. Puedes usar una política de organización personalizada para permitir o denegar operaciones específicas en clústeres de Dataproc. Por ejemplo, si una solicitud para crear o actualizar un clúster no cumple la validación de restricciones personalizadas definida por la política de tu organización, la solicitud fallará y se devolverá un error a la persona que la haya llamado.
Siguientes pasos
Consulta más información sobre otras funciones de seguridad de Dataproc:
- Propiedad múltiple segura mediante cuentas de servicio
- Configurar una VM confidencial con cifrado en memoria integrado
- Activa un servicio de autorización en cada VM del clúster