La protezione dell'ambiente Dataproc è fondamentale per proteggere i dati sensibili e impedire accessi non autorizzati. Questo documento illustra le best practice principali per migliorare la postura di sicurezza di Dataproc, inclusi consigli per la sicurezza di rete, Identity and Access Management, la crittografia e la configurazione sicura del cluster.
Sicurezza della rete
Esegui il deployment di Dataproc in una VPC privata. Crea un Virtual Private Cloud dedicato per i tuoi cluster Dataproc, isolandoli da altre reti e dalla rete internet pubblica.
Utilizza IP privati. Per proteggere i tuoi cluster Dataproc dall'esposizione a internet pubblico, utilizza indirizzi IP privati per una maggiore sicurezza e isolamento.
Configura le regole del firewall. Implementa regole firewall rigorose per controllare il traffico da e verso i tuoi cluster Dataproc. Consenti solo le porte e i protocolli necessari.
Utilizza il peering di rete. Per un isolamento maggiore, stabilisci un peering di rete VPC tra la tua VPC Dataproc e altre VPC sensibili per una comunicazione controllata.
Attiva Gateway dei componenti. Attiva il gateway dei componenti di Dataproc quando crei cluster per accedere in sicurezza alle UI dell'ecosistema Hadoop, come l'UI di YARN, HDFS o del server Spark, anziché aprire le porte del firewall.
Identity and Access Management
Isola le autorizzazioni. Utilizza account di servizio del piano dati diversi per cluster diversi. Assegna agli account di servizio solo le autorizzazioni necessarie per l'esecuzione dei loro carichi di lavoro.
Evita di fare affidamento sull'account di servizio predefinito di Google Compute Engine (GCE). Non utilizzare l'account di servizio predefinito per i cluster.
Rispetta il principio del privilegio minimo. Concedi solo le autorizzazioni minime necessarie agli utenti e agli account di servizio Dataproc.
Applicare controllo dell'accesso basato sui ruoli (RBAC). Valuta la possibilità di impostare le autorizzazioni IAM per ogni cluster.
Utilizza i ruoli personalizzati. Crea ruoli IAM personalizzati granulari personalizzati per funzioni di job specifiche all'interno del tuo ambiente Dataproc.
Esamina regolarmente. Controlla regolarmente le autorizzazioni e i ruoli IAM per identificare e rimuovere eventuali privilegi eccessivi o inutilizzati.
Crittografia
Crittografa i dati at-rest. Per la crittografia dei dati a riposo, utilizza Cloud Key Management Service (KMS) o le chiavi di crittografia gestite dal cliente (CMEK). Inoltre, utilizza i criteri dell'organizzazione per applicare la crittografia dei dati at rest per la creazione del cluster.
Crittografa i dati in transito. Attiva SSL/TLS per la comunicazione tra i componenti Dataproc (attivando la modalità sicura Hadoop) e i servizi esterni. In questo modo i dati in transito sono protetti.
Fai attenzione ai dati sensibili. Presta attenzione quando memorizzi e trasmetti dati sensibili come PII o password. Se necessario, utilizza soluzioni di crittografia e gestione dei segreti.
Configurazione sicura del cluster
Esegui l'autenticazione utilizzando Kerberos. Per impedire l'accesso non autorizzato alle risorse del cluster, implementa la modalità protetta di Hadoop utilizzando l'autenticazione Kerberos. Per maggiori informazioni, consulta Multitenancy sicura tramite Kerberos.
Utilizza una password dell'entità principale radice complessa e uno spazio di archiviazione basato su KMS sicuro. Per i cluster che utilizzano Kerberos, Dataproc configura automaticamente le funzionalità di rafforzamento della sicurezza per tutti i componenti open source in esecuzione nel cluster.
Attiva OS Login. Attiva OS Login per una maggiore sicurezza durante la gestione dei nodi del cluster tramite SSH.
Separa i bucket di staging e temporanei su Google Cloud Storage (GCS). Per garantire l'isolamento delle autorizzazioni, separa i bucket temporanei e di gestione temporanea per ogni cluster Dataproc.
Utilizza Secret Manager per archiviare le credenziali. Secret Manager può proteggere i tuoi dati sensibili, come chiavi API, password e certificati. Utilizzalo per gestire, accedere e controllare i tuoi secret in Google Cloud.
Utilizza vincoli organizzativi personalizzati. Puoi utilizzare un criterio per l'organizzazione personalizzato per consentire o negare operazioni specifiche sui cluster Dataproc. Ad esempio, se una richiesta di creazione o aggiornamento di un cluster non soddisfa la convalida dei vincoli personalizzati impostata dalle norme della tua organizzazione, la richiesta non va a buon fine e viene restituito un errore all'autore della chiamata.
Passaggi successivi
Scopri di più sulle altre funzionalità di sicurezza di Dataproc:
- Rendere sicuro il multi-tenancy tramite gli account di servizio
- Configurare una Confidential VM con crittografia della memoria in linea
- Attiva un servizio di autorizzazione su ogni VM del cluster