Best practice per la sicurezza di Dataproc

Proteggere l'ambiente Dataproc è fondamentale per proteggere i dati sensibili e impedire accessi non autorizzati. Questo documento illustra le best practice principali per migliorare la strategia di sicurezza di Dataproc, inclusi i suggerimenti per la sicurezza della rete, Identity and Access Management, la crittografia e la configurazione sicura del cluster.

Sicurezza della rete

  • Esegui il deployment di Dataproc in un VPC privato. Crea un Virtual Private Cloud dedicato per i tuoi cluster Dataproc, isolandoli da altre reti e dalla rete internet pubblica.

  • Utilizza IP privati. Per proteggere i tuoi cluster Dataproc dall'esposizione alla rete internet pubblica, utilizza gli indirizzi IP privati per una maggiore sicurezza e l'isolamento.

  • Configura le regole firewall. Implementa rigorose regole firewall per controllare il traffico da e verso i tuoi cluster Dataproc. Consenti solo le porte e i protocolli necessari.

  • Utilizza il peering di rete. Per un isolamento avanzato, stabilisci un peering di rete VPC tra il tuo VPC Dataproc e altri VPC sensibili per una comunicazione controllata.

  • Abilita gateway dei componenti. Abilita il gateway dei componenti Dataproc quando crei cluster per accedere in modo sicuro alle UI dell'ecosistema Hadoop, come la UI del server YARN, HDFS o Spark, anziché aprire le porte del firewall.

Identity and Access Management

  • Isolare le autorizzazioni. Utilizza account di servizio del piano dati diversi per cluster diversi. Assegna agli account di servizio solo le autorizzazioni necessarie ai cluster per eseguire i carichi di lavoro.

  • Evita di fare affidamento sull'account di servizio predefinito di Google Compute Engine (GCE). Non utilizzare l'account di servizio predefinito per i cluster.

  • Rispetta il principio del privilegio minimo. Concedi solo le autorizzazioni minime necessarie agli account di servizio e agli utenti Dataproc.

  • Applica controllo dell'accesso basato su ruoli (RBAC). Valuta la possibilità di impostare le autorizzazioni IAM per ogni cluster.

  • Utilizza ruoli personalizzati. Crea ruoli IAM personalizzati granulari e specifici per funzioni lavorative specifiche all'interno del tuo ambiente Dataproc.

  • Controlla con regolarità. Controlla regolarmente le autorizzazioni e i ruoli IAM per identificare e rimuovere privilegi eccessivi o inutilizzati.

Crittografia

  • Criptare i dati at-rest. Per la crittografia dei dati at-rest, utilizza Cloud Key Management Service (KMS) o le chiavi di crittografia gestite dal cliente (CMEK). Inoltre, utilizza i criteri organizzativi per applicare la crittografia dei dati at-rest per la creazione del cluster.

  • Cripta i dati in transito. Abilita SSL/TLS per la comunicazione tra i componenti Dataproc (attivando la modalità protetta di Hadoop) e i servizi esterni. In questo modo, i dati in movimento sono protetti.

  • Fai attenzione ai dati sensibili. Presta attenzione quando archivi e trasmetti dati sensibili come PII o password. Ove richiesto, utilizza soluzioni di crittografia e gestione dei secret.

Configurazione sicura del cluster

  • Esegui l'autenticazione utilizzando Kerberos. Per impedire l'accesso non autorizzato alle risorse del cluster, implementa la modalità protetta di Hadoop utilizzando l'autenticazione Kerberos. Per saperne di più, consulta Protezione della multitenancy tramite Kerberos.

  • Utilizza una password dell'entità radice efficace e uno spazio di archiviazione sicuro basato su KMS. Per i cluster che utilizzano Kerberos, Dataproc configura automaticamente le funzionalità di protezione della sicurezza per tutti i componenti open source in esecuzione nel cluster.

  • Abilita OS Login. Abilita OS Login per una maggiore sicurezza durante la gestione dei nodi cluster tramite SSH.

  • Segregazione dei bucket temporanei e di gestione temporanea su Google Cloud Storage (GCS). Per garantire l'isolamento delle autorizzazioni, separa i bucket temporanei e i bucket temporanei per ogni cluster Dataproc.

  • Utilizza Secret Manager per archiviare le credenziali. Secret Manager può proteggere i tuoi dati sensibili, come chiavi API, password e certificati. Utilizzalo per gestire, accedere e controllare i tuoi secret in Google Cloud.

  • Utilizzare vincoli organizzativi personalizzati. Puoi utilizzare un criterio dell'organizzazione personalizzato per consentire o negare operazioni specifiche sui cluster Dataproc. Ad esempio, se una richiesta per creare o aggiornare un cluster non riesce a soddisfare la convalida del vincolo personalizzata impostata dal criterio dell'organizzazione, la richiesta non va a buon fine e il chiamante restituisce un errore.

Passaggi successivi

Scopri di più sulle altre funzionalità di sicurezza di Dataproc: