Proteggere l'ambiente Dataproc è fondamentale per proteggere i dati sensibili e impedire accessi non autorizzati. Questo documento descrive le best practice chiave per migliorare la postura di sicurezza di Dataproc, inclusi i consigli per la sicurezza di rete, Identity and Access Management, la crittografia e la configurazione sicura del cluster.
Sicurezza della rete
- Esegui il deployment di Dataproc in un VPC privato. Crea un Virtual Private Cloud dedicato per i tuoi cluster Dataproc, isolandoli da altre reti e da internet pubblico. 
- Utilizza IP privati. Per proteggere i cluster Dataproc dall'esposizione a internet pubblico, utilizza indirizzi IP privati per una maggiore sicurezza e isolamento. 
- Configura le regole firewall. Implementa regole firewall rigorose per controllare il traffico da e verso i cluster Dataproc. Consenti solo le porte e i protocolli necessari. 
- Utilizza il peering di rete. Per un isolamento avanzato, stabilisci il peering di rete VPC tra il tuo VPC Dataproc e altri VPC sensibili per una comunicazione controllata. 
- Attiva gateway dei componenti. Attiva il gateway dei componenti di Dataproc quando crei cluster per accedere in modo sicuro alle UI dell'ecosistema Hadoop, come le UI del server YARN, HDFS o Spark, anziché aprire le porte del firewall. 
Identity and Access Management
- Isola autorizzazioni. Utilizza account di servizio del data plane diversi per cluster diversi. Assegna ai service account solo le autorizzazioni necessarie ai cluster per eseguire i workload. 
- Evita di fare affidamento sull'account di servizio predefinito di Google Compute Engine (GCE). Non utilizzare l'account di servizio predefinito per i cluster. 
- Rispetta il principio del privilegio minimo. Concedi solo le autorizzazioni minime necessarie agli utenti e agli account di servizio Dataproc. 
- Applica controllo dell'accesso basato sui ruoli (RBAC). Valuta la possibilità di impostare le autorizzazioni IAM per ogni cluster. 
- Utilizzare ruoli personalizzati. Crea ruoli IAM personalizzati granulari adatti a mansioni specifiche all'interno del tuo ambiente Dataproc. 
- Rivedi regolarmente. Controlla regolarmente i ruoli e le autorizzazioni IAM per identificare e rimuovere eventuali privilegi eccessivi o inutilizzati. 
Crittografia
- Crittografare i dati inattivi. Per la crittografia dei dati inattivi, utilizza Cloud Key Management Service (KMS) o chiavi di crittografia gestite dal cliente (CMEK). Inoltre, utilizza i criteri dell'organizzazione per applicare la crittografia dei dati inattivi per la creazione del cluster. 
- Cripta i dati in transito. Attiva SSL/TLS per la comunicazione tra i componenti Dataproc (attivando la modalità sicura di Hadoop) e i servizi esterni. In questo modo i dati in transito sono protetti. 
- Fai attenzione ai dati sensibili. Presta attenzione quando memorizzi e trasmetti dati sensibili come PII o password. Se necessario, utilizza soluzioni di crittografia e gestione dei secret. 
Configurazione sicura del cluster
- Esegui l'autenticazione utilizzando Kerberos. Per impedire l'accesso non autorizzato alle risorse del cluster, implementa la modalità protetta di Hadoop utilizzando l'autenticazione Kerberos. Per maggiori informazioni, consulta Multitenancy sicura tramite Kerberos. 
- Utilizza una password dell'entità root efficace e un archivio sicuro basato su KMS. Per i cluster che utilizzano Kerberos, Dataproc configura automaticamente le funzionalità di protezione avanzata per tutti i componenti open source in esecuzione nel cluster. 
- Attiva OS Login. Abilita OS Login per una maggiore sicurezza durante la gestione dei nodi del cluster tramite SSH. 
- Separa i bucket temporanei e di gestione temporanea su Google Cloud Storage (GCS). Per garantire l'isolamento delle autorizzazioni, separa i bucket temporanei e di gestione temporanea per ogni cluster Dataproc. 
- Utilizza Secret Manager per archiviare le credenziali. Secret Manager può proteggere i tuoi dati sensibili, come chiavi API, password e certificati. Utilizzalo per gestire, accedere e controllare i tuoi secret in Google Cloud. 
- Utilizzare vincoli organizzativi personalizzati. Puoi utilizzare un criterio dell'organizzazione personalizzato per consentire o negare operazioni specifiche sui cluster Dataproc. Ad esempio, se una richiesta di creazione o aggiornamento di un cluster non soddisfa la convalida dei vincoli personalizzati impostata dalle norme della tua organizzazione, la richiesta non va a buon fine e viene restituito un errore al chiamante. 
Passaggi successivi
Scopri di più sulle altre funzionalità di sicurezza di Dataproc:
- Multi-tenancy sicuro tramite service account
- Configura una Confidential VM con crittografia della memoria in linea
- Attiva un servizio di autorizzazione su ogni VM del cluster