Best Practices für die Sicherheit in Dataproc

Der Schutz Ihrer Dataproc-Umgebung ist entscheidend, um sensible Daten zu schützen und unbefugten Zugriff zu verhindern. In diesem Dokument werden wichtige Best Practices zur Verbesserung der Dataproc-Sicherheit beschrieben, einschließlich Empfehlungen für Netzwerksicherheit, Identity and Access Management, Verschlüsselung und sichere Clusterkonfiguration.

Netzwerksicherheit

  • Dataproc in einer privaten VPC bereitstellen Erstellen Sie eine dedizierte Virtual Private Cloud für Ihre Dataproc-Cluster und isolieren Sie sie von anderen Netzwerken und dem öffentlichen Internet.

  • Verwenden Sie private IP-Adressen. Um Ihre Dataproc-Cluster vor einer Offenlegung des öffentlichen Internets zu schützen, verwenden Sie private IP-Adressen für erhöhte Sicherheit und Isolation.

  • Konfigurieren Sie Firewallregeln. Implementieren Sie strenge Firewallregeln, um den Traffic zu und von Ihren Dataproc-Clustern zu steuern. Nur notwendige Ports und Protokolle zulassen.

  • Netzwerk-Peering verwenden Richten Sie für eine erweiterte Isolation VPC-Netzwerk-Peering zwischen Ihrer Dataproc-VPC und anderen sensiblen VPCs für die kontrollierte Kommunikation ein.

  • Aktivieren Sie Component Gateway. Aktivieren Sie Dataproc Component Gateway, wenn Sie Cluster erstellen, um sicher auf Benutzeroberflächen der Hadoop-Umgebung wie YARN, HDFS oder Spark Server zuzugreifen, anstatt die Firewall-Ports zu öffnen.

Identity and Access Management

  • Berechtigungen isolieren Verwenden Sie unterschiedliche Dienstkonten für die Datenebene für verschiedene Cluster. Weisen Sie Dienstkonten nur die Berechtigungen zu, die Cluster zum Ausführen ihrer Arbeitslasten benötigen.

  • Verwenden Sie das Standarddienstkonto von Google Compute Engine (GCE) nicht. Verwenden Sie für Ihre Cluster nicht das Standarddienstkonto.

  • Halten Sie sich an das Prinzip der geringsten Berechtigung. Gewähren Sie Dataproc-Dienstkonten und -Nutzern nur die mindestens erforderlichen Berechtigungen.

  • Rollenbasierte Zugriffssteuerung (Role-Based Access Control, RBAC) erzwingen Legen Sie gegebenenfalls IAM-Berechtigungen für jeden Cluster fest.

  • Benutzerdefinierte Rollen verwenden Erstellen Sie fein abgestimmte benutzerdefinierte IAM-Rollen, die auf bestimmte Jobfunktionen in Ihrer Dataproc-Umgebung zugeschnitten sind.

  • Regelmäßig prüfen. Prüfen Sie die IAM-Berechtigungen und -Rollen regelmäßig, um übermäßige oder nicht verwendete Berechtigungen zu ermitteln und zu entfernen.

Verschlüsselung

  • Inaktive Daten verschlüsseln Für die Verschlüsselung inaktiver Daten können Sie den Cloud Key Management Service (KMS) oder vom Kunden verwaltete Verschlüsselungsschlüssel (Customer Managed Encryption Keys, CMEK) verwenden. Verwenden Sie außerdem Organisationsrichtlinien, um die Verschlüsselung inaktiver Daten für die Clustererstellung zu erzwingen.

  • Daten bei der Übertragung verschlüsseln SSL/TLS für die Kommunikation zwischen Dataproc-Komponenten (durch Aktivieren des sicheren Modus von Hadoop) und externen Diensten aktivieren Dies schützt Daten bei der Übertragung.

  • Vorsicht bei sensiblen Daten. Seien Sie vorsichtig, wenn Sie vertrauliche Daten wie personenidentifizierbare Informationen oder Passwörter speichern und weitergeben. Verwenden Sie bei Bedarf Verschlüsselungslösungen und Lösungen zur Verwaltung von Secrets.

Sichere Clusterkonfiguration

  • Mit Kerberos authentifizieren Implementieren Sie den sicheren Modus von Hadoop mit der Kerberos-Authentifizierung, um den unbefugten Zugriff auf Clusterressourcen zu verhindern. Weitere Informationen finden Sie unter Mehrmandantenfähigkeit mit Kerberos sichern.

  • Verwenden Sie ein starkes Root-Hauptpasswort und einen sicheren KMS-basierten Speicher. Bei Clustern, die Kerberos verwenden, konfiguriert Dataproc automatisch Sicherheitshärtungsfeatures für alle im Cluster ausgeführten Open-Source-Komponenten.

  • Aktivieren Sie OS Login. Aktivieren Sie OS Login für zusätzliche Sicherheit bei der Verwaltung von Clusterknoten mit SSH.

  • Staging und temporäre Buckets in Google Cloud Storage trennen Damit die Berechtigungsisolierung sichergestellt ist, trennen Sie Staging- und temporäre Buckets für jeden Dataproc-Cluster.

  • Mit Secret Manager Anmeldedaten speichern Secret Manager kann Ihre sensiblen Daten wie API-Schlüssel, Passwörter und Zertifikate schützen. Damit können Sie Ihre Secrets in Google Cloud verwalten, darauf zugreifen und sie prüfen.

  • Benutzerdefinierte organisatorische Einschränkungen verwenden Sie können mit einer benutzerdefinierten Organisationsrichtlinie bestimmte Vorgänge in Dataproc-Clustern zulassen oder ablehnen. Wenn beispielsweise eine Anfrage zum Erstellen oder Aktualisieren eines Clusters die in Ihrer Organisationsrichtlinie festgelegte benutzerdefinierte Einschränkungsvalidierung nicht erfüllt, schlägt die Anfrage fehl und ein Fehler wird an den Aufrufer zurückgegeben.

Nächste Schritte

Weitere Informationen zu anderen Sicherheitsfeatures von Dataproc: