Der Schutz Ihrer Dataproc-Umgebung ist entscheidend, um vertrauliche Daten zu schützen und unbefugte Zugriffe zu verhindern. In diesem Dokument werden wichtige Best Practices zur Verbesserung der Sicherheit von Dataproc beschrieben, einschließlich Empfehlungen für Netzwerksicherheit, Identity and Access Management, Verschlüsselung und sichere Clusterkonfiguration.
Netzwerksicherheit
Dataproc in einer privaten VPC bereitstellen Erstellen Sie eine spezielle Virtual Private Cloud für Ihre Dataproc-Cluster, die sie von anderen Netzwerken und dem öffentlichen Internet isoliert.
Verwenden Sie private IP-Adressen. Verwenden Sie private IP-Adressen, um Ihre Dataproc-Cluster vor dem öffentlichen Internet zu schützen und so für mehr Sicherheit und Isolation zu sorgen.
Konfigurieren Sie Firewallregeln. Implementieren Sie strenge Firewallregeln, um den Traffic zu und von Ihren Dataproc-Clustern zu steuern. Lassen Sie nur die erforderlichen Ports und Protokolle zu.
Netzwerk-Peering verwenden Für eine bessere Isolation können Sie ein VPC-Netzwerk-Peering zwischen Ihrer Dataproc-VPC und anderen sensiblen VPCs für eine kontrollierte Kommunikation einrichten.
Component Gateway aktivieren Aktivieren Sie das Dataproc Component Gateway, wenn Sie Cluster erstellen, um sicher auf die Benutzeroberflächen des Hadoop-Ökosystems wie die YARN-, HDFS- oder Spark-Server-UI zuzugreifen, anstatt die Firewallports zu öffnen.
Identity and Access Management
Berechtigungen isolieren Verwenden Sie für verschiedene Cluster unterschiedliche Dienstkonten für die Datenebene. Weisen Sie Dienstkonten nur die Berechtigungen zu, die Cluster zum Ausführen ihrer Arbeitslasten benötigen.
Verwenden Sie nicht das Standarddienstkonto der Google Compute Engine (GCE). Verwenden Sie für Ihre Cluster nicht das Standarddienstkonto.
Halten Sie sich an das Prinzip der geringsten Berechtigung. Gewähren Sie Dataproc-Dienstkonten und ‑Nutzern nur die erforderlichen Mindestberechtigungen.
Erzwingen Sie die rollenbasierte Zugriffssteuerung (RBAC). Sie können IAM-Berechtigungen für jeden Cluster festlegen.
Benutzerdefinierte Rollen verwenden Erstellen Sie detaillierte benutzerdefinierte IAM-Rollen, die auf bestimmte Aufgaben in Ihrer Dataproc-Umgebung zugeschnitten sind.
Prüfen Sie sie regelmäßig. Prüfen Sie regelmäßig IAM-Berechtigungen und ‑Rollen, um übermäßige oder nicht verwendete Berechtigungen zu ermitteln und zu entfernen.
Verschlüsselung
Inaktive Daten verschlüsseln Verwenden Sie für die Datenträgerverschlüsselung den Cloud Key Management Service (KMS) oder vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK). Verwenden Sie außerdem organisatorische Richtlinien, um die Verschlüsselung inaktiver Daten für die Clustererstellung zu erzwingen.
Daten während der Übertragung verschlüsseln Aktivieren Sie SSL/TLS für die Kommunikation zwischen Dataproc-Komponenten (durch Aktivieren des Hadoop-Sicherheitsmodus) und externen Diensten. So werden Daten bei der Übertragung geschützt.
Achten Sie auf sensible Daten. Seien Sie vorsichtig beim Speichern und Übergeben sensibler Daten wie personenidentifizierbarer Informationen oder Passwörter. Verwenden Sie bei Bedarf Lösungen zur Verschlüsselung und Geheimnisverwaltung.
Clusterkonfiguration sichern
Authentifizierung mit Kerberos Um unberechtigten Zugriff auf Clusterressourcen zu verhindern, implementieren Sie den sicheren Modus von Hadoop mit Kerberos-Authentifizierung. Weitere Informationen finden Sie unter Mehrmandantenfähigkeit über Kerberos sichern.
Verwenden Sie ein starkes Hauptkennwort und einen sicheren KMS-basierten Speicher. Bei Clustern, die Kerberos verwenden, konfiguriert Dataproc automatisch Funktionen zur Sicherheitshärtung für alle Open-Source-Komponenten, die im Cluster ausgeführt werden.
Aktivieren Sie OS Login. Aktivieren Sie OS Login, um die Sicherheit beim Verwalten von Clusterknoten über SSH zu erhöhen.
Trennzeichen zwischen Staging- und temporären Buckets in Google Cloud Storage (GCS) setzen Um eine Berechtigungsisolation zu gewährleisten, trennen Sie Staging- und temporäre Bucket für jeden Dataproc-Cluster.
Verwenden Sie Secret Manager, um Anmeldedaten zu speichern. Mit Secret Manager können Sie Ihre sensiblen Daten wie API-Schlüssel, Passwörter und Zertifikate schützen. Sie können damit Ihre Secrets in Google Cloud verwalten, darauf zugreifen und sie prüfen.
Verwenden Sie benutzerdefinierte organisatorische Einschränkungen. Mit einer benutzerdefinierten Organisationsrichtlinie können Sie bestimmte Vorgänge auf Dataproc-Clustern zulassen oder ablehnen. Wenn beispielsweise eine Anfrage zum Erstellen oder Aktualisieren eines Clusters die benutzerdefinierte Validierung von Einschränkungen gemäß Ihrer Organisationsrichtlinie nicht erfüllt, schlägt die Anfrage fehl und der Aufrufer erhält einen Fehler zurück.
Nächste Schritte
Weitere Informationen zu anderen Dataproc-Sicherheitsfunktionen:
- Mehrmandantenfähigkeit über Dienstkonten schützen
- Confidential VM mit Inline-Arbeitsspeicherverschlüsselung einrichten
- Autorisierungsdienst auf jeder Cluster-VM aktivieren