Das Cloud Storage-Plug-in für Dataproc Ranger ist ab Dataproc-Image-Versionen 1.5 verfügbar. Es aktiviert einen Autorisierungsdienst auf jeder Dataproc-Cluster-VM. Der Autorisierungsdienst wertet Anfragen über den Cloud Storage-Connector anhand der Ranger-Richtlinien aus. Wenn die Anfrage zulässig ist, wird ein Zugriffstoken für das VM-Dienstkonto des Clusters zurückgegeben.
Das Ranger Cloud Storage-Plug-in nutzt Kerberos für die Authentifizierung und ist in die Cloud Storage-Connector-Unterstützung für Delegierungstokens eingebunden. Delegierungstokens werden in einer MySQL-Datenbank auf dem Cluster-Masterknoten gespeichert. Das Root-Passwort für die Datenbank wird über Clusterattribute angegeben, wenn Sie den Dataproc-Cluster erstellen.
Hinweis
Legen Sie die Rolle Ersteller von Dienstkonto-Tokens für das Dataproc-VM-Dienstkonto in Ihrem Projekt fest.
Ranger Cloud Storage-Plug-in installieren
Führen Sie die folgenden Befehle in einem lokalen Terminalfenster oder in Cloud Shell aus, um beim Erstellen eines Dataproc-Clusters das Ranger-Cloud Storage-Plug-in zu installieren.
Umgebungsvariablen festlegen
export CLUSTER_NAME=new-cluster-name \ export REGION=region \ export KERBEROS_KMS_KEY_URI=Kerberos-KMS-key-URI \ export KERBEROS_PASSWORD_URI=Kerberos-password-URI \ export RANGER_ADMIN_PASSWORD_KMS_KEY_URI=Ranger-admin-password-KMS-key-URI \ export RANGER_ADMIN_PASSWORD_GCS_URI=Ranger-admin-password-GCS-URI \
Hinweise:
- CLUSTER_NAME: Der Name des neuen Clusters.
- REGION: Die Region, in der der Cluster erstellt wird, z. B.
us-west1
. - KERBEROS_KMS_KEY_URI und KERBEROS_PASSWORD_URI: Siehe Kerberos-Root-Hauptpasswort einrichten.
- RANGER_ADMIN_PASSWORD_KMS_KEY_URI und RANGER_ADMIN_PASSWORD_CLOUD_STORAGE_URI: Siehe Ranger-Administratorpasswort einrichten
- RANGER_GCS_PLUGIN_MYSQL_KMS_KEY_URI und RANGER_GCS_PLUGIN_MYSQL_PASSWORD_URI führen Sie wie oben beschrieben ein MySQL-Passwort ein, das Sie unter Ranger-Administratorpasswort einrichten verwendet haben.
Dataproc-Cluster erstellen
Führen Sie den folgenden Befehl aus, um einen Dataproc-Cluster zu erstellen und das Ranger Cloud Storage-Plug-in im Cluster zu installieren.
gcloud dataproc clusters create ${CLUSTER_NAME} \ --region=${REGION} \ --scopes cloud-platform \ --enable-component-gateway \ --optional-components=SOLR,RANGER \ --kerberos-kms-key=${KERBEROS_KMS_KEY_URI} \ --kerberos-root-principal-password-uri=${KERBEROS_PASSWORD_URI} \ --properties="dataproc:ranger.gcs.plugin.enable=true, \ dataproc:ranger.kms.key.uri=${RANGER_ADMIN_PASSWORD_KMS_KEY_URI}, \ dataproc:ranger.admin.password.uri=${RANGER_ADMIN_PASSWORD_GCS_URI}, \ dataproc:ranger.gcs.plugin.mysql.kms.key.uri=${RANGER_GCS_PLUGIN_MYSQL_KMS_KEY_URI} \ dataproc:ranger.gcs.plugin.mysql.password.uri=${RANGER_GCS_PLUGIN_MYSQL_PASSWORD_URI}"
Hinweise:
- 1.5-Image-Version: Wenn Sie einen 1.5-Image-Versionscluster erstellen (siehe Versionen auswählen), fügen Sie das Flag
--metadata=GCS_CONNECTOR_VERSION="2.2.6" or higher
hinzu, um die erforderliche Connector-Version zu installieren.
Installation des Ranger Cloud Storage-Plug-ins prüfen
Nachdem der Cluster erstellt wurde, wird der Diensttyp GCS
mit dem Namen gcs-dataproc
in der Weboberfläche für Ranger-Administratoren angezeigt.
Standardrichtlinien für das Ranger Cloud Storage-Plug-in
Der Standarddienst gcs-dataproc
hat folgende Richtlinien:
Richtlinien zum Lesen und Schreiben in Staging- und temporäre Buckets im Dataproc-Cluster
Eine
all - bucket, object-path
-Richtlinie, die allen Nutzern den Zugriff auf Metadaten für alle Objekte ermöglicht Dieser Zugriff ist erforderlich, damit der Cloud Storage-Connector HCFS-Vorgänge (IAB kompatibles Dateisystem) ausführen kann.
Anwendungstipps
Anwendungszugriff auf Bucket-Ordner
Für Anwendungen, die Zwischendateien in Cloud Storage-Buckets erstellen, können Sie Modify Objects
-, List Objects
- und Delete Objects
-Berechtigungen für den Cloud Storage-Bucket-Pfad gewähren und dann den recursive
-Modus auswählen, um die Berechtigungen auf untergeordnete Pfade im angegebenen Pfad zu erweitern.
Schutzmaßnahmen
So vermeiden Sie eine Umgehung des Plug-ins:
Gewähren Sie dem VM-Dienstkonto Zugriff auf die Ressourcen in Ihren Cloud Storage-Buckets, um ihm Zugriff auf diese Ressourcen mit untergeordneten Zugriffstokens zu gewähren (siehe IAM-Berechtigungen für Cloud Storage). Entfernen Sie außerdem den Zugriff von Nutzern auf Bucket-Ressourcen, um den direkten Bucket-Zugriff durch Nutzer zu vermeiden.
Deaktivieren Sie
sudo
und andere Methoden des Root-Zugriffs auf Cluster-VMs, einschließlich der Aktualisierung der Dateisudoer
, um Identitätsdiebstahl oder Änderungen an Authentifizierungs- und Autorisierungseinstellungen zu verhindern. Weitere Informationen finden Sie in der Linux-Anleitung zum Hinzufügen/Entfernen vonsudo
-Nutzerberechtigungen.Verwenden Sie
iptable
, um direkte Zugriffsanfragen von Cluster-VMs an Cloud Storage zu blockieren. Sie können beispielsweise den Zugriff auf den VM-Metadatenblock blockieren, um den Zugriff auf das VM-Dienstkonto oder das Zugriffstoken zu verhindern, das zum Authentifizieren und Autorisieren des Zugriffs auf Cloud Storage verwendet wird (sieheblock_vm_metadata_server.sh
, ein Initialisierungsskript, dasiptable
-Regeln verwendet, um den Zugriff auf den VM-Metadatenserver zu blockieren).
Spark- und Hive-on-Tez-Jobs
Verwenden Sie beim Senden von Spark- und Hive-on-Tez-Jobs Konfigurations-Flags, um die Cloud Storage-Bucket-Namen anzugeben, auf die über den Cloud Storage-Connector zugegriffen wird.
Spark-Jobs:
--conf spark.yarn.access.hadoopFileSystems=gs://bucket-name,gs://bucket-name,...
Hive-on-Tez-Jobs:
--hiveconf "tez.job.fs-servers=bucket-name,gs://bucket-name,..."
Spark-Jobszenario
Ein Spark-Zähler schlägt fehl, wenn er über ein Terminalfenster auf einer Dataproc-Cluster-VM ausgeführt wird, auf der das Ranger Cloud Storage-Plug-in installiert ist.
spark-submit \ --conf spark.yarn.access.hadoopFileSystems=gs://${FILE_BUCKET} \ --class org.apache.spark.examples.JavaWordCount \ /usr/lib/spark/examples/jars/spark-examples.jar \ gs://bucket-name/wordcount.txt
Hinweise:
- FILE_BUCKET: Cloud Storage-Bucket für Spark-Zugriff.
Fehlerausgabe:
Caused by: com.google.gcs.ranger.client.shaded.io.grpc.StatusRuntimeException: PERMISSION_DENIED: Access denied by Ranger policy: User: '<USER>', Bucket: '<dataproc_temp_bucket>', Object Path: 'a97127cf-f543-40c3-9851-32f172acc53b/spark-job-history/', Action: 'LIST_OBJECTS'
Eine Richtlinie wird mit dem Zugriffsmanager in der Ranger-Admin-Weboberfläche bearbeitet, um username
einer Liste von Nutzern mit List Objects
- und anderen temp
-Bucket-Berechtigungen hinzuzufügen.
Wenn Sie den Job ausführen, wird ein neuer Fehler generiert.
Fehlerausgabe:
com.google.gcs.ranger.client.shaded.io.grpc.StatusRuntimeException: PERMISSION_DENIED: Access denied by Ranger policy: User: <USER>, Bucket: '<file-bucket>', Object Path: 'wordcount.txt', Action: 'READ_OBJECTS'
Eine Richtlinie wird hinzugefügt, um dem Nutzer Lesezugriff auf den Cloud Storage-Pfad wordcount.text
zu gewähren.
Der Job wird ausgeführt und abgeschlossen.
INFO com.google.cloud.hadoop.fs.gcs.auth.GcsDelegationTokens: Using delegation token RangerGCSAuthorizationServerSessionToken owner=<USER>, renewer=yarn, realUser=, issueDate=1654116824281, maxDate=0, sequenceNumber=0, masterKeyId=0 this: 1 is: 1 a: 1 text: 1 file: 1 22/06/01 20:54:13 INFO org.sparkproject.jetty.server.AbstractConnector: Stopped