Apache Hadoop YARN, HDFS, Spark und zugehörige Attribute
Die in Dataproc-Clustern installierten Open-Source-Komponenten enthalten viele Konfigurationsdateien. Apache Spark und Apache Hadoop haben beispielsweise mehrere XML- und Nur-Text-Konfigurationsdateien. Mit dem Flag ‑‑properties
des Befehls gcloud dataproc clusters create können Sie beim Erstellen eines Clusters viele häufig verwendete Konfigurationsdateien ändern.
Formatierung
Das Flag gcloud dataproc clusters create --properties
akzeptiert das folgende Stringformat:
file_prefix1:property1=value1,file_prefix2:property2=value2,...
Das file_prefix wird wie in der folgenden Tabelle dargestellt einer vordefinierten Konfigurationsdatei zugeordnet und die property wird einem Attribut in der Datei zugeordnet.
Das Standardtrennzeichen, das zum Trennen mehrerer Clusterattribute verwendet wird, ist das Komma (,) dargestellt werden. Wenn jedoch ein Komma in einem Eigenschaftswert enthalten ist, müssen Sie durch Angabe eines "^delimiter^" zu Beginn des Property-Liste (siehe gcloud topic Escaping für erhalten Sie weitere Informationen.
- Beispiel mit einem „#“-Trennzeichen:
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
- Beispiel mit einem „#“-Trennzeichen:
Beispiele
gcloud-Befehl
Fügen Sie das folgende Flag gcloud dataproc clusters create --properties
hinzu, um die Einstellung spark.master
in der Datei spark-defaults.conf
zu ändern:
--properties 'spark:spark.master=spark://example.com'
Sie können mehrere Eigenschaften gleichzeitig in einer oder mehreren Konfigurationsdateien ändern, indem Sie ein Komma als Trennzeichen verwenden. Jede Eigenschaft muss im vollständigen file_prefix:property=value
-Format angegeben werden. Wenn Sie beispielsweise die Einstellung spark.master
in der Datei spark-defaults.conf
und die Einstellung dfs.hosts
in der Datei hdfs-site.xml
ändern möchten, verwenden Sie das folgende --properties
-Flag, wenn Sie den Cluster erstellen:
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'
REST API
Um spark.executor.memory
auf 10g
zu setzen, fügen Sie die folgende properties
-Einstellung in den Abschnitt SoftwareConfig Ihrer clusters.create-Anfrage ein:
"properties": { "spark:spark.executor.memory": "10g" }
Der JSON-Text einer REST-Anfrage von Cloud Dataproc API-Clustern kann einfach durch Initiieren des entsprechenden gcloud
-Befehls mithilfe des Flags --log-http
erstellt werden.
Hier sehen Sie ein Beispiel für einen gcloud dataproc clusters create
-Befehl, mit dem Cluster-Eigenschaften mit dem Flag --properties spark:spark.executor.memory=10g
festgelegt werden.
Das Stdout-Log zeigt den resultierenden REST-Anfragetext an (das properties
-Snippet wird unten dargestellt):
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=spark:spark.executor.memory=10g \ --log-http \ other args ...
Ausgabe:
... == body start == {"clusterName": "my-cluster", "config": {"gceClusterConfig": ... "masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},
... == body end == ...
Um zu vermeiden, dass der Befehl wirksam wird, müssen Sie den Befehl abbrechen, wenn der JSON-Text in der Ausgabe angezeigt wird.
Console
So ändern Sie die Einstellung spark.master
in der Datei spark-defaults.conf
:
- Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Klicken Sie auf das Feld „Cluster anpassen“ und scrollen Sie zum Abschnitt „Clusterattribute“.
- Klicken Sie auf + ATTRIBUTE HINZUFÜGEN. Wählen Sie in der Präfixliste spark aus und fügen Sie den Wert „spark.master“ im Feld „Schlüssel“ sowie die Einstellung im Feld „Wert“ hinzu.
Cluster- oder Jobattribute
Die Apache Hadoop YARN-, HDFS-, Spark- und andere Dateipräfixattribute werden beim Erstellen eines Clusters auf Clusterebene angewendet. Diese Attribute können nach dem Erstellen eines Clusters nicht mehr angewendet werden. Viele dieser Attribute können jedoch auch auf bestimmte Jobs angewendet werden. Wenn Sie ein Attribut auf einen Job anwenden, wird das Dateipräfix nicht verwendet.
Im folgenden Beispiel wird der Spark-Executor-Arbeitsspeicher für einen Spark-Job auf 4 GB festgelegt (Präfix spark:
wird ausgelassen).
gcloud dataproc jobs submit spark \ --region=REGION \ --properties=spark.executor.memory=4g \ other args ...
Jobeigenschaften können mit dem Flag gcloud dataproc jobs submit job-type --properties-file
in einer Datei gesendet werden. Weitere Informationen finden Sie beispielsweise in der Beschreibung von --properties-file für das Einreichen eines Hadoop-Jobs.
gcloud dataproc jobs submit JOB_TYPE \ --region=REGION \ --properties-file=PROPERTIES_FILE \ other args ...
Die PROPERTIES_FILE
besteht aus einer Reihe von
durch Zeilen getrennte key
=value
-Paare. Das festzulegende Attribut ist key
,
und der Wert für die Eigenschaft ist value
. Eine detaillierte Beschreibung des Properties-Dateiformats finden Sie in der Klasse java.util.Properties.
Im Folgenden finden Sie ein Beispiel für eine Eigenschaftendatei, die
an das Flag --properties-file
übergeben, wenn ein Dataproc-Job gesendet wird.
dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml spark:spark.history.fs.logDirectory=gs://some-bucket spark:spark.eventLog.dir=gs://some-bucket capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5
Tabelle mit Attributen mit Dateipräfixen
Dateipräfix | Datei | Dateizweck |
---|---|---|
capacity-scheduler | capacity-scheduler.xml | Hadoop YARN Capacity Scheduler-Konfiguration |
core | core-site.xml | Hadoop – allgemeine Konfiguration |
distcp | distcp-default.xml | Hadoop Distributed Copy-Konfiguration |
flink | flink-conf.yaml | Flink-Konfiguration |
flink-log4j | log4j.properties | Log4j Einstellungen Datei |
hadoop-env | hadoop-env.sh | Hadoop-spezifische Umgebungsvariablen |
hadoop-log4j | log4j.properties | Log4j Einstellungen Datei |
HBase | hbase-site.xml | HBase-Konfiguration |
hbase-log4j | log4j.properties | Log4j Einstellungen Datei |
hdfs | hdfs-site.xml | Hadoop – HDFS-Konfiguration |
hive | hive-site.xml | Hive-Konfiguration |
hive-log4j2 | hive-log4j2.properties | Log4j Einstellungen Datei |
hudi | hudi-default.conf | Hudi-Konfiguration |
mapred | mapred-site.xml | Hadoop – MapReduce-Konfiguration |
mapred-env | mapred-env.sh | Hadoop MapReduce-spezifische Umgebungsvariablen |
pig | pig.properties | Pig-Konfiguration |
pig-log4j | log4j.properties | Log4j Einstellungen Datei |
presto | config.properties | Presto-Konfiguration |
presto-jvm | jvm.config | Presto-spezifische JVM-Konfiguration |
spark | spark-defaults.conf | Spark-Konfiguration |
spark-env | spark-env.sh | Spark-spezifische Umgebungsvariablen |
spark-log4j | log4j.properties | Log4j Einstellungen Datei |
tez | tez-site.xml | Tez-Konfiguration |
webcat-log4j | webhcat-log4j2.properties | Log4j Einstellungen Datei |
yarn | yarn-site.xml | Hadoop – YARN-Konfiguration |
yarn-env | yarn-env.sh | Hadoop YARN-spezifische Umgebungsvariablen |
zeppelin | zeppelin-site.xml | Zeppelin-Konfiguration |
zeppelin-env | zeppelin-env.sh | Zeppelin-spezifische Umgebungsvariablen (nur optionale Komponente) |
zeppelin-log4j | log4j.properties | Log4j Einstellungen Datei |
zookeeper | zoo.cfg | Zookeeper-Konfiguration |
zookeeper-log4j | log4j.properties | Log4j Einstellungen Datei |
Hinweise
- Einige Attribute sind reserviert und können nicht überschrieben werden, da sie sich auf die Funktionalität des Dataproc-Clusters auswirken. Wenn Sie versuchen, ein reserviertes Attribut zu ändern, erhalten Sie beim Erstellen des Clusters eine Fehlermeldung.
- Mehrere Änderungen werden durch ein Komma getrennt.
- Mit dem Flag
--properties
können nur die oben aufgeführten Konfigurationsdateien geändert werden. - Änderungen an den Attributen werden übernommen, bevor die Daemons auf dem Cluster gestartet werden.
- Wenn das angegebene Attribut bereits vorhanden ist, wird es aktualisiert. Wenn die angegebene Eigenschaft nicht vorhanden ist, wird sie der Konfigurationsdatei hinzugefügt.
Dataproc-Dienstattribute
Die in diesem Abschnitt aufgeführten Attribute gelten speziell für Dataproc. Diese Attribute können verwendet werden, um die Funktionalität Ihres Dataproc-Clusters weiter zu konfigurieren.
Formatierung
Das Flag gcloud dataproc clusters create --properties
akzeptiert das folgende Stringformat:
property_prefix1:property1=value1,property_prefix2:property2=value2,...
Das Standardtrennzeichen zum Trennen mehrerer Clusterattribute ist das Komma (,). Wenn in einem Attributwert jedoch ein Komma enthalten ist, müssen Sie das Trennzeichen ändern, indem Sie "^delimiter^" am Anfang der Attributsliste angeben (weitere Informationen finden Sie unter gcloud topic escaping).
- Beispiel mit einem „#“-Trennzeichen:
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
- Beispiel mit einem „#“-Trennzeichen:
Beispiel:
Erstellen Sie einen Cluster und legen Sie den Enhanced Flexibility Mode auf den primären Worker-Shuffle für Spark fest.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=dataproc:efm.spark.shuffle=primary-worker \ other args ...
Tabelle der Dataproc-Dienstattribute
Attributpräfix | Attribut | Werte | Beschreibung |
---|---|---|---|
Dataproc | agent.process.threads.job.min | number |
Dataproc führt Nutzerjob-Treiber gleichzeitig in einem Thread-Pool aus. Dieses Attribut steuert die Mindestanzahl der Threads im Thread-Pool für einen schnellen Start, auch wenn keine Jobs ausgeführt werden (Standard: 10). |
Dataproc | agent.process.threads.job.max | number |
Dataproc führt Nutzerjob-Treiber gleichzeitig in einem Thread-Pool aus. Mit dieser Eigenschaft wird die maximale Anzahl der Threads im Thread-Pool gesteuert und damit die maximale Gleichzeitigkeit von Nutzerjobs begrenzt. Erhöhen Sie diesen Wert für eine höhere Parallelität (Standard: 100). |
Dataproc | am.primary_only | true oder false |
Setzen Sie dieses Attribut auf true true, um zu verhindern, dass der Anwendungsmaster auf Workern auf Abruf des Dataproc-Clusters ausgeführt wird. Hinweis: Diese Funktion ist nur in Verbindung mit Dataproc 1.2 und höher verfügbar. Der Standardwert ist false . |
Dataproc | conda.env.config.uri | gs://<path> |
Speicherort in Cloud Storage der Konfigurationsdatei von Conda. Anhand dieser Datei wird eine neue Conda-Umgebung erstellt und aktiviert. Weitere Informationen finden Sie unter Conda-verwandte Clusterattribute verwenden. (Standard: empty ). |
Dataproc | conda.packages | Conda-Pakete | Dieses Attribut verwendet eine Liste mit durch Kommas getrennten Conda-Paketen mit bestimmten Versionen, die in der Conda-Umgebung base zu installieren sind. Weitere Informationen finden Sie unter Conda-verwandte Clusterattribute verwenden. (Standard empty ). |
Dataproc | dataproc.allow.zero.workers | true oder false |
Legen Sie für dieses SoftwareConfig-Attribut true in der Cloud Dataproc clusters.create API-Anfrage fest, um einen Cluster mit einem einzigen Knoten zu erstellen. Dadurch wird die Standardanzahl der Worker von 2 in 0 geändert und es werden Worker-Komponenten im Masterhost platziert. Ein Cluster mit einem einzelnen Knoten kann auch über die Google Cloud Console oder mit der Google Cloud CLI erstellt werden. Setzen Sie dazu die Anzahl der Worker auf 0 . |
Dataproc | dataproc.alpha.master.nvdimm.size.gb | 1500-6500 | Durch das Festlegen eines Werts wird mit Intel Optane DC Persistent Memory ein Dataproc-Master erstellt. Hinweis: Optane-VMs können nur in us-central1-f -Zonen, nur mit n1-highmem-96-aep -Maschinentyp und nur in Projekten auf der weißen Liste erstellt werden. |
dataproc: | dataproc.alpha.worker.nvdimm.size.gb | 1500-6500 | Durch das Festlegen eines Werts wird mit Intel Optane DC Persistent Memory ein Dataproc-Worker erstellt. Hinweis: Optane-VMs können nur in us-central1-f -Zonen, nur mit n1-highmem-96-aep -Maschinentyp und nur in Projekten auf der weißen Liste erstellt werden. |
dataproc: | dataproc.await-new-workers-service-registration | true oder false |
Diese Eigenschaft ist in Images ab Version 2.0.49 verfügbar. Der Standardwert ist false . Legen Sie dieses Attribut auf true fest, um zu warten, bis neue primäre Worker Dienstleiter wie HDFS NameNode und YARN ResourceManager während der Clustererstellung oder beim Hochskalieren des Clusters registrieren (nur HDFS- und YARN-Dienste werden überwacht). Wenn „true “ festgelegt ist und sich ein neuer Mitarbeiter nicht bei einem Dienst registrieren kann, wird ihm der Status „FAILED “ zugewiesen. Ein fehlgeschlagener Worker wird entfernt, wenn der Cluster hochskaliert wird. Wenn der Cluster erstellt wird, wird ein fehlgeschlagener Worker entfernt, wenn das Flag gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE oder das API-Feld actionOnFailedPrimaryWorkers=DELETE als Teil des Befehls gcloud oder der API-Cluster-Erstellungsanfrage angegeben wurde. |
dataproc: | dataproc.beta.secure.multi-tenancy.user.mapping | user-to-service account mappings |
Dieses Attribut verwendet eine Liste von Nutzer-zu-Dienst-Kontozuordnungen. Zugeordnete Nutzer können interaktive Arbeitslasten mit isolierten Nutzeridentitäten an den Cluster senden (siehe Dataproc-Dienstkonto-basierte Mehrmandantenfähigkeit). |
dataproc: | dataproc.cluster.caching.enabled | true oder false |
Wenn das Cluster-Caching aktiviert ist, werden von Spark-Jobs verwendete Cloud Storage-Daten im Cluster im Cache gespeichert. Dadurch wird die Jobleistung verbessert, ohne die Konsistenz zu beeinträchtigen. (Standard: false ). |
Dataproc | dataproc.cluster-ttl.consider-yarn-activity | true oder false |
Wenn der Wert auf true festgelegt ist, berücksichtigt das planmäßige Löschen von Clustern bei der Berechnung der Inaktivitätszeit des Clusters sowohl die YARN- als auch die Dataproc Jobs API-Aktivität. Wenn dieser Wert auf false gesetzt ist, wird nur die Dataproc Jobs API-Aktivität berücksichtigt. (Standard: true ). Weitere Informationen finden Sie unter Berechnung der Inaktivitätszeit des Clusters. |
Dataproc | dataproc.conscrypt.provider.enable | true oder false |
Aktiviert (true ) oder deaktiviert (false ) Conscrypt als primären Java-Sicherheitsanbieter. Hinweis: Conscrypt ist in Dataproc 1.2 und höher standardmäßig aktiviert, jedoch in 1.0/1.1 deaktiviert. |
Dataproc | dataproc.cooperative.multi-tenancy.user.mapping | user-to-service account mappings |
Dieses Attribut verwendet eine Liste mit durch Kommas getrennten Nutzer-zu-Dienst-Kontozuordnungen. Wenn ein Cluster mit diesem Attribut erstellt wird und ein Nutzer einen Job sendet, versucht der Cluster, beim Zugriff auf Cloud Storage über den Cloud Storage-Connector die Identität des entsprechenden Dienstkontos zu übernehmen. Diese Funktion benötigt die Cloud Storage-Connector-Version 2.1.4 oder höher. Weitere Informationen finden Sie unter Dataproc: kooperative Mehrinstanzenfähigkeit. (Standard: empty ). |
Dataproc | dataproc.control.max.assigned.job.tasks | 100 |
Dieses Attribut begrenzt, wie viele Aufgaben gleichzeitig auf einem Cluster-Master-Knoten ausgeführt werden können. Wenn die Anzahl der aktiven Aufgaben das Aufgabenlimit überschreitet, werden neue Jobs in die Warteschlange gestellt, bis die laufenden Jobs abgeschlossen und Ressourcen freigegeben werden, damit neue Aufgaben geplant werden können. Hinweis: Es wird nicht empfohlen, ein Standardaufgabenlimit von mehr als 100 (Standard) festzulegen, da dies zu einem Speichermangel auf dem Masterknoten führen kann. |
Dataproc | dataproc:hudi.version | Hudi-Version | Hiermit wird die Hudi-Version festgelegt, die mit der optionalen Dataproc Hudi-Komponente verwendet wird. Hinweis: Diese Version wird von Dataproc so festgelegt, dass sie mit der Cluster-Image-Version kompatibel ist. Wenn sie vom Nutzer festgelegt wird, kann die Clustererstellung fehlschlagen, wenn die angegebene Version nicht mit dem Cluster-Image kompatibel ist. |
Dataproc | dataproc.lineage.enabled | true |
Ermöglicht die Datenabstammung in einem Dataproc-Cluster für Spark-Jobs. |
Dataproc | dataproc.localssd.mount.enable | true oder false |
Gibt an, ob lokale SSDs als temporäre Hadoop/Spark-Verzeichnisse und HDFS-Datenverzeichnisse bereitgestellt werden sollen (Standardeinstellung: true ). |
Dataproc | dataproc.logging.stackdriver.enable | true oder false |
Aktiviert (true ) oder deaktiviert (false ) das Cloud Logging (Standardeinstellung: true ). Informationen zu den entsprechenden Kosten finden Sie unter Cloud Logging – Preise. |
Dataproc | dataproc.logging.stackdriver.job.driver.enable | true oder false |
Aktiviert (true ) oder deaktiviert (false ) Dataproc-Jobtreiberlogs in Cloud Logging. Siehe Dataproc-Jobausgabe und Logs (Standardeinstellung: false ). |
Dataproc | dataproc.logging.stackdriver.job.yarn.container.enable | true oder false |
Aktiviert (true ) oder deaktiviert (false ) YARN-Containerlogs in Cloud Logging. Siehe Ausgabeoptionen für Spark-Jobs. (Standard: false ). |
Dataproc | dataproc.master.custom.init.actions.mode | RUN_BEFORE_SERVICES oder RUN_AFTER_SERVICES |
Bei Image-Clustern ab 2.0 werden Initialisierungsaktionen auf dem Master nach HDFS und allen von HDFS abhängigen Diensten initialisiert, wenn dieser Wert auf RUN_AFTER_SERVICES gesetzt ist. Beispiele für HDFS-abhängige Dienste sind: HBase, Hive Server2, Ranger, Solr und die Spark- und MapReduce-Verlaufsserver. (RUN_BEFORE_SERVICES , Standard) |
Dataproc | dataproc.monitoring.stackdriver.enable | true oder false |
Aktiviert (true ) oder deaktiviert (false ) den Monitoring-Agent (Standardeinstellung: false ). Diese Property wurde eingestellt. Weitere Informationen finden Sie unter Erfassung benutzerdefinierter Messwerte aktivieren. |
Dataproc | dataproc.scheduler.driver-size-mb | number |
Der durchschnittliche Speicherbedarf des Treibers, der die maximale Anzahl gleichzeitiger Jobs bestimmt, die ein Cluster ausführen wird. Der Standardwert ist 1 GB. Für Spark-Jobs kann ein kleinerer Wert wie 256 geeignet sein. |
Dataproc | dataproc.scheduler.job-submission-rate | number |
Wenn diese Rate überschritten wird, werden Jobs gedrosselt. Die Standardrate beträgt 1.0 QPS. |
Dataproc | dataproc.scheduler.max-concurrent-jobs | number |
Die maximale Anzahl gleichzeitiger Jobs. Wenn dieser Wert beim Erstellen des Clusters nicht festgelegt wird, wird die Obergrenze für gleichzeitige Jobs als max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5) berechnet. masterMemoryMb wird vom Maschinentyp der Master-VM bestimmt. masterMemoryMbPerJob ist standardmäßig 1024 , kann aber bei der Clustererstellung mit dem Clusterattribut dataproc:dataproc.scheduler.driver-size-mb konfiguriert werden. |
Dataproc | dataproc.scheduler.max-memory-used | number |
Die maximale Menge an RAM, die verwendet werden kann. Wenn die aktuelle Auslastung diesen Grenzwert überschreitet, können keine neuen Jobs geplant werden. Der Standardwert ist 0.9 (90 %). Wenn 1.0 festgelegt ist, ist die Jobdrosselung für den Master-Arbeitsspeicher deaktiviert. |
Dataproc | dataproc.scheduler.min-free-memory.mb | number |
Der Mindestmenge an freier Arbeitsspeicher in Megabyte, die der Dataproc-Jobtreiber zum Planen eines anderen Jobs im Cluster benötigt. Der Standardwert ist 256 MB. |
Dataproc | dataproc.snap.enabled | true oder false |
Aktiviert oder deaktiviert den Ubuntu-Snap-Daemon. Der Standardwert ist true . Wenn false festgelegt ist, sind vorinstallierte Snap-Pakete im Image nicht betroffen, die automatische Aktualisierung ist jedoch deaktiviert. Gilt für Ubuntu-Images der Version 1.4.71, 1.5.46, 2.0.20 und höher. |
Dataproc | dataproc.worker.custom.init.actions.mode | RUN_BEFORE_SERVICES |
Für Image-Cluster vor Version 2.0 ist RUN_BEFORE_SERVICES nicht festgelegt, kann jedoch vom Nutzer beim Erstellen des Clusters festgelegt werden. Für Image-Cluster ab 2.0 ist RUN_BEFORE_SERVICES festgelegt und das Attribut kann nicht an den Cluster übergeben werden (es kann vom Nutzer nicht geändert werden). Informationen zu den Auswirkungen dieser Einstellung finden Sie unter Wichtige Hinweise und Richtlinien – Initialisierungsverarbeitung. |
Dataproc | dataproc.yarn.orphaned-app-termination.enable | true oder false |
Der Standardwert ist true . Legen Sie diesen Wert auf false fest, um zu verhindern, dass Dataproc „verwaiste“ YARN-Anwendungen beendet. Dataproc betrachtet eine YARN-Anwendung als verwaist, wenn der Jobtreiber, der die YARN-Anwendung gesendet hat, beendet wurde. Warnung: Wenn Sie den Spark-Clustermodus (spark.submit.deployMode=cluster ) verwenden und spark.yarn.submit.waitAppCompletion=false festlegen, wird der Spark-Treiber beendet, ohne dass YARN-Anwendungen abgeschlossen werden. Legen Sie in diesem Fall dataproc:dataproc.yarn.orphaned-app-termination.enable=false fest. Legen Sie diese Property auch auf false fest, wenn Sie Hive-Jobs einreichen. |
Dataproc | efm.spark.shuffle | primary-worker |
Wenn primary-worker festgelegt ist, werden Spark-Shuffle-Daten in primäre Worker geschrieben. Weitere Informationen finden Sie unter Dataproc Enhanced Flexibility Mode. |
Dataproc | job.history.to-gcs.enabled | true oder false |
Ermöglicht das Beibehalten von MapReduce- und Spark-Verlaufsdateien im temporären Dataproc-Bucket (Standardeinstellung: true für Image-Versionen 1.5 und höher). Nutzer können die Speicherorte der Jobprotokoll-Persistenz über die folgenden Attribute überschreiben: mapreduce.jobhistory.done-dir , mapreduce.jobhistory.intermediate-done-dir , spark.eventLog.dir , und spark.history.fs.logDirectory Weitere Informationen zu diesen und anderen Clusterattributen, die dem Dataproc-Jobverlauf und den Ereignisdateien zugeordnet sind, finden Sie unter Dataproc Persistent History Server. |
Dataproc | jobs.file-backed-output.enable | true oder false |
Konfiguriert Dataproc-Jobs, um ihre Ausgabe an temporäre Dateien im Verzeichnis /var/log/google-dataproc-job weiterzuleiten. Muss auf true gesetzt werden, damit das Jobtreiber-Logging in Cloud Logging aktiviert wird (Standardeinstellung: true ). |
Dataproc | jupyter.listen.all.interfaces | true oder false |
Um das Risiko der Remotecodeausführung über unsichere Notebookserver-APIs zu verringern, ist für Image-Versionen 1.3 oder höher false die Standardeinstellung. Dadurch werden Verbindungen zu localhost (127.0.0.1 ) eingeschränkt, wenn Component Gateway aktiviert ist (Component Gateway-Aktivierung ist für 2.0+-Images nicht erforderlich). Diese Standardeinstellung kann überschrieben werden, indem für dieses Attribut true festgelegt wird. |
Dataproc | jupyter.notebook.gcs.dir | gs://<dir-path> |
Speicherort in Cloud Storage zum Speichern von Jupyter-Notebooks. |
Dataproc | kerberos.beta.automatic-config.enable | true oder false |
Wenn true festgelegt ist, müssen Nutzer das Passwort des Kerberos-Root-Hauptkontos nicht mit den Flags --kerberos-root-principal-password und --kerberos-kms-key-uri (Standard: false ) angeben. Weitere Informationen finden Sie unter Sicheren Hadoop-Modus über Kerberos aktivieren. |
Dataproc | kerberos.cross-realm-trust.admin-server | hostname/address |
Hostname/Adresse des Remote-Admin-Servers (oft identisch mit dem KDC-Server). |
Dataproc | kerberos.cross-realm-trust.kdc | hostname/address |
Hostname/Adresse des entfernten KDC. |
Dataproc | kerberos.cross-realm-trust.realm | realm name |
Realm-Namen können aus beliebigen ASCII-Strings in GROSSBUCHSTABEN bestehen. Normalerweise ist der Realm-Name derselbe wie Ihr DNS-Domainname (in GROSSBUCHSTABEN). Beispiel: Wenn Maschinen den Namen "machine-id.example.west-coast.mycompany.com" erhalten, kann der zugeordnete Realm als "EXAMPLE.WEST-COAST.MYCOMPANY.COM" bezeichnet werden. |
Dataproc | kerberos.cross-realm-trust.shared-password.uri | gs://<dir-path> |
Speicherort in Cloud Storage des mit KMS verschlüsselten freigegebenen Passworts. |
Dataproc | kerberos.kdc.db.key.uri | gs://<dir-path> |
Speicherort in Cloud Storage der KMS-verschlüsselten Datei mit dem Masterschlüssel der KDC-Datenbank. |
Dataproc | kerberos.key.password.uri | gs://<dir-path> |
Speicherort in Cloud Storage der KMS-verschlüsselten Datei, die das Passwort des Schlüssels in der Keystore-Datei enthält. |
Dataproc | kerberos.keystore.password.uri | gs://<dir-path> |
Speicherort in Cloud Storage der KMS-verschlüsselten Datei, die das Keystore-Passwort enthält. |
Dataproc | kerberos.keystore.uri1 | gs://<dir-path> |
Speicherort in Cloud Storage der Keystore-Datei, die das Platzhalterzertifikat und den von Clusterknoten verwendeten privaten Schlüssel enthält. |
Dataproc | kerberos.kms.key.uri | KMS key URI |
Der URI des KMS-Schlüssels zum Entschlüsseln des Root-Passworts, z. B. projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (siehe Schlüsselressourcen-ID). |
Dataproc | kerberos.root.principal.password.uri | gs://<dir-path> |
Speicherort in Cloud Storage des KMS-verschlüsselten Passworts für das Kerberos-Root-Principal. |
Dataproc | kerberos.tgt.lifetime.hours | hours |
Maximale Lebensdauer des Ticket gewährenden Tickets. |
Dataproc | kerberos.truststore.password.uri | gs://<dir-path> |
Speicherort in Cloud Storage der KMS-verschlüsselten Datei, die das Passwort für die Truststore-Datei enthält. |
Dataproc | kerberos.truststore.uri2 | gs://<dir-path> |
Speicherort in Cloud Storage der KMS-verschlüsselten Trust Store-Datei, die vertrauenswürdige Zertifikate enthält. |
Dataproc | pip.packages | pip-Pakete | Dieses Attribut verwendet eine Liste mit durch Kommas getrennten Pip-Paketen mit bestimmten Versionen, die in der Conda-Umgebung base zu installieren sind. Weitere Informationen finden Sie unter Conda-verwandte Clusterattribute. (Standard empty ). |
Dataproc | ranger.kms.key.uri | KMS key URI |
Der URI des KMS-Schlüssels, der zum Entschlüsseln des Administratorpassworts für Ranger verwendet wird, z. B. projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key Schlüsselressourcen-ID. |
Dataproc | ranger.admin.password.uri | gs://<dir-path> |
Speicherort in Cloud Storage des mit KMS verschlüsselten Passworts für den Ranger-Administrator. |
Dataproc | ranger.db.admin.password.uri | gs://<dir-path> |
Speicherort des KMS-verschlüsselten Passworts für den Ranger-Datenbankadministrator in Cloud Storage. |
Dataproc | ranger.cloud-sql.instance.connection.name | cloud sql instance connection name |
Der Verbindungsname der Cloud SQL-Instanz, z. B. project-id:region:name. |
Dataproc | ranger.cloud-sql.root.password.uri | gs://<dir-path> |
Speicherort in Cloud Storage des KMS-verschlüsselten Passworts für den Root-Nutzer der Cloud SQL-Instanz. |
Dataproc | ranger.cloud-sql.use-private-ip | true oder false |
Legt fest, ob die Kommunikation zwischen Clusterinstanzen und der Cloud SQL-Instanz über eine private IP-Adresse erfolgen soll (Standardwert ist false ). |
Dataproc | solr.gcs.path | gs://<dir-path> |
Cloud Storage-Pfad, der als Solr-Basisverzeichnis fungiert. |
Dataproc | startup.component.service-binding-timeout.hadoop-hdfs-namenode | seconds |
Die Zeitspanne, die das Dataproc-Startskript wartet, bis das Hadoop-HDFS-namenode an Ports gebunden ist, bevor entschieden wird, dass der Start erfolgreich war. Der maximal erkannte Wert beträgt 1.800 Sekunden (30 Minuten). |
Dataproc | startup.component.service-binding-timeout.hive-metastore | seconds |
Die Zeitspanne, die das Dataproc-Startskript auf die Bindung des Hive-Metastore-Dienstes an Ports wartet, bevor entschieden wird, dass der Start erfolgreich war. Der maximal erkannte Wert beträgt 1.800 Sekunden (30 Minuten). |
Dataproc | startup.component.service-binding-timeout.hive-server2 | seconds |
Die Zeit, die das Dataproc-Startskript auf die Bindung des Hive-Servers2 an Ports wartet, bevor entschieden wird, dass der Start erfolgreich war. Der maximal erkannte Wert beträgt 1.800 Sekunden (30 Minuten). |
Dataproc | user-attribution.enabled | true oder false |
Legen Sie dieses Attribut auf true fest, um einen Dataproc-Job der Identität des Nutzers zuzuordnen, der den Job gesendet hat (Standardwert ist false ). |
Dataproc | yarn.docker.enable | true oder false |
Legen Sie true fest, um das Feature Dataproc Docker in YARN zu aktivieren (Standardwert ist false ). |
Dataproc | yarn.docker.image | docker image |
Wenn Sie das Feature Dataproc Docker in YARN (dataproc:yarn.docker.enable=true ) aktivieren, können Sie mit diesem optionalen Attribut Ihr Docker-Image angeben (z. B. dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1 ). Wenn angegeben, wird das Image heruntergeladen und während der Clustererstellung auf allen Knoten des Clusters im Cache gespeichert. |
Dataproc | yarn.log-aggregation.enabled | true oder false |
Ermöglicht, dass (true ) die YARN-Log-Aggregation in der temp bucket des Clusters aktiviert. Der Bucket-Name hat das folgende Format: dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING> . (Standard: true für Image-Versionen 1.5 und höher). Hinweis: Der temporäre Bucket des Clusters wird nicht gelöscht, wenn der Cluster gelöscht wird. Nutzer können den Speicherort aggregierter YARN-Protokolle auch durch Überschreiben des YARN-Attributs yarn.nodemanager.remote-app-log-dir festlegen. |
Knox | gateway.host | ip address |
Zur Reduzierung des Risikos der Remote-Code-Ausführung über ungesicherte Notebookserver-APIs ist die Standardeinstellung für Image-Versionen 1.3 und höher 127.0.0.1 , die Verbindungen zu localhost einschränkt, wenn Component Gateway aktiviert ist. Die Standardeinstellung kann überschrieben werden, indem Sie beispielsweise dieses Attribut auf 0.0.0.0 setzen, um alle Verbindungen zuzulassen. |
zeppelin | zeppelin.notebook.gcs.dir | gs://<dir-path> |
Speicherort in Cloud Storage zum Speichern von Zeppelin-Notebooks. |
zeppelin | zeppelin.server.addr | ip address |
Um das Risiko der Remote-Codeausführung über unsichere Notebookserver-APIs zu verringern, ist für Image-Versionen 1.3 oder höher 127.0.0.1 die Standardeinstellung. Dadurch werden Verbindungen zu localhost eingeschränkt, wenn Component Gateway aktiviert ist. Diese Standardeinstellung kann überschrieben werden, indem Sie beispielsweise dieses Attribut auf 0.0.0.0 setzen, um alle Verbindungen zuzulassen. |
1Keystore-Datei: Die Keystore-Datei enthält das SSL-Zertifikat. Es muss im JKS-Format (Java KeyStore) vorliegen. Beim Kopieren in VMs wird er in keystore.jks
umbenannt.
Das SSL-Zertifikat muss ein Platzhalterzertifikat sein, das für jeden Knoten im Cluster gilt.
2Truststore-Datei: Die Truststore-Datei muss im JKS-Format (Java KeyStore) vorliegen. Beim Kopieren in VMs wird er in truststore.jks
umbenannt.