Diese Seite wurde von der Cloud Translation API übersetzt.

Clusterattribute

Apache Hadoop YARN, HDFS, Spark und zugehörige Attribute

Die in Dataproc-Clustern installierten Open-Source-Komponenten enthalten viele Konfigurationsdateien. Apache Spark und Apache Hadoop haben beispielsweise mehrere XML- und Nur-Text-Konfigurationsdateien. Mit dem Flag ‑‑properties des Befehls gcloud dataproc clusters create können Sie beim Erstellen eines Clusters viele häufig verwendete Konfigurationsdateien ändern.

Formatierung

Das Flag gcloud dataproc clusters create --properties akzeptiert das folgende Stringformat:

file_prefix1:property1=value1,file_prefix2:property2=value2,...

Das file_prefix wird wie in der folgenden Tabelle dargestellt einer vordefinierten Konfigurationsdatei zugeordnet und die property wird einem Attribut in der Datei zugeordnet.
Das Standardtrennzeichen zum Trennen mehrerer Clusterattribute ist das Komma (,). Wenn in einem Attributwert jedoch ein Komma enthalten ist, müssen Sie das Trennzeichen ändern, indem Sie ein "^delimiter^" am Anfang der Attributsliste angeben (weitere Informationen finden Sie unter gcloud topic escaping).
- Beispiel mit einem „#“-Trennzeichen:
```
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
```

Beispiele

gcloud-Befehl

Fügen Sie das folgende Flag gcloud dataproc clusters create --properties hinzu, um die Einstellung spark.master in der Datei spark-defaults.conf zu ändern:

--properties 'spark:spark.master=spark://example.com'

Sie können mehrere Eigenschaften gleichzeitig in einer oder mehreren Konfigurationsdateien ändern, indem Sie ein Komma als Trennzeichen verwenden. Jede Eigenschaft muss im vollständigen file_prefix:property=value-Format angegeben werden. Wenn Sie beispielsweise die Einstellung spark.master in der Datei spark-defaults.conf und die Einstellung dfs.hosts in der Datei hdfs-site.xml ändern möchten, verwenden Sie das folgende --properties-Flag, wenn Sie den Cluster erstellen:

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

REST API

Um spark.executor.memory auf 10g zu setzen, fügen Sie die folgende properties-Einstellung in den Abschnitt SoftwareConfig Ihrer clusters.create-Anfrage ein:

"properties": {
  "spark:spark.executor.memory": "10g"
}

Der JSON-Text einer REST-Anfrage von Cloud Dataproc API-Clustern kann einfach durch Initiieren des entsprechenden gcloud-Befehls mithilfe des Flags --log-http erstellt werden. Hier sehen Sie ein Beispiel für einen gcloud dataproc clusters create-Befehl, mit dem Cluster-Eigenschaften mit dem Flag --properties spark:spark.executor.memory=10g festgelegt werden. Das Stdout-Log zeigt den resultierenden REST-Anfragetext an (das properties-Snippet wird unten dargestellt):

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

Ausgabe:

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

...
== body end ==
...

Um zu vermeiden, dass der Befehl wirksam wird, müssen Sie den Befehl abbrechen, wenn der JSON-Text in der Ausgabe angezeigt wird.

Console

So ändern Sie die Einstellung spark.master in der Datei spark-defaults.conf:

Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Klicken Sie auf das Feld „Cluster anpassen“ und scrollen Sie zum Abschnitt „Clusterattribute“.
Klicken Sie auf + ATTRIBUTE HINZUFÜGEN. Wählen Sie in der Präfixliste spark aus und fügen Sie den Wert „spark.master“ im Feld „Schlüssel“ sowie die Einstellung im Feld „Wert“ hinzu.

Cluster- oder Jobattribute

Die Apache Hadoop YARN-, HDFS-, Spark- und andere Dateipräfixattribute werden beim Erstellen eines Clusters auf Clusterebene angewendet. Diese Attribute können nach dem Erstellen nicht auf einen Cluster angewendet werden. Viele dieser Attribute können jedoch auch auf bestimmte Jobs angewendet werden. Wenn Sie ein Attribut auf einen Job anwenden, wird das Dateipräfix nicht verwendet.

Im folgenden Beispiel wird der Spark-Executor-Arbeitsspeicher für einen Spark-Job auf 4 GB festgelegt (Präfix spark: wird ausgelassen).

gcloud dataproc jobs submit spark \
    --region=REGION \
    --properties=spark.executor.memory=4g \
    other args ...

Jobattribute können in einer Datei mit dem Flag gcloud dataproc jobs submit job-type --properties-file übergeben werden. Ein Beispiel hierfür finden Sie in der Beschreibung von --properties-file für die Übermittlung eines Hadoop-Jobs.

gcloud dataproc jobs submit JOB_TYPE \
    --region=REGION \
    --properties-file=PROPERTIES_FILE \
    other args ...

PROPERTIES_FILE ist eine Reihe von zeilenbegrenzten key=value-Paaren. Das Attribut, das festgelegt werden soll, ist key und der Wert, auf den das Attribut festgelegt werden soll, ist value. Eine detaillierte Beschreibung des Attributdateiformats finden Sie in der Klasse java.util.Properties.

Im Folgenden sehen Sie ein Beispiel für eine Eigenschaftendatei, die beim Senden eines Dataproc-Jobs an das Flag --properties-file übergeben werden kann.

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

Tabelle mit Attributen mit Dateipräfixen

Dateipräfix	Datei	Dateizweck
capacity-scheduler	capacity-scheduler.xml	Hadoop YARN Capacity Scheduler-Konfiguration
core	core-site.xml	Hadoop – allgemeine Konfiguration
distcp	distcp-default.xml	Hadoop Distributed Copy-Konfiguration
Flink	flink-conf.yaml	Flink-Konfiguration
flink-log4j	log4j.properties	Log4j Einstellungen Datei
hadoop-env	hadoop-env.sh	Hadoop-spezifische Umgebungsvariablen
hadoop-log4j	log4j.properties	Log4j Einstellungen Datei
HBase	hbase-site.xml	HBase-Konfiguration
hbase-log4j	log4j.properties	Log4j Einstellungen Datei
hdfs	hdfs-site.xml	Hadoop – HDFS-Konfiguration
hive	hive-site.xml	Hive-Konfiguration
hive-log4j2	hive-log4j2.properties	Log4j Einstellungen Datei
hudi	hudi-default.conf	Hudi-Konfiguration
mapred	mapred-site.xml	Hadoop – MapReduce-Konfiguration
mapred-env	mapred-env.sh	Hadoop MapReduce-spezifische Umgebungsvariablen
pig	pig.properties	Pig-Konfiguration
pig-log4j	log4j.properties	Log4j Einstellungen Datei
presto	config.properties	Presto-Konfiguration
presto-jvm	jvm.config	Presto-spezifische JVM-Konfiguration
spark	spark-defaults.conf	Spark-Konfiguration
spark-env	spark-env.sh	Spark-spezifische Umgebungsvariablen
spark-log4j	log4j.properties	Log4j Einstellungen Datei
tez	tez-site.xml	Tez-Konfiguration
webcat-log4j	webhcat-log4j2.properties	Log4j Einstellungen Datei
yarn	yarn-site.xml	Hadoop – YARN-Konfiguration
yarn-env	yarn-env.sh	Hadoop YARN-spezifische Umgebungsvariablen
zeppelin	zeppelin-site.xml	Zeppelin-Konfiguration
zeppelin-env	zeppelin-env.sh	Zeppelin-spezifische Umgebungsvariablen (nur optionale Komponente)
zeppelin-log4j	log4j.properties	Log4j Einstellungen Datei
zookeeper	zoo.cfg	Zookeeper-Konfiguration
zookeeper-log4j	log4j.properties	Log4j Einstellungen Datei

Hinweise

Einige Attribute sind reserviert und können nicht überschrieben werden, da sie sich auf die Funktionalität des Dataproc-Clusters auswirken. Wenn Sie versuchen, ein reserviertes Attribut zu ändern, erhalten Sie beim Erstellen des Clusters eine Fehlermeldung.
Mehrere Änderungen werden durch ein Komma getrennt.
Mit dem Flag --properties können nur die oben aufgeführten Konfigurationsdateien geändert werden.
Änderungen an den Attributen werden übernommen, bevor die Daemons auf dem Cluster gestartet werden.
Wenn das angegebene Attribut bereits vorhanden ist, wird es aktualisiert. Wenn die angegebene Eigenschaft nicht vorhanden ist, wird sie der Konfigurationsdatei hinzugefügt.

Dataproc-Dienstattribute

Die in diesem Abschnitt aufgeführten Attribute gelten speziell für Dataproc. Diese Attribute können verwendet werden, um die Funktionalität Ihres Dataproc-Clusters weiter zu konfigurieren.

Formatierung

Das Flag gcloud dataproc clusters create --properties akzeptiert das folgende Stringformat:

property_prefix1:property1=value1,property_prefix2:property2=value2,...

Das Standardtrennzeichen zum Trennen mehrerer Clusterattribute ist das Komma (,). Wenn in einem Attributwert jedoch ein Komma enthalten ist, müssen Sie das Trennzeichen ändern, indem Sie "^delimiter^" am Anfang der Attributsliste angeben (weitere Informationen finden Sie unter gcloud topic escaping).
- Beispiel mit einem „#“-Trennzeichen:
```
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
```

Beispiel:

Erstellen Sie einen Cluster und legen Sie den Enhanced Flexibility Mode auf den primären Worker-Shuffle für Spark fest.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    other args ...

Tabelle der Dataproc-Dienstattribute

Attributpräfix	Attribut	Werte	Beschreibung
Dataproc	agent.process.threads.job.min	`number`	Dataproc führt Nutzerjob-Treiber gleichzeitig in einem Thread-Pool aus. Dieses Attribut steuert die Mindestanzahl der Threads im Thread-Pool für einen schnellen Start, auch wenn keine Jobs ausgeführt werden (Standard: 10).
Dataproc	agent.process.threads.job.max	`number`	Dataproc führt Nutzerjob-Treiber gleichzeitig in einem Thread-Pool aus. Dieses Attribut steuert die maximale Anzahl der Threads im Thread-Pool und begrenzt so die maximale Parallelität von Nutzerjobs. Erhöhen Sie diesen Wert, um die Nebenläufigkeit zu erhöhen (Standardwert: 100).
Dataproc	am.primary_only	`true` oder `false`	Setzen Sie dieses Attribut auf `true`true, um zu verhindern, dass der Anwendungsmaster auf Workern auf Abruf des Dataproc-Clusters ausgeführt wird. Hinweis: Diese Funktion ist nur in Verbindung mit Dataproc 1.2 und höher verfügbar. Der Standardwert ist `false`.
Dataproc	conda.env.config.uri	`gs://<path>`	Speicherort in Cloud Storage der Konfigurationsdatei von Conda. Anhand dieser Datei wird eine neue Conda-Umgebung erstellt und aktiviert. Weitere Informationen finden Sie unter Conda-verwandte Clusterattribute verwenden. (Standard: `empty`).
Dataproc	conda.packages	Conda-Pakete	Dieses Attribut verwendet eine Liste mit durch Kommas getrennten Conda-Paketen mit bestimmten Versionen, die in der Conda-Umgebung `base` zu installieren sind. Weitere Informationen finden Sie unter Conda-verwandte Clusterattribute verwenden. (Standard `empty`).
Dataproc	dataproc.allow.zero.workers	`true` oder `false`	Legen Sie für dieses SoftwareConfig-Attribut `true` in der Cloud Dataproc `clusters.create`API-Anfrage fest, um einen Cluster mit einem einzigen Knoten zu erstellen. Dadurch wird die Standardanzahl der Worker von 2 in 0 geändert und es werden Worker-Komponenten im Masterhost platziert. Ein Cluster mit einzelnem Knoten kann auch über die Google Cloud Console oder mit der Google Cloud CLI erstellt werden, indem Sie die Anzahl der Worker auf `0` setzen.
Dataproc	dataproc.alpha.master.nvdimm.size.gb	1500-6500	Durch das Festlegen eines Werts wird mit Intel Optane DC Persistent Memory ein Dataproc-Master erstellt. Hinweis: Optane-VMs können nur in `us-central1-f`-Zonen, nur mit `n1-highmem-96-aep`-Maschinentyp und nur in Projekten auf der weißen Liste erstellt werden.
dataproc:	dataproc.alpha.worker.nvdimm.size.gb	1500-6500	Durch das Festlegen eines Werts wird mit Intel Optane DC Persistent Memory ein Dataproc-Worker erstellt. Hinweis: Optane-VMs können nur in `us-central1-f`-Zonen, nur mit `n1-highmem-96-aep`-Maschinentyp und nur in Projekten auf der weißen Liste erstellt werden.
dataproc:	dataproc.await-new-workers-service-registration	`true` oder `false`	Diese Eigenschaft ist in den Images 2.0.49 und höher verfügbar. Der Standardwert ist `false`. Legen Sie diese Eigenschaft auf `true` fest, um zu warten, bis neue primäre Worker Dienstleiter wie HDFS NameNode und YARN ResourceManager bei der Clustererstellung oder beim Hochskalieren des Clusters registrieren (nur HDFS- und YARN-Dienste werden überwacht). Wenn der Wert auf `true` festgelegt ist und ein neuer Worker sich nicht bei einem Dienst registrieren kann, wird ihm der Status `FAILED` zugewiesen. Ein ausgefallener Worker wird entfernt, wenn der Cluster skaliert wird. Wenn der Cluster erstellt wird, wird ein fehlerhafter Worker entfernt, wenn das Flag `gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE` oder das API-Feld `actionOnFailedPrimaryWorkers=DELETE` als Teil des Befehls `gcloud` oder der API-Anfrage zum Erstellen des Clusters angegeben wurde.
dataproc:	dataproc.beta.secure.multi-tenancy.user.mapping	`user-to-service account mappings`	Dieses Attribut verwendet eine Liste von Nutzer-zu-Dienst-Kontozuordnungen. Zugeordnete Nutzer können interaktive Arbeitslasten mit isolierten Nutzeridentitäten an den Cluster senden (siehe Dataproc-Dienstkonto-basierte Mehrmandantenfähigkeit).
dataproc:	dataproc.cluster.caching.enabled	`true` oder `false`	Wenn Cluster-Caching aktiviert ist, werden Cloud Storage-Daten, auf die von Spark-Jobs zugegriffen wird, im Cluster-Cache gespeichert. Dadurch wird die Jobleistung verbessert, ohne dass die Konsistenz beeinträchtigt wird. (Standard: `false`).
Dataproc	dataproc.cluster-ttl.consider-yarn-activity	`true` oder `false`	Wenn diese Option auf `true` festgelegt ist, berücksichtigt das planmäßige Löschen von Clustern sowohl die YARN- als auch die Dataproc Jobs API-Aktivität bei der Berechnung der Inaktivitätszeit des Clusters. Wenn `false` festgelegt ist, wird nur die Dataproc Jobs API-Aktivität berücksichtigt. (Standard: `true`). Weitere Informationen finden Sie unter Berechnung der Cluster-Leerlaufzeit.
Dataproc	dataproc.conscrypt.provider.enable	`true` oder `false`	Aktiviert (`true`) oder deaktiviert (`false`) Conscrypt als primären Java-Sicherheitsanbieter. Hinweis: Conscrypt ist in Dataproc 1.2 und höher standardmäßig aktiviert, jedoch in 1.0/1.1 deaktiviert.
Dataproc	dataproc.cooperative.multi-tenancy.user.mapping	`user-to-service account mappings`	Dieses Attribut verwendet eine Liste mit durch Kommas getrennten Nutzer-zu-Dienst-Kontozuordnungen. Wenn ein Cluster mit diesem Attribut erstellt wird und ein Nutzer einen Job sendet, versucht der Cluster, beim Zugriff auf Cloud Storage über den Cloud Storage-Connector die Identität des entsprechenden Dienstkontos zu übernehmen. Diese Funktion benötigt die Cloud Storage-Connector-Version `2.1.4` oder höher. Weitere Informationen finden Sie unter Dataproc: kooperative Mehrinstanzenfähigkeit. (Standard: `empty`).
Dataproc	dataproc.control.max.assigned.job.tasks	`100`	Mit dieser Property wird begrenzt, wie viele Aufgaben gleichzeitig auf einem Cluster-Masterknoten ausgeführt werden können. Wenn die Anzahl der aktiven Aufgaben das Aufgabenlimit überschreitet, werden neue Jobs in die Warteschlange gestellt, bis laufende Jobs abgeschlossen sind und Ressourcen freigegeben werden, damit neue Aufgaben geplant werden können. Hinweis:Es wird nicht empfohlen, ein Standardaufgabenlimit festzulegen, das über `100` (dem Standardwert) liegt, da dies zu einem Fehler aufgrund von unzureichendem Arbeitsspeicher auf dem Masterknoten führen kann.
Dataproc	dataproc:hudi.version	Hudi-Version	Legt die Hudi-Version fest, die mit der optionalen Dataproc-Hudi-Komponente verwendet wird. Hinweis:Diese Version wird von Dataproc so festgelegt, dass sie mit der Cluster-Image-Version kompatibel ist. Wenn sie vom Nutzer festgelegt wird, kann die Clustererstellung fehlschlagen, wenn die angegebene Version nicht mit dem Cluster-Image kompatibel ist.
Dataproc	dataproc.lineage.enabled	`true`	Aktiviert die Datenherkunft in einem Dataproc-Cluster für Spark-Jobs.
Dataproc	dataproc.localssd.mount.enable	`true` oder `false`	Gibt an, ob lokale SSDs als temporäre Hadoop/Spark-Verzeichnisse und HDFS-Datenverzeichnisse bereitgestellt werden sollen (Standardeinstellung: `true`).
Dataproc	dataproc.logging.extended.enabled	`true` oder `false`	Aktiviert (`true`) oder deaktiviert (`false`) Logs in Cloud Logging für Folgendes: `knox`, `zeppelin`, `ranger-usersync`, `jupyter_notebook`, `jupyter_kernel_gateway` und `spark-history-server` (Standardeinstellung: `true`). Weitere Informationen finden Sie unter Dataproc-Clusterlogs in Logging.
Dataproc	dataproc.logging.stackdriver.enable	`true` oder `false`	Aktiviert (`true`) oder deaktiviert (`false`) das Cloud Logging (Standardeinstellung: `true`). Informationen zu den entsprechenden Kosten finden Sie unter Cloud Logging – Preise.
Dataproc	dataproc.logging.stackdriver.job.driver.enable	`true` oder `false`	Aktiviert (`true`) oder deaktiviert (`false`) Dataproc-Jobtreiberprotokolle in Cloud Logging. Siehe Dataproc-Jobausgabe und -Logs (Standardeinstellung: `false`).
Dataproc	dataproc.logging.stackdriver.job.yarn.container.enable	`true` oder `false`	Aktiviert (`true`) oder deaktiviert (`false`) YARN-Containerlogs in Cloud Logging. Weitere Informationen finden Sie unter Optionen für die Spark-Job-Ausgabe. (Standard: `false`).
Dataproc	dataproc.logging.syslog.enabled	`true` oder `false`	Aktiviert (`true`) oder deaktiviert (`false`) VM-Syslogs in Cloud Logging (Standardeinstellung: `true`).
Dataproc	dataproc.master.custom.init.actions.mode	`RUN_BEFORE_SERVICES` oder `RUN_AFTER_SERVICES`	Bei Image-Clustern ab 2.0 werden Initialisierungsaktionen auf dem Master nach HDFS und allen von HDFS abhängigen Diensten initialisiert, wenn dieser Wert auf `RUN_AFTER_SERVICES` gesetzt ist. Beispiele für HDFS-abhängige Dienste sind: HBase, Hive Server2, Ranger, Solr und die Spark- und MapReduce-Verlaufsserver. (`RUN_BEFORE_SERVICES`, Standard)
Dataproc	dataproc.monitoring.stackdriver.enable	`true` oder `false`	Aktiviert (`true`) oder deaktiviert (`false`) den Monitoring-Agent (Standardeinstellung: `false`). Diese Property ist veraltet. Informationen zum Aktivieren der Erfassung von Dataproc OSS-Messwerten in Monitoring finden Sie unter Erfassung benutzerdefinierter Messwerte aktivieren.
Dataproc	dataproc.scheduler.driver-size-mb	`number`	Der durchschnittliche Speicherbedarf des Treibers, der die maximale Anzahl gleichzeitiger Jobs bestimmt, die ein Cluster ausführen wird. Der Standardwert ist `1` GB. Für Spark-Jobs kann ein kleinerer Wert wie `256` geeignet sein.
Dataproc	dataproc.scheduler.job-submission-rate	`number`	Wenn diese Rate überschritten wird, werden Jobs gedrosselt. Die Standardrate ist `1.0` QPS.
Dataproc	dataproc.scheduler.max-concurrent-jobs	`number`	Die maximale Anzahl gleichzeitiger Jobs. Wenn dieser Wert beim Erstellen des Clusters nicht festgelegt wird, wird die Obergrenze für gleichzeitige Jobs als `max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5)` berechnet. `masterMemoryMb` wird vom Maschinentyp der Master-VM bestimmt. `masterMemoryMbPerJob` ist standardmäßig `1024`, kann aber bei der Clustererstellung mit dem Clusterattribut `dataproc:dataproc.scheduler.driver-size-mb` konfiguriert werden.
Dataproc	dataproc.scheduler.max-memory-used	`number`	Die maximale Menge an RAM, die verwendet werden kann. Wenn die aktuelle Nutzung diesen Grenzwert überschreitet, können keine neuen Jobs geplant werden. Der Standardwert ist `0.9` (90%). Wenn `1.0` festgelegt ist, wird die Jobdrosselung für die Master-Arbeitsspeichernutzung deaktiviert.
Dataproc	dataproc.scheduler.min-free-memory.mb	`number`	Die Mindestmenge an freiem Arbeitsspeicher in Megabyte, die der Dataproc-Job-Treiber benötigt, um einen weiteren Job im Cluster zu planen. Der Standardwert ist `256` MB.
Dataproc	dataproc.snap.enabled	`true` oder `false`	Aktiviert oder deaktiviert den Ubuntu-Snap-Daemon. Der Standardwert ist `true`. Wenn `false` festgelegt ist, sind vorinstallierte Snap-Pakete im Image nicht betroffen, die automatische Aktualisierung ist jedoch deaktiviert. Gilt für Ubuntu-Images der Version 1.4.71, 1.5.46, 2.0.20 und höher.
Dataproc	dataproc.worker.custom.init.actions.mode	`RUN_BEFORE_SERVICES`	Für Image-Cluster vor Version 2.0 ist RUN_BEFORE_SERVICES nicht festgelegt, kann jedoch vom Nutzer beim Erstellen des Clusters festgelegt werden. Für Image-Cluster ab 2.0 ist RUN_BEFORE_SERVICES festgelegt und das Attribut kann nicht an den Cluster übergeben werden (es kann vom Nutzer nicht geändert werden). Informationen zu den Auswirkungen dieser Einstellung finden Sie unter Wichtige Hinweise und Richtlinien – Initialisierungsverarbeitung.
Dataproc	dataproc.yarn.orphaned-app-termination.enable	`true` oder `false`	Der Standardwert ist `true`. Auf `false` setzen, um zu verhindern, dass Dataproc verwaiste YARN-Anwendungen beendet. Eine YARN-Anwendung gilt in Dataproc als verwaist, wenn der Job-Treiber, der die YARN-Anwendung gesendet hat, beendet wurde. Warnung:Wenn Sie den Spark-Clustermodus (`spark.submit.deployMode=cluster`) verwenden und `spark.yarn.submit.waitAppCompletion=false` festlegen, wird der Spark-Treiber beendet, ohne darauf zu warten, dass YARN-Apps abgeschlossen werden. In diesem Fall sollten Sie `dataproc:dataproc.yarn.orphaned-app-termination.enable=false` festlegen. Legen Sie dieses Attribut auch auf `false` fest, wenn Sie Hive-Jobs einreichen.
Dataproc	diagnostic.capture.enabled	`true` oder `false`	Aktiviert die Erhebung von Diagnosedaten für Cluster-Checkpoints. (Standard: `true`).
Dataproc	diagnostic.capture.access	`GOOGLE_DATAPROC_DIAGNOSE`	Wenn diese Option auf `GOOGLE_DATAPROC_DIAGNOSE` festgelegt ist, werden Checkpoint-Diagnosedaten des Clusters, die in Cloud Storage gespeichert sind, für den Dataproc-Support freigegeben. (Standardeinstellung: nicht festgelegt).
Dataproc	efm.spark.shuffle	`primary-worker`	Bei Einstellung auf `primary-worker` werden Spark-Shuffle-Daten in primäre Worker geschrieben. Weitere Informationen finden Sie unter Dataproc Enhanced Flexibility Mode.
Dataproc	job.history.to-gcs.enabled	`true` oder `false`	Ermöglicht das Beibehalten von MapReduce- und Spark-Verlaufsdateien im temporären Dataproc-Bucket (Standardeinstellung: `true` für Image-Versionen 1.5 und höher). Nutzer können die Speicherorte der Jobprotokoll-Persistenz über die folgenden Attribute überschreiben: `mapreduce.jobhistory.done-dir`, `mapreduce.jobhistory.intermediate-done-dir`, `spark.eventLog.dir`, und `spark.history.fs.logDirectory` Weitere Informationen zu diesen und anderen Clusterattributen, die dem Dataproc-Jobverlauf und den Ereignisdateien zugeordnet sind, finden Sie unter Dataproc Persistent History Server.
Dataproc	jobs.file-backed-output.enable	`true` oder `false`	Konfiguriert Dataproc-Jobs, um ihre Ausgabe an temporäre Dateien im Verzeichnis `/var/log/google-dataproc-job` weiterzuleiten. Muss auf `true` gesetzt werden, damit das Jobtreiber-Logging in Cloud Logging aktiviert wird (Standardeinstellung: `true`).
Dataproc	jupyter.listen.all.interfaces	`true` oder `false`	Um das Risiko der Remotecodeausführung über unsichere Notebookserver-APIs zu verringern, ist für Image-Versionen 1.3 oder höher `false` die Standardeinstellung. Dadurch werden Verbindungen zu `localhost` (`127.0.0.1`) eingeschränkt, wenn Component Gateway aktiviert ist (Component Gateway-Aktivierung ist für 2.0+-Images nicht erforderlich). Diese Standardeinstellung kann überschrieben werden, indem für dieses Attribut `true` festgelegt wird.
Dataproc	jupyter.notebook.gcs.dir	`gs://<dir-path>`	Speicherort in Cloud Storage zum Speichern von Jupyter-Notebooks.
Dataproc	kerberos.beta.automatic-config.enable	`true` oder `false`	Wenn `true` festgelegt ist, müssen Nutzer das Passwort des Kerberos-Root-Hauptkontos nicht mit den Flags `--kerberos-root-principal-password` und `--kerberos-kms-key-uri` (Standard: `false`) angeben. Weitere Informationen finden Sie unter Sicheren Hadoop-Modus über Kerberos aktivieren.
Dataproc	kerberos.cross-realm-trust.admin-server	`hostname/address`	Hostname/Adresse des Remote-Admin-Servers (oft identisch mit dem KDC-Server).
Dataproc	kerberos.cross-realm-trust.kdc	`hostname/address`	Hostname/Adresse des entfernten KDC.
Dataproc	kerberos.cross-realm-trust.realm	`realm name`	Realm-Namen können aus beliebigen ASCII-Strings in GROSSBUCHSTABEN bestehen. Normalerweise ist der Realm-Name derselbe wie Ihr DNS-Domainname (in GROSSBUCHSTABEN). Beispiel: Wenn Maschinen den Namen "`machine-id`.example.west-coast.mycompany.com" erhalten, kann der zugeordnete Realm als "EXAMPLE.WEST-COAST.MYCOMPANY.COM" bezeichnet werden.
Dataproc	kerberos.cross-realm-trust.shared-password.uri	`gs://<dir-path>`	Speicherort in Cloud Storage des mit KMS verschlüsselten freigegebenen Passworts.
Dataproc	kerberos.kdc.db.key.uri	`gs://<dir-path>`	Speicherort in Cloud Storage der KMS-verschlüsselten Datei mit dem Masterschlüssel der KDC-Datenbank.
Dataproc	kerberos.key.password.uri	`gs://<dir-path>`	Speicherort in Cloud Storage der KMS-verschlüsselten Datei, die das Passwort des Schlüssels in der Keystore-Datei enthält.
Dataproc	kerberos.keystore.password.uri	`gs://<dir-path>`	Speicherort in Cloud Storage der KMS-verschlüsselten Datei, die das Keystore-Passwort enthält.
Dataproc	kerberos.keystore.uri¹	`gs://<dir-path>`	Speicherort in Cloud Storage der Keystore-Datei, die das Platzhalterzertifikat und den von Clusterknoten verwendeten privaten Schlüssel enthält.
Dataproc	kerberos.kms.key.uri	`KMS key URI`	Der URI des KMS-Schlüssels zum Entschlüsseln des Root-Passworts, z. B. `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (siehe Schlüsselressourcen-ID).
Dataproc	kerberos.root.principal.password.uri	`gs://<dir-path>`	Speicherort in Cloud Storage des KMS-verschlüsselten Passworts für das Kerberos-Root-Principal.
Dataproc	kerberos.tgt.lifetime.hours	`hours`	Maximale Lebensdauer des Ticket gewährenden Tickets.
Dataproc	kerberos.truststore.password.uri	`gs://<dir-path>`	Speicherort in Cloud Storage der KMS-verschlüsselten Datei, die das Passwort für die Truststore-Datei enthält.
Dataproc	kerberos.truststore.uri²	`gs://<dir-path>`	Speicherort in Cloud Storage der KMS-verschlüsselten Trust Store-Datei, die vertrauenswürdige Zertifikate enthält.
Dataproc	pip.packages	pip-Pakete	Dieses Attribut verwendet eine Liste mit durch Kommas getrennten Pip-Paketen mit bestimmten Versionen, die in der Conda-Umgebung `base` zu installieren sind. Weitere Informationen finden Sie unter Conda-verwandte Clusterattribute. (Standard `empty`).
Dataproc	ranger.kms.key.uri	`KMS key URI`	Der URI des KMS-Schlüssels, der zum Entschlüsseln des Administratorpassworts für Ranger verwendet wird, z. B. `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` Schlüsselressourcen-ID.
Dataproc	ranger.admin.password.uri	`gs://<dir-path>`	Speicherort in Cloud Storage des mit KMS verschlüsselten Passworts für den Ranger-Administrator.
Dataproc	ranger.db.admin.password.uri	`gs://<dir-path>`	Speicherort des KMS-verschlüsselten Passworts für den Ranger-Datenbankadministrator in Cloud Storage.
Dataproc	ranger.cloud-sql.instance.connection.name	`cloud sql instance connection name`	Der Verbindungsname der Cloud SQL-Instanz, z. B. `project-id:region:name.`
Dataproc	ranger.cloud-sql.root.password.uri	`gs://<dir-path>`	Speicherort in Cloud Storage des KMS-verschlüsselten Passworts für den Root-Nutzer der Cloud SQL-Instanz.
Dataproc	ranger.cloud-sql.use-private-ip	`true` oder `false`	Legt fest, ob die Kommunikation zwischen Clusterinstanzen und der Cloud SQL-Instanz über eine private IP-Adresse erfolgen soll (Standardwert ist `false`).
Dataproc	solr.gcs.path	`gs://<dir-path>`	Cloud Storage-Pfad, der als Solr-Basisverzeichnis fungiert.
Dataproc	startup.component.service-binding-timeout.hadoop-hdfs-namenode	`seconds`	Die Zeitspanne, die das Dataproc-Startskript wartet, bis das Hadoop-HDFS-namenode an Ports gebunden ist, bevor entschieden wird, dass der Start erfolgreich war. Der maximal erkannte Wert beträgt 1.800 Sekunden (30 Minuten).
Dataproc	startup.component.service-binding-timeout.hive-metastore	`seconds`	Die Zeitspanne, die das Dataproc-Startskript auf die Bindung des Hive-Metastore-Dienstes an Ports wartet, bevor entschieden wird, dass der Start erfolgreich war. Der maximal erkannte Wert beträgt 1.800 Sekunden (30 Minuten).
Dataproc	startup.component.service-binding-timeout.hive-server2	`seconds`	Die Zeit, die das Dataproc-Startskript auf die Bindung des Hive-Servers2 an Ports wartet, bevor entschieden wird, dass der Start erfolgreich war. Der maximal erkannte Wert beträgt 1.800 Sekunden (30 Minuten).
Dataproc	user-attribution.enabled	`true` oder `false`	Legen Sie dieses Attribut auf `true` fest, um einen Dataproc-Job der Identität des Nutzers zuzuordnen, der ihn gesendet hat (Standardwert ist `false`).
Dataproc	yarn.docker.enable	`true` oder `false`	Auf `true` festgelegt, um das Feature Dataproc Docker on YARN zu aktivieren (Standardwert ist `false`).
Dataproc	yarn.docker.image	`docker image`	Wenn Sie das Feature Dataproc Docker on YARN (`dataproc:yarn.docker.enable=true`) aktivieren, können Sie mit dieser optionalen Eigenschaft Ihr Docker-Image angeben (z. B. `dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1`). Wenn Sie das Image angeben, wird es beim Erstellen des Clusters auf alle Knoten des Clusters heruntergeladen und dort im Cache gespeichert.
Dataproc	yarn.log-aggregation.enabled	`true` oder `false`	Ermöglicht, dass (`true`) die YARN-Log-Aggregation in der `temp bucket` des Clusters aktiviert. Der Bucket-Name hat das folgende Format: `dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>`. (Standard: `true` für Image-Versionen 1.5 und höher). Hinweis: Der temporäre Bucket des Clusters wird nicht gelöscht, wenn der Cluster gelöscht wird. Nutzer können den Speicherort aggregierter YARN-Protokolle auch durch Überschreiben des YARN-Attributs `yarn.nodemanager.remote-app-log-dir` festlegen.
Knox	gateway.host	`ip address`	Zur Reduzierung des Risikos der Remote-Code-Ausführung über ungesicherte Notebookserver-APIs ist die Standardeinstellung für Image-Versionen 1.3 und höher `127.0.0.1`, die Verbindungen zu `localhost` einschränkt, wenn Component Gateway aktiviert ist. Die Standardeinstellung kann überschrieben werden, indem Sie beispielsweise dieses Attribut auf `0.0.0.0` setzen, um alle Verbindungen zuzulassen.
zeppelin	zeppelin.notebook.gcs.dir	`gs://<dir-path>`	Speicherort in Cloud Storage zum Speichern von Zeppelin-Notebooks.
zeppelin	zeppelin.server.addr	`ip address`	Um das Risiko der Remote-Codeausführung über unsichere Notebookserver-APIs zu verringern, ist für Image-Versionen 1.3 oder höher `127.0.0.1` die Standardeinstellung. Dadurch werden Verbindungen zu `localhost` eingeschränkt, wenn Component Gateway aktiviert ist. Diese Standardeinstellung kann überschrieben werden, indem Sie beispielsweise dieses Attribut auf `0.0.0.0` setzen, um alle Verbindungen zuzulassen.

¹Keystore-Datei: Die Keystore-Datei enthält das SSL-Zertifikat. Es muss im JKS-Format (Java KeyStore) vorliegen. Beim Kopieren in VMs wird er in keystore.jks umbenannt. Das SSL-Zertifikat muss ein Platzhalterzertifikat sein, das für jeden Knoten im Cluster gilt.

²Truststore-Datei: Die Truststore-Datei muss im JKS-Format (Java KeyStore) vorliegen. Beim Kopieren in VMs wird er in truststore.jks umbenannt.