Clusterattribute

Die in Dataproc-Clustern installierten Open-Source-Komponenten enthalten viele Konfigurationsdateien. Apache Spark und Apache Hadoop haben beispielsweise mehrere XML- und Nur-Text-Konfigurationsdateien. Mit dem Flag ‑‑properties des Befehls gcloud dataproc clusters create können Sie beim Erstellen eines Clusters viele häufig verwendete Konfigurationsdateien ändern.

Formatierung

Das Flag gcloud dataproc clusters create --properties akzeptiert das folgende Stringformat:

file_prefix1:property1=value1,file_prefix2:property2=value2,...
  • Das file_prefix wird wie in der folgenden Tabelle dargestellt einer vordefinierten Konfigurationsdatei zugeordnet und die property wird einem Attribut in der Datei zugeordnet.

  • Das Standardtrennzeichen zum Trennen mehrerer Clusterattribute ist das Komma (,). Wenn ein Komma jedoch in einem Attributwert enthalten ist, müssen Sie das Trennzeichen durch Angeben eines „^delimiter^“ am Anfang der Attributliste ändern. Weitere Informationen finden Sie unter gcloud topic Escaping.

    • Beispiel mit einem „#“-Trennzeichen:
      --properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
      

Beispiele

gcloud-Befehl

Fügen Sie das folgende Flag gcloud dataproc clusters create --properties hinzu, um die Einstellung spark.master in der Datei spark-defaults.conf zu ändern:

--properties 'spark:spark.master=spark://example.com'

Sie können mehrere Eigenschaften gleichzeitig in einer oder mehreren Konfigurationsdateien ändern, indem Sie ein Komma als Trennzeichen verwenden. Jede Eigenschaft muss im vollständigen file_prefix:property=value-Format angegeben werden. Wenn Sie beispielsweise die Einstellung spark.master in der Datei spark-defaults.conf und die Einstellung dfs.hosts in der Datei hdfs-site.xml ändern möchten, verwenden Sie das folgende --properties-Flag, wenn Sie den Cluster erstellen:

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

REST API

Um spark.executor.memory auf 10g zu setzen, fügen Sie die folgende properties-Einstellung in den Abschnitt SoftwareConfig Ihrer clusters.create-Anfrage ein:

"properties": {
  "spark:spark.executor.memory": "10g"
}

Der JSON-Text einer REST-Anfrage von Cloud Dataproc API-Clustern kann einfach durch Initiieren des entsprechenden gcloud-Befehls mithilfe des Flags --log-http erstellt werden. Hier sehen Sie ein Beispiel für einen gcloud dataproc clusters create-Befehl, mit dem Cluster-Eigenschaften mit dem Flag --properties spark:spark.executor.memory=10g festgelegt werden. Das Stdout-Log zeigt den resultierenden REST-Anfragetext an (das properties-Snippet wird unten dargestellt):

gcloud dataproc clusters create my-cluster \
    --region=region \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

Ausgabe:

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

... == body end == ...

Um zu vermeiden, dass der Befehl wirksam wird, müssen Sie den Befehl abbrechen, wenn der JSON-Text in der Ausgabe angezeigt wird.

Console

So ändern Sie die Einstellung spark.master in der Datei spark-defaults.conf:

  1. Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Klicken Sie auf das Feld „Cluster anpassen“ und scrollen Sie zum Abschnitt „Clusterattribute“.

  2. Klicken Sie auf + ATTRIBUTE HINZUFÜGEN. Wählen Sie in der Präfixliste spark aus und fügen Sie den Wert „spark.master“ im Feld „Schlüssel“ sowie die Einstellung im Feld „Wert“ hinzu.

Cluster- oder Jobattribute

Die Apache Hadoop YARN-, HDFS-, Spark- und andere Dateipräfixattribute werden beim Erstellen eines Clusters auf Clusterebene angewendet. Diese Attribute können nach der Clustererstellung nicht auf einen Cluster angewendet werden. Viele dieser Eigenschaften können jedoch auch auf bestimmte Jobs angewendet werden. Beim Anwenden einer Eigenschaft auf einen Job wird das Dateipräfix nicht verwendet.

Im folgenden Beispiel wird der Spark-Executor-Speicher für einen Spark-Job auf 4g gesetzt (spark:-Präfix weggelassen).

gcloud dataproc jobs submit spark \
    --region=region \
    --properties=spark.executor.memory=4g \
    ... other args ...

Jobattribute können mit dem Flag gcloud dataproc jobs submit job-type --properties-file in einer Datei gesendet werden (siehe z. B. die Beschreibung --properties-file für eine Hadoop-Jobübermittlung).

gcloud dataproc jobs submit JOB_TYPE \
    --region=region \
    --properties-file=PROPERTIES_FILE \
    ... other args ...

PROPERTIES_FILE ist ein Satz von durch Zeilen getrennten key-value-Paaren. Das Attribut, das festgelegt werden soll, ist key, der Wert für das Attribut ist value. Eine ausführliche Beschreibung des Dateiformats für Attribute finden Sie in der Klasse java.util.Properties.

Das folgende Beispiel zeigt eine Attributdatei, die beim Senden eines Dataproc-Jobs an das Flag --properties-file übergeben werden kann.

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

Tabelle mit Attributen mit Dateipräfixen

Dateipräfix Datei Dateizweck
capacity-scheduler capacity-scheduler.xml Hadoop YARN Capacity Scheduler-Konfiguration
core core-site.xml Hadoop – allgemeine Konfiguration
distcp distcp-default.xml Hadoop Distributed Copy-Konfiguration
flink-log4j log4j.properties Log4j Einstellungen Datei
hadoop-env hadoop-env.sh Hadoop-spezifische Umgebungsvariablen
hadoop-log4j log4j.properties Log4j Einstellungen Datei
HBase hbase-site.xml HBase-Konfiguration
hbase-log4j log4j.properties Log4j Einstellungen Datei
hdfs hdfs-site.xml Hadoop – HDFS-Konfiguration
hive hive-site.xml Hive-Konfiguration
hive-log4j2 hive-log4j2.properties Log4j Einstellungen Datei
Hudi Hudi-Standard.conf Hudi-Konfiguration
mapred mapred-site.xml Hadoop – MapReduce-Konfiguration
mapred-env mapred-env.sh Hadoop MapReduce-spezifische Umgebungsvariablen
pig pig.properties Pig-Konfiguration
pig-log4j log4j.properties Log4j Einstellungen Datei
presto config.properties Presto-Konfiguration
presto-jvm jvm.config Presto-spezifische JVM-Konfiguration
spark spark-defaults.conf Spark-Konfiguration
spark-env spark-env.sh Spark-spezifische Umgebungsvariablen
spark-log4j log4j.properties Log4j Einstellungen Datei
Tez tez-site.xml Tez-Konfiguration
webcat-log4j webhcat-log4j2.properties Log4j Einstellungen Datei
yarn yarn-site.xml Hadoop – YARN-Konfiguration
yarn-env yarn-env.sh Hadoop YARN-spezifische Umgebungsvariablen
yarn-log4j log4j.properties Log4j Einstellungen Datei
zeppelin zeppelin-site.xml Zeppelin-Konfiguration
zeppelin-env zeppelin-env.sh Zeppelin-spezifische Umgebungsvariablen (nur optionale Komponente)
zeppelin-log4j log4j.properties Log4j Einstellungen Datei
zookeeper zoo.cfg Zookeeper-Konfiguration
zookeeper-log4j log4j.properties Log4j Einstellungen Datei

Hinweise

  • Einige Attribute sind reserviert und können nicht überschrieben werden, da sie sich auf die Funktionalität des Dataproc-Clusters auswirken. Wenn Sie versuchen, ein reserviertes Attribut zu ändern, erhalten Sie beim Erstellen des Clusters eine Fehlermeldung.
  • Mehrere Änderungen werden durch ein Komma getrennt.
  • Mit dem Flag --properties können nur die oben aufgeführten Konfigurationsdateien geändert werden.
  • Änderungen an den Attributen werden übernommen, bevor die Daemons auf dem Cluster gestartet werden.
  • Wenn das angegebene Attribut bereits vorhanden ist, wird es aktualisiert. Wenn die angegebene Eigenschaft nicht vorhanden ist, wird sie der Konfigurationsdatei hinzugefügt.

Dataproc-Dienstattribute

Die in diesem Abschnitt aufgeführten Attribute beziehen sich speziell auf Dataproc. Diese Attribute können verwendet werden, um die Funktionalität Ihres Dataproc-Clusters weiter zu konfigurieren.

Formatierung

Das Flag gcloud dataproc clusters create --properties akzeptiert das folgende Stringformat:

property_prefix1:property1=value1,property_prefix2:property2=value2,...
  • Das Standardtrennzeichen zum Trennen mehrerer Clusterattribute ist das Komma (,). Wenn ein Komma jedoch in einem Attributwert enthalten ist, müssen Sie das Trennzeichen ändern. Geben Sie dazu am Anfang der Property-Liste „^delimiter^“ an. Weitere Informationen finden Sie unter gcloud topic Escaping.

    • Beispiel mit einem „#“-Trennzeichen:
      --properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
      

Beispiel:

Erstellen Sie einen Cluster und legen Sie den Enhanced Flexibility Mode auf den primären Worker-Shuffle für Spark fest.

gcloud dataproc jobs submit spark \
    --region=region \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    ... other args ...

Tabelle der Dataproc-Dienstattribute

Attributpräfix Attribut Werte Beschreibung
Dataproc agent.process.threads.job.min number Dataproc führt Nutzerjob-Treiber gleichzeitig in einem Thread-Pool aus. Dieses Attribut steuert die Mindestanzahl der Threads im Thread-Pool für einen schnellen Start, auch wenn keine Jobs ausgeführt werden (Standard: 10).
Dataproc agent.process.threads.job.max number Dataproc führt Nutzerjob-Treiber gleichzeitig in einem Thread-Pool aus. Dieses Attribut steuert die maximale Anzahl von Threads im Thread-Pool und begrenzt damit die maximale Nebenläufigkeit von Nutzerjobs. Erhöhen Sie diesen Wert für eine höhere Nebenläufigkeit (Standardeinstellung: 100).
Dataproc am.primary_only true oder false Setzen Sie dieses Attribut auf truetrue, um zu verhindern, dass der Anwendungsmaster auf Workern auf Abruf des Dataproc-Clusters ausgeführt wird. Hinweis: Diese Funktion ist nur in Verbindung mit Dataproc 1.2 und höher verfügbar. Der Standardwert ist false.
Dataproc conda.env.config.uri gs://<path> Speicherort in Cloud Storage der Konfigurationsdatei von Conda. Anhand dieser Datei wird eine neue Conda-Umgebung erstellt und aktiviert. Weitere Informationen finden Sie unter Conda-verwandte Clusterattribute verwenden. (Standard: empty).
Dataproc conda.packages Conda-Pakete Dieses Attribut verwendet eine Liste mit durch Kommas getrennten Conda-Paketen mit bestimmten Versionen, die in der Conda-Umgebung base zu installieren sind. Weitere Informationen finden Sie unter Conda-verwandte Clusterattribute verwenden. (Standard empty).
Dataproc dataproc.allow.zero.workers true oder false Legen Sie für dieses SoftwareConfig-Attribut true in der Cloud Dataproc clusters.createAPI-Anfrage fest, um einen Cluster mit einem einzigen Knoten zu erstellen. Dadurch wird die Standardanzahl der Worker von 2 in 0 geändert und es werden Worker-Komponenten im Masterhost platziert. Ein Ein-Knoten-Cluster kann auch über die Google Cloud Console oder mit der Google Cloud CLI erstellt werden. Legen Sie dazu die Anzahl der Worker auf 0 fest.
dataproc dataproc.alpha.master.nvdimm.size.gb 1500-6500 Durch das Festlegen eines Werts wird mit Intel Optane DC Persistent Memory ein Dataproc-Master erstellt. Hinweis: Optane-VMs können nur in us-central1-f-Zonen, nur mit n1-highmem-96-aep-Maschinentyp und nur in Projekten auf der weißen Liste erstellt werden.
dataproc: dataproc.alpha.worker.nvdimm.size.gb 1500-6500 Durch das Festlegen eines Werts wird mit Intel Optane DC Persistent Memory ein Dataproc-Worker erstellt. Hinweis: Optane-VMs können nur in us-central1-f-Zonen, nur mit n1-highmem-96-aep-Maschinentyp und nur in Projekten auf der weißen Liste erstellt werden.
dataproc: Dataproc-Await-new-Workers-Service-Registrierung true oder false Dieses Attribut ist in Bildern ab 2.0.49 verfügbar. Der Standardwert ist false. Setzen Sie dieses Attribut auf true, um zu warten, bis neue primäre Worker Dienstleiter wie HDFS NameNode und HDFS ResourceManager registrieren, wenn der Cluster erstellt oder hochskaliert wird (nur HDFS- und HDFS-Dienste werden überwacht). Wenn ein neuer Worker auf true gesetzt ist und sich kein neuer Dienst für einen Dienst registrieren kann, erhält er den Status FAILED. Ein fehlgeschlagener Worker wird entfernt, wenn der Cluster hochskaliert wird. Wenn der Cluster erstellt wird, wird ein fehlgeschlagener Worker entfernt, wenn das Flag gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE oder das Feld actionOnFailedPrimaryWorkers=DELETE im Rahmen des Befehls gcloud oder des API-Clusters angegeben wurde.
dataproc: dataproc.beta.secure.multi-tenancy.user.mapping user-to-service account mappings Dieses Attribut verwendet eine Liste von Nutzer-zu-Dienst-Kontozuordnungen. Zugeordnete Nutzer können interaktive Arbeitslasten mit isolierten Nutzeridentitäten an den Cluster senden (siehe Dataproc-Dienstkonto-basierte Mehrmandantenfähigkeit).
Dataproc dataproc.cluster-ttl.consider-yarn-activity true oder false Bei Image-Versionen 1.4.64+, 1.5.39+ und 2.0.13+ führt der Standardwert true für dieses Attribut dazu, dass das planmäßige Löschen von Clustern bei der Bestimmung der Inaktivitätszeit des Clusters neben der Dataproc Jobs API-Aktivität auch die YARN-Aktivität berücksichtigt. Wenn false für Image-Versionen 1.4.64 und höher, 1.5.39 und höher und 2.0.13 oder höher festgelegt ist oder wenn Images mit niedrigeren Versionsnummern verwendet werden, wird nur die Dataproc Jobs API-Aktivität berücksichtigt. Der Standardwert ist true für die Image-Versionen 1.4.64 und höher, 1.5.39 und höher sowie 2.0.13 und höher.
Dataproc dataproc.conscrypt.provider.enable true oder false Aktiviert (true) oder deaktiviert (false) Conscrypt als primären Java-Sicherheitsanbieter. Hinweis: Conscrypt ist in Dataproc 1.2 und höher standardmäßig aktiviert, jedoch in 1.0/1.1 deaktiviert.
Dataproc dataproc.cooperative.multi-tenancy.user.mapping user-to-service account mappings Dieses Attribut verwendet eine Liste mit durch Kommas getrennten Nutzer-zu-Dienst-Kontozuordnungen. Wenn ein Cluster mit diesem Attribut erstellt wird und ein Nutzer einen Job sendet, versucht der Cluster, beim Zugriff auf Cloud Storage über den Cloud Storage-Connector die Identität des entsprechenden Dienstkontos zu übernehmen. Diese Funktion benötigt die Cloud Storage-Connector-Version 2.1.4 oder höher. Weitere Informationen finden Sie unter Dataproc: kooperative Mehrinstanzenfähigkeit. (Standard: empty).
dataproc Dataproc:Hudi.version Hudi-Version Legt die Hudi-Version fest, die mit der optionalen Dataproc Hudi-Komponente verwendet wird. Hinweis: Diese Version wird von Dataproc festgelegt, um mit der Cluster-Image-Version kompatibel zu sein. Wenn sie vom Nutzer festgelegt wird, kann die Clustererstellung fehlschlagen, wenn die angegebene Version nicht mit dem Cluster-Image kompatibel ist.
dataproc dataproc.localssd.mount.enable true oder false Gibt an, ob lokale SSDs als temporäre Hadoop/Spark-Verzeichnisse und HDFS-Datenverzeichnisse bereitgestellt werden sollen (Standardeinstellung: true).
Dataproc dataproc.logging.stackdriver.enable true oder false Aktiviert (true) oder deaktiviert (false) das Cloud Logging (Standardeinstellung: true). Informationen zu den entsprechenden Kosten finden Sie unter Cloud Logging – Preise.
Dataproc dataproc.logging.stackdriver.job.driver.enable true oder false Aktiviert (true) oder deaktiviert (false) Dataproc-Jobtreiberlogs in Cloud Logging. Siehe Ausgabe und Logs von Dataproc-Jobs (Standard: false).
dataproc dataproc.logging.stackdriver.job.yarn.container.enable true oder false Aktiviert (true) oder deaktiviert (false) YARN-Containerlogs in Cloud Logging. Weitere Informationen finden Sie unter Ausgabeoptionen des Spark-Jobs. (Standard: false).
Dataproc dataproc.master.custom.init.actions.mode RUN_BEFORE_SERVICES oder RUN_AFTER_SERVICES Bei Image-Clustern ab 2.0 werden Initialisierungsaktionen auf dem Master nach HDFS und allen von HDFS abhängigen Diensten initialisiert, wenn dieser Wert auf RUN_AFTER_SERVICES gesetzt ist. Beispiele für HDFS-abhängige Dienste sind: HBase, Hive Server2, Ranger, Solr und die Spark- und MapReduce-Verlaufsserver. (RUN_BEFORE_SERVICES, Standard)
Dataproc dataproc.monitoring.stackdriver.enable true oder false Aktiviert (true) oder deaktiviert (false) den Monitoring-Agent (Standard: false). Diese Property wurde eingestellt. Wie Sie die Erfassung von Dataproc OSS-Messwerten in Monitoring aktivieren, erfahren Sie unter Benutzerdefinierte Messwerterfassung aktivieren.
dataproc dataproc.scheduler.driver-size-mb number Der durchschnittliche Speicherbedarf des Treibers, der die maximale Anzahl gleichzeitiger Jobs bestimmt, die ein Cluster ausführen wird. Der Standardwert ist 1 GB. Für Spark-Jobs kann ein kleinerer Wert wie 256 geeignet sein.
dataproc Dataproc.scheduler.job-submission-rate number Jobs werden gedrosselt, wenn diese Rate überschritten wird. Der Standardpreis beträgt 1.0 Abfragen pro Sekunde.
dataproc dataproc.scheduler.max-concurrent-jobs number Die maximale Anzahl gleichzeitiger Jobs. Wenn dieser Wert beim Erstellen des Clusters nicht festgelegt wird, wird die Obergrenze für gleichzeitige Jobs als max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5) berechnet. masterMemoryMb wird vom Maschinentyp der Master-VM bestimmt. masterMemoryMbPerJob ist standardmäßig 1024, kann aber bei der Clustererstellung mit dem Clusterattribut dataproc:dataproc.scheduler.driver-size-mb konfiguriert werden.
dataproc Dataproc.scheduler.max-memory-used number Die maximale Menge des RAM, der verwendet werden kann. Wenn die aktuelle Nutzung diesen Grenzwert überschreitet, können keine neuen Jobs geplant werden. Der Standardwert ist 0.9 (90%). Wenn 1.0 festgelegt ist, wird die Drosselung des Master-Memory-Auslastungsjobs deaktiviert.
dataproc Dataproc.scheduler.min-free-memory.mb number Der kostenlose Arbeitsspeicher in Megabyte, der vom Dataproc-Jobtreiber benötigt wird, um einen anderen Job im Cluster zu planen. Der Standardwert ist 256 MB.
dataproc dataproc.snap.enabled true oder false Aktiviert oder deaktiviert den Ubuntu-Snap-Daemon. Der Standardwert ist true. Wenn false festgelegt ist, sind vorinstallierte Snap-Pakete im Image nicht betroffen, die automatische Aktualisierung ist jedoch deaktiviert. Gilt für Ubuntu-Images der Version 1.4.71, 1.5.46, 2.0.20 und höher.
Dataproc dataproc.worker.custom.init.actions.mode RUN_BEFORE_SERVICES Für Image-Cluster vor Version 2.0 ist RUN_BEFORE_SERVICES nicht festgelegt, kann jedoch vom Nutzer beim Erstellen des Clusters festgelegt werden. Für Image-Cluster ab 2.0 ist RUN_BEFORE_SERVICES festgelegt und das Attribut kann nicht an den Cluster übergeben werden (es kann vom Nutzer nicht geändert werden). Informationen zu den Auswirkungen dieser Einstellung finden Sie unter Wichtige Hinweise und Richtlinien – Initialisierungsverarbeitung.
dataproc „ Dataproc.yarn.orphaned-app-termination.enable“ true oder false Der Standardwert ist true. Legen Sie false fest, um zu verhindern, dass Dataproc „verwaiste“ HDFS-Anwendungen beendet. Dataproc stuft eine HDFS-App als verwaist ein, wenn der Jobtreiber, der die HDFS-App eingereicht hat, beendet wurde. Warnung: Wenn Sie den Spark-Clustermodus (spark.submit.deployMode=cluster) verwenden und spark.yarn.submit.waitAppCompletion=false festlegen, wird der Spark-Treiber beendet, ohne auf die Beendigung von HDFS-Apps zu warten. In diesem Fall legen Sie dataproc:dataproc.yarn.orphaned-app-termination.enable=false fest. Setzen Sie dieses Attribut auch auf false, wenn Sie Hive-Jobs senden.
dataproc efm.mapreduce.shuffle hcfs Wenn hcfs festgelegt ist, werden Spark-Shuffle-Daten in HDFS beibehalten. Weitere Informationen finden Sie unter Dataproc Enhanced Flexibility Mode. Hinweis: Dieses Feature ist für Cluster mit Dataproc-Versionen ab 1.5 verfügbar.
dataproc efm.spark.shuffle primary-worker (empfohlen) oder hcfs (verworfen) Bei Einstellung auf primary-worker schreiben Mapper Daten in primäre Worker (verfügbar für und werden für Spark-Jobs empfohlen). Wenn hcfs festgelegt ist, werden Spark-Shuffle-Daten in HDFS beibehalten. Weitere Informationen finden Sie unter Dataproc Enhanced Flexibility Mode. Hinweis: Dieses Feature ist für Dataproc-Cluster mit Version 1.5 und höher verfügbar.
dataproc job.history.to-gcs.enabled true oder false Ermöglicht das Beibehalten von MapReduce- und Spark-Verlaufsdateien im temporären Dataproc-Bucket (Standardeinstellung: true für Image-Versionen 1.5 und höher). Nutzer können die Speicherorte der Jobprotokoll-Persistenz über die folgenden Attribute überschreiben: mapreduce.jobhistory.done-dir, mapreduce.jobhistory.intermediate-done-dir, spark.eventLog.dir, und spark.history.fs.logDirectory Weitere Informationen zu diesen und anderen Clusterattributen, die dem Dataproc-Jobverlauf und den Ereignisdateien zugeordnet sind, finden Sie unter Dataproc Persistent History Server.
Dataproc jobs.file-backed-output.enable true oder false Konfiguriert Dataproc-Jobs, um ihre Ausgabe an temporäre Dateien im Verzeichnis /var/log/google-dataproc-job weiterzuleiten. Muss auf true gesetzt werden, damit das Jobtreiber-Logging in Cloud Logging aktiviert wird (Standardeinstellung: true).
Dataproc jupyter.listen.all.interfaces true oder false Um das Risiko der Remotecodeausführung über unsichere Notebookserver-APIs zu verringern, ist für Image-Versionen 1.3 oder höher false die Standardeinstellung. Dadurch werden Verbindungen zu localhost (127.0.0.1) eingeschränkt, wenn Component Gateway aktiviert ist (Component Gateway-Aktivierung ist für 2.0+-Images nicht erforderlich). Diese Standardeinstellung kann überschrieben werden, indem für dieses Attribut true festgelegt wird.
Dataproc jupyter.notebook.gcs.dir gs://<dir-path> Speicherort in Cloud Storage zum Speichern von Jupyter-Notebooks.
Dataproc kerberos.beta.automatic-config.enable true oder false Wenn true festgelegt ist, müssen Nutzer das Passwort des Kerberos-Root-Hauptkontos nicht mit den Flags --kerberos-root-principal-password und --kerberos-kms-key-uri (Standard: false) angeben. Weitere Informationen finden Sie unter Sicheren Hadoop-Modus über Kerberos aktivieren.
Dataproc kerberos.cross-realm-trust.admin-server hostname/address Hostname/Adresse des Remote-Admin-Servers (oft identisch mit dem KDC-Server).
Dataproc kerberos.cross-realm-trust.kdc hostname/address Hostname/Adresse des entfernten KDC.
Dataproc kerberos.cross-realm-trust.realm realm name Realm-Namen können aus beliebigen ASCII-Strings in GROSSBUCHSTABEN bestehen. Normalerweise ist der Realm-Name derselbe wie Ihr DNS-Domainname (in GROSSBUCHSTABEN). Beispiel: Wenn Maschinen den Namen "machine-id.example.west-coast.mycompany.com" erhalten, kann der zugeordnete Realm als "EXAMPLE.WEST-COAST.MYCOMPANY.COM" bezeichnet werden.
Dataproc kerberos.cross-realm-trust.shared-password.uri gs://<dir-path> Speicherort in Cloud Storage des mit KMS verschlüsselten freigegebenen Passworts.
Dataproc kerberos.kdc.db.key.uri gs://<dir-path> Speicherort in Cloud Storage der KMS-verschlüsselten Datei mit dem Masterschlüssel der KDC-Datenbank.
Dataproc kerberos.key.password.uri gs://<dir-path> Speicherort in Cloud Storage der KMS-verschlüsselten Datei, die das Passwort des Schlüssels in der Keystore-Datei enthält.
Dataproc kerberos.keystore.password.uri gs://<dir-path> Speicherort in Cloud Storage der KMS-verschlüsselten Datei, die das Keystore-Passwort enthält.
Dataproc kerberos.keystore.uri1 gs://<dir-path> Speicherort in Cloud Storage der Keystore-Datei, die das Platzhalterzertifikat und den von Clusterknoten verwendeten privaten Schlüssel enthält.
Dataproc kerberos.kms.key.uri KMS key URI Der URI des KMS-Schlüssels zum Entschlüsseln des Root-Passworts, z. B. projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (siehe Schlüsselressourcen-ID).
Dataproc kerberos.root.principal.password.uri gs://<dir-path> Speicherort in Cloud Storage des KMS-verschlüsselten Passworts für das Kerberos-Root-Principal.
Dataproc kerberos.tgt.lifetime.hours hours Maximale Lebensdauer des Ticket gewährenden Tickets.
Dataproc kerberos.truststore.password.uri gs://<dir-path> Speicherort in Cloud Storage der KMS-verschlüsselten Datei, die das Passwort für die Truststore-Datei enthält.
Dataproc kerberos.truststore.uri2 gs://<dir-path> Speicherort in Cloud Storage der KMS-verschlüsselten Datei, die vertrauenswürdige Zertifikate enthält.
Dataproc pip.packages pip-Pakete Dieses Attribut verwendet eine Liste mit durch Kommas getrennten Pip-Paketen mit bestimmten Versionen, die in der Conda-Umgebung base zu installieren sind. Weitere Informationen finden Sie unter Conda-verwandte Clusterattribute. (Standard empty).
Dataproc ranger.kms.key.uri KMS key URI Der URI des KMS-Schlüssels, der zum Entschlüsseln des Administratorpassworts für Ranger verwendet wird, z. B. projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key Schlüsselressourcen-ID.
Dataproc ranger.admin.password.uri gs://<dir-path> Speicherort in Cloud Storage des mit KMS verschlüsselten Passworts für den Ranger-Administrator.
Dataproc ranger.db.admin.password.uri gs://<dir-path> Speicherort des KMS-verschlüsselten Passworts für den Ranger-Datenbankadministrator in Cloud Storage.
Dataproc ranger.cloud-sql.instance.connection.name cloud sql instance connection name Der Verbindungsname der Cloud SQL-Instanz, z. B. project-id:region:name.
Dataproc ranger.cloud-sql.root.password.uri gs://<dir-path> Speicherort in Cloud Storage des KMS-verschlüsselten Passworts für den Root-Nutzer der Cloud SQL-Instanz.
Dataproc ranger.cloud-sql.use-private-ip true oder false Legt fest, ob die Kommunikation zwischen Clusterinstanzen und der Cloud SQL-Instanz über eine private IP-Adresse erfolgen soll (Standardwert ist false).
Dataproc solr.gcs.path gs://<dir-path> Cloud Storage-Pfad, der als Solr-Basisverzeichnis fungiert.
Dataproc startup.component.service-binding-timeout.hadoop-hdfs-namenode seconds Die Zeitspanne, die das Dataproc-Startskript wartet, bis das Hadoop-HDFS-namenode an Ports gebunden ist, bevor entschieden wird, dass der Start erfolgreich war. Der maximal erkannte Wert beträgt 1.800 Sekunden (30 Minuten).
Dataproc startup.component.service-binding-timeout.hive-metastore seconds Die Zeitspanne, die das Dataproc-Startskript auf die Bindung des Hive-Metastore-Dienstes an Ports wartet, bevor entschieden wird, dass der Start erfolgreich war. Der maximal erkannte Wert beträgt 1.800 Sekunden (30 Minuten).
Dataproc startup.component.service-binding-timeout.hive-server2 seconds Die Zeit, die das Dataproc-Startskript auf die Bindung des Hive-Servers2 an Ports wartet, bevor entschieden wird, dass der Start erfolgreich war. Der maximal erkannte Wert beträgt 1.800 Sekunden (30 Minuten).
Dataproc user-attribution.enabled true oder false Setzen Sie dieses Attribut auf true, um einen Dataproc-Job der Identität des Nutzers zuzuordnen, der ihn gesendet hat. Der Standardwert ist false.
dataproc yarn.log-aggregation.enabled true oder false Ermöglicht, dass (true) die YARN-Log-Aggregation in der temp bucket des Clusters aktiviert. Der Bucket-Name hat das folgende Format: dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>. (Standard: true für Image-Versionen 1.5 und höher). Hinweis: Der temporäre Bucket des Clusters wird nicht gelöscht, wenn der Cluster gelöscht wird. Nutzer können den Speicherort aggregierter YARN-Protokolle auch durch Überschreiben des YARN-Attributs yarn.nodemanager.remote-app-log-dir festlegen.
Knox gateway.host ip address Zur Reduzierung des Risikos der Remote-Code-Ausführung über ungesicherte Notebookserver-APIs ist die Standardeinstellung für Image-Versionen 1.3 und höher 127.0.0.1, die Verbindungen zu localhost einschränkt, wenn Component Gateway aktiviert ist. Die Standardeinstellung kann überschrieben werden, indem Sie beispielsweise dieses Attribut auf 0.0.0.0 setzen, um alle Verbindungen zuzulassen.
zeppelin zeppelin.notebook.gcs.dir gs://<dir-path> Speicherort in Cloud Storage zum Speichern von Zeppelin-Notebooks.
zeppelin zeppelin.server.addr ip address Um das Risiko der Remote-Codeausführung über unsichere Notebookserver-APIs zu verringern, ist für Image-Versionen 1.3 oder höher 127.0.0.1 die Standardeinstellung. Dadurch werden Verbindungen zu localhost eingeschränkt, wenn Component Gateway aktiviert ist. Diese Standardeinstellung kann überschrieben werden, indem Sie beispielsweise dieses Attribut auf 0.0.0.0 setzen, um alle Verbindungen zuzulassen.

1Keystore-Datei: Die Keystore-Datei enthält das SSL-Zertifikat. Es muss im JKS-Format (Java KeyStore) vorliegen. Beim Kopieren in VMs wird er in keystore.jks umbenannt. Das SSL-Zertifikat muss ein Platzhalterzertifikat sein, das für jeden Knoten im Cluster gilt.

2Truststore-Datei: Die Truststore-Datei muss im JKS-Format (Java KeyStore) vorliegen. Beim Kopieren in VMs wird er in truststore.jks umbenannt.