集群属性

Apache Hadoop YARN、HDFS、Spark 以及相关属性

安装在 Dataproc 集群上的开源组件包含许多配置文件。例如，Apache Spark 和 Apache Hadoop 具有一些 XML 和纯文本配置文件。您可以在创建集群时使用 gcloud dataproc clusters create 命令的 ‑‑properties 标志来修改许多常用配置文件。

格式设置

gcloud dataproc clusters create --properties 标志接受以下字符串格式：

file_prefix1:property1=value1,file_prefix2:property2=value2,...

file_prefix 映射到预定义的配置文件（如下表所示），property 映射到该文件中的属性。
用于分隔多个集群属性的默认分隔符是英文逗号 (,)。但是，如果属性值中包含英文逗号，则必须通过在属性列表开头指定“^delimiter^”来更改分隔符（如需了解详情，请参阅 gcloud 主题转义）。
- 使用“#”分隔符的示例：
```
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
```

示例

gcloud 命令

如需更改 spark-defaults.conf 文件中的 spark.master 设置，请添加以下 gcloud dataproc clusters create --properties 标志：

--properties 'spark:spark.master=spark://example.com'

利用逗号分隔符，您可以一次性更改一个或多个配置文件中的多个属性。每个属性都必须以完整的 file_prefix:property=value 格式指定。例如，如需更改 spark-defaults.conf 文件中的 spark.master 设置和 hdfs-site.xml 文件中的 dfs.hosts 设置，请在创建集群时使用以下 --properties 标志：

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

REST API

要将 spark.executor.memory 设置为 10g，请在 clusters.create 请求的 SoftwareConfig 部分插入以下 properties 设置：

"properties": {
  "spark:spark.executor.memory": "10g"
}

如需查看如何构建 Dataproc API 集群 REST 请求的 JSON 正文，一个简单的方法是使用 --log-http 标记启动等效的 gcloud 命令。以下是一个示例 gcloud dataproc clusters create 命令，该命令使用 --properties spark:spark.executor.memory=10g 标志设置集群属性。stdout 日志显示了生成的 REST 请求正文（properties 代码段如下所示）：

gcloud dataproc clusters create my-cluster \
    --region=region \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

输出：

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

...
== body end ==
...

如果您不希望命令生效，请在 JSON 正文出现在输出中后确保取消该命令。

控制台

要更改 spark-defaults.conf 文件中的 spark.master 设置，请按以下步骤操作：

在 Google Cloud 控制台中，打开 Dataproc 的创建集群页面。点击“自定义集群”面板，然后滚动到“集群属性”部分。
点击 + 添加属性。在“前缀”列表中选择 spark，然后在“键”字段添加“spark.master”并在“值”字段中添加设置。

集群与作业属性

当您创建集群时，系统会在集群级别应用 Apache Hadoop YARN、HDFS、Spark 和其他文件前缀属性。创建集群后，这些属性无法应用于集群。不过，其中许多属性也可应用于特定作业。将属性应用于作业时，不使用文件前缀。

以下示例将 Spark 作业的 Spark 执行器内存设置为 4g（省略了 spark: 前缀）。

gcloud dataproc jobs submit spark \
    --region=region \
    --properties=spark.executor.memory=4g \
    ... other args ...

您可以使用 gcloud dataproc jobs submit job-type --properties-file 标志在文件中提交作业属性（例如，如需查看 Hadoop 作业提交的 --properties-file 说明，请参阅此类）。

gcloud dataproc jobs submit JOB_TYPE \
    --region=region \
    --properties-file=PROPERTIES_FILE \
    ... other args ...

PROPERTIES_FILE 是一组以换行符分隔的 key=value 对。要设置的属性是 key，而要设置该属性的值为 value。有关属性文件格式的详细说明，请参阅 java.util.Properties 类。

以下是一个属性文件示例，您可以在提交 Dataproc 作业时将其传递给 --properties-file 标志。

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

文件前缀属性表

文件前缀	文件	文件用途
capacity-scheduler	capacity-scheduler.xml	Hadoop YARN 容量调度程序配置
core	core-site.xml	Hadoop 常规配置
distcp	distcp-default.xml	Hadoop 分布式复制配置
flink	flink-conf.yaml	Flink 配置
flink-log4j	log4j.properties	Log4j 设置文件
hadoop-env	hadoop-env.sh	Hadoop 特定环境变量
hadoop-log4j	log4j.properties	Log4j 设置文件
hbase	hbase-site.xml	HBase 配置
hbase-log4j	log4j.properties	Log4j 设置文件
hdfs	hdfs-site.xml	Hadoop HDFS 配置
hive	hive-site.xml	Hive 配置
hive-log4j2	hive-log4j2.properties	Log4j 设置文件
Hudi	hudi-default.conf	Hudi 配置
mapred	mapred-site.xml	Hadoop MapReduce 配置
mapred-env	mapred-env.sh	Hadoop MapReduce 特定环境变量
pig	pig.properties	Pig 配置
pig-log4j	log4j.properties	Log4j 设置文件
presto	config.properties	Presto 配置
presto-jvm	jvm.config	Presto 特定的 JVM 配置
spark	spark-defaults.conf	Spark 配置
spark-env	spark-env.sh	Spark 特定环境变量
spark-log4j	log4j.properties	Log4j 设置文件
tez	tez-site.xml	Tez 配置
webcat-log4j	webhcat-log4j2.properties	Log4j 设置文件
yarn	yarn-site.xml	Hadoop YARN 配置
yarn-env	yarn-env.sh	Hadoop YARN 特定环境变量
zeppelin	zeppelin-site.xml	Zeppelin 配置
zeppelin-env	zeppelin-env.sh	Zeppelin 特定环境变量（仅限可选组件）
zeppelin-log4j	log4j.properties	Log4j 设置文件
zookeeper	zoo.cfg	Zookeeper 配置
zookeeper-log4j	log4j.properties	Log4j 设置文件

备注

有些属性是预留属性，不能被替换，因为它们会影响 Dataproc 集群的功能。如果您尝试更改预留属性，则在创建集群时，您将收到错误消息。
您可以指定多项更改，只需用逗号分隔每项更改即可。
--properties 标记不能修改上面未显示的配置文件。
系统会先应用对属性做出的更改，然后再启动集群上的守护进程。
如果指定的属性存在，它将被更新。如果指定的属性不存在，它将被添加到配置文件中。

Dataproc 服务属性

本部分列出的属性特定于 Dataproc。这些属性可用于进一步配置 Dataproc 集群的功能。

格式设置

gcloud dataproc clusters create --properties 标志接受以下字符串格式：

property_prefix1:property1=value1,property_prefix2:property2=value2,...

用于分隔多个集群属性的默认分隔符是英文逗号 (,)。但是，如果属性值中包含英文逗号，则必须通过在属性列表开头指定“^delimiter^”来更改分隔符（如需了解详情，请参阅 gcloud 主题转义）。
- 使用“#”分隔符的示例：
```
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
```

示例：

创建集群并将增强的灵活性模式设置为 Spark 主工作器重排。

gcloud dataproc jobs submit spark \
    --region=region \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    ... other args ...

Dataproc 服务属性表

属性前缀	属性	值	说明
dataproc	agent.process.threads.job.min	`number`	Dataproc 在线程池中并发运行用户作业驱动程序。该属性控制线程池中最小线程数以实现快速启动，即使没有作业正在运行也是如此（默认值：10）。
dataproc	agent.process.threads.job.max	`number`	Dataproc 在线程池中并发运行用户作业驱动程序。该属性控制线程池中的线程数量上限，从而限制最大并发用户作业数。提高该值以提高并发性（默认值：100）。
dataproc	am.primary_only	`true` 或 `false`	将此属性设置为 `true` 可防止应用主实例在 Dataproc 集群抢占式工作器上运行。注意：此功能仅适用于 Dataproc 1.2 及更高版本。默认值为 `false`。
dataproc	conda.env.config.uri	`gs://<path>`	Conda 环境配置文件在 Cloud Storage 中的位置。系统将根据此文件创建并激活新的 Conda 环境。如需了解详情，请参阅使用与 Conda 相关的集群属性。（默认值：`empty`）。
dataproc	conda.packages	Conda 软件包	此属性以英文逗号分隔的列表形式显示，列表中包含要在 `base` Conda 环境中安装的特定版本的 Conda 软件包。如需了解详情，请参阅使用与 Conda 相关的集群属性。（默认值：`empty`）。
dataproc	dataproc.allow.zero.workers	`true` 或 `false`	在 Dataproc `clusters.create` API 请求中将 SoftwareConfig 属性设置为 `true`，以创建单节点集群，将默认的工作器数量从 2 更改为 0，并将工作器组件放置在主实例主机上。您也可以通过 Google Cloud 控制台或 Google Cloud CLI 创建单节点集群，只需将工作器数量设置为 `0` 即可。
dataproc	dataproc.alpha.master.nvdimm.size.gb	1500-6500	设置值会创建具有 Intel Optane DC 持久存储器的 Dataproc 主实例。注意：Optane 虚拟机只能在 `us-central1-f` 区域中创建，只有 `n1-highmem-96-aep` 机器类型，且只能在白名单项目中创建。
dataproc:	dataproc.alpha.worker.nvdimm.size.gb	1500-6500	设置值会创建具有 Intel Optane DC 持久存储器的 Dataproc 工作器。注意：Optane 虚拟机只能在 `us-central1-f` 区域中创建，只有 `n1-highmem-96-aep` 机器类型，且只能在白名单项目中创建。
dataproc:	dataproc.await-new-workers-service-registration	`true` 或 `false`	此属性适用于 2.0.49 版及更高版本的图片。默认值为 `false`。将此属性设置为 `true` 可在集群创建或集群纵向扩容期间等待新的主要工作器注册服务主要工作器，例如 HDFS NameNode 和 YARN ResourceManager（仅监控 HDFS 和 YARN 服务）。设置为 `true` 时，如果新 worker 无法注册到 Service，系统会为该 worker 分配 `FAILED` 状态。如果集群正在纵向扩容，则会移除失败的工作器。如果正在创建集群，并且已在 `gcloud` 命令或 API 集群创建请求中指定了 `gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE` 标志或 API `actionOnFailedPrimaryWorkers=DELETE` 字段，则系统会移除失败的工作器。
dataproc:	dataproc.beta.secure.multi-tenancy.user.mapping	`user-to-service account mappings`	此属性接受用户到服务账号的映射列表。映射的用户可以以隔离的用户身份将交互式工作负载提交到集群（请参阅基于 Dataproc 服务账号的安全多租户）。
dataproc:	dataproc.cluster.caching	`true` 或 `false`	启用集群缓存后，集群会缓存 Spark 作业访问的 Cloud Storage 数据，以便在不影响一致性的情况下提高作业性能。（默认值：`false`）。
dataproc	dataproc.cluster-ttl.consider-yarn-activity	`true` 或 `false`	对于映像版本 1.4.64+、1.5.39+ 和 2.0.13+，此属性的默认值 `true` 会导致在集群预定删除功能确定集群空闲时间时，除了考虑 Dataproc Jobs API 活动之外，还会考虑 YARN 活动。如果为映像版本 1.4.64+、1.5.39+ 和 2.0.13+ 设置为 `false`，或使用版本号较低的映像，则仅考虑 Dataproc Jobs API 活动。对于映像版本 1.4.64+、1.5.39+、2.0.13+，默认值为 `true`。
dataproc	dataproc.conscrypt.provider.enable	`true` 或 `false`	启用（`true`）或停用（`false`）Conscrypt作为主要 Java 安全提供程序。注意：默认情况下，Dataproc 1.2 和更高版本中启用了 Conscrypt，但在 1.0/1.1 版本中停用了此组件。
dataproc	dataproc.cooperative.multi-tenancy.user.mapping	`user-to-service account mappings`	此属性采用以逗号分隔的用户到服务账号映射列表。如果使用此属性集创建集群，当用户提交作业时，集群将在通过 Cloud Storage 连接器访问 Cloud Storage 时尝试模拟相应的服务账号。此功能需要 Cloud Storage 连接器版本 `2.1.4` 或更高版本。如需了解详情，请参阅 Dataproc 合作多租户。（默认：`empty`）。
dataproc	dataproc:hudi.version	Hudi 版本	设置与可选的 Dataproc Hudi 组件搭配使用的 Hudi 版本。注意：此版本由 Dataproc 设置为与集群映像版本兼容。如果是用户设置的，当指定的版本与集群映像不兼容时，集群创建可能会失败。
dataproc	dataproc.lineage.enabled	`true`	在 Dataproc 集群中为 Spark 作业启用数据沿袭。
dataproc	dataproc.localssd.mount.enable	`true` 或 `false`	是否将本地 SSD 挂载为 Hadoop/Spark 临时目录和 HDFS 数据目录（默认值：`true`）。
dataproc	dataproc.logging.stackdriver.enable	`true` 或 `false`	启用（`true`）或停用（`false`）Cloud Logging（默认值：`true`）。如需了解相关费用，请参阅 Cloud Logging 价格。
dataproc	dataproc.logging.stackdriver.job.driver.enable	`true` 或 `false`	在 Cloud Logging 中启用 (`true`) 或停用 (`false`) Dataproc 作业驱动程序日志。请参阅 Dataproc 作业输出和日志（默认值：`false`）。
dataproc	dataproc.logging.stackdriver.job.yarn.container.enable	`true` 或 `false`	在 Cloud Logging 中启用（`true`）或停用（`false`）YARN 容器日志。请参阅 Spark 作业输出选项。（默认：`false`）。
dataproc	dataproc.master.custom.init.actions.mode	`RUN_BEFORE_SERVICES` 或 `RUN_AFTER_SERVICES`	对于 2.0 及更高版本的映像集群，如果设置为 `RUN_AFTER_SERVICES`，则主实例上的初始化操作将在初始化 HDFS 以及依赖于 HDFS 的所有服务之后再运行。依赖于 HDFS 的服务示例包括：HBase、Hive Server2、Ranger、Solr 以及 Spark 和 MapReduce 历史记录服务器。（默认值：`RUN_BEFORE_SERVICES`）。
dataproc	dataproc.monitoring.stackdriver.enable	`true` 或 `false`	启用 (`true`) 或停用 (`false`) Monitoring 代理（默认值：`false`）。此属性已弃用。请参阅启用自定义指标收集，以在 Monitoring 中启用 Dataproc OSS 指标收集功能。
dataproc	dataproc.scheduler.driver-size-mb	`number`	平均驱动程序内存占用量，用于确定集群将运行的并发作业数上限。默认值为 `1`GB。较小的值（如 `256`）可能适用于 Spark 作业。
dataproc	dataproc.scheduler.job-submission-rate	`number`	如果超过此速率，则作业会受到限制。默认速率为 `1.0` QPS。
dataproc	dataproc.scheduler.max-concurrent-jobs	`number`	并发作业数上限。如果在创建集群时未设置此值，则并发作业数上限计为 `max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5)`。`masterMemoryMb` 由主虚拟机的机器类型确定。`masterMemoryMbPerJob` 默认为 `1024`，不过您可以在创建集群时使用 `dataproc:dataproc.scheduler.driver-size-mb` 集群属性对其进行配置。
dataproc	dataproc.scheduler.max-memory-used	`number`	可以使用的最大 RAM 容量。如果当前用量高于此阈值，则无法安排新作业。默认值为 `0.9` (90%)。如果设置为 `1.0`，系统会停用主内存利用率作业限制。
dataproc	dataproc.scheduler.min-free-memory.mb	`number`	Dataproc 作业驱动程序在集群上安排其他作业所需的最小可用内存量（以兆字节为单位）。默认值为 `256` MB。
dataproc	dataproc.snap.enabled	`true` 或 `false`	启用或停用 Ubuntu Snap 守护程序。默认值为 `true`。如果设置为 `false`，则映像中预安装的 Snap 软件包不会受到影响，但自动刷新会被停用。适用于 1.4.71、1.5.46、2.0.20 及更高版本的 Ubuntu 映像。
dataproc	dataproc.worker.custom.init.actions.mode	`RUN_BEFORE_SERVICES`	对于 2.0 版之前的映像集群，未设置 RUN_BEFORE_SERVICES，但用户可以在创建集群时设置。对于 2.0+ 映像集群，设置为 RUN_BEFORE_SERVICES，并且该属性无法传递给集群（用户不能更改此属性）。如需了解此设置的影响，请参阅重要注意事项和指南 - 初始化处理。
dataproc	dataproc.yarn.orphaned-app-terality.enable	`true` 或 `false`	默认值为 `true`。设置为 `false` 可防止 Dataproc 终止“孤立的”YARN 应用。如果提交 YARN 应用的作业驱动程序已经退出，Dataproc 会将该 YARN 应用视为孤立应用。警告：如果您使用 Spark 集群模式 (`spark.submit.deployMode=cluster`) 并设置 `spark.yarn.submit.waitAppCompletion=false`，Spark 驱动程序会退出，而不会等待 YARN 应用完成；在本例中，请设置 `dataproc:dataproc.yarn.orphaned-app-termination.enable=false`。如果您提交 Hive 作业，还要将此属性设置为 `false`。
dataproc	efm.spark.shuffle	`primary-worker`	如果设置为 `primary-worker`，Spark Shuffle 数据将写入主要工作器”。如需了解详情，请参阅 Dataproc 增强的灵活模式。
dataproc	job.history.to-gcs.enabled	`true` 或 `false`	允许将 MapReduce 和 Spark 历史记录文件持久存储到 Dataproc 临时存储区中（对于图片版本 1.5+，默认值为 `true`）。用户可以通过以下属性覆盖作业历史记录文件持久性的位置：`mapreduce.jobhistory.done-dir`、`mapreduce.jobhistory.intermediate-done-dir`、`spark.eventLog.dir` 和 `spark.history.fs.logDirectory`如需了解与 Dataproc 作业历史记录和事件文件关联的这些属性和其他集群属性，请参阅 Dataproc Persistent History Server。
dataproc	jobs.file-backed-output.enable	`true` 或 `false`	配置 Dataproc 作业，使其输出传送到 `/var/log/google-dataproc-job` 目录中的临时文件。必须设置为 `true` 才能在 Cloud Logging 中启用作业驱动程序日志记录（默认值：`true`）。
dataproc	jupyter.listen.all.interfaces	`true` 或 `false`	为了降低通过不安全的笔记本服务器 API 执行远程代码的风险，映像版本 1.3+ 的默认设置为 `false`；当启用组件网关时，该设置将连接限制为 `localhost` (`127.0.0.1`)（对于 2.0+ 映像，不需要激活组件网关）。通过将此属性设置为 `true` 以允许所有连接，可以替换此默认设置。
dataproc	jupyter.notebook.gcs.dir	`gs://<dir-path>`	Cloud Storage 中用于保存 Jupyter 笔记本的位置。
dataproc	kerberos.beta.automatic-config.enable	`true` 或 `false`	设置为 `true` 时，用户无需使用 `--kerberos-root-principal-password` 和 `--kerberos-kms-key-uri` 标志（默认值：`false`）指定 Kerberos Root 主账号密码。如需了解详情，请参阅通过 Kerberos 启用 Hadoop 安全模式。
dataproc	kerberos.cross-realm-trust.admin-server	`hostname/address`	远程管理服务器（通常与 KDC 服务器相同）的主机名/地址。
dataproc	kerberos.cross-realm-trust.kdc	`hostname/address`	远程 KDC 的主机名/地址。
dataproc	kerberos.cross-realm-trust.realm	`realm name`	域名由大写的 ASCII 字符串构成。此域名通常与 DNS 域名（大写）相同。示例：如果机器命名为“`machine-id`.example.west-coast.mycompany.com”，则关联的域可指定为“EXAMPLE.WEST-COAST.MYCOMPANY.COM”。
dataproc	kerberos.cross-realm-trust.shared-password.uri	`gs://<dir-path>`	KMS 加密共享密码在 Cloud Storage 中的位置。
dataproc	kerberos.kdc.db.key.uri	`gs://<dir-path>`	包含 KDC 数据库主密钥的 KMS 加密文件在 Cloud Storage 中的位置。
dataproc	kerberos.key.password.uri	`gs://<dir-path>`	包含密钥（密钥库文件中）密码的 KMS 加密文件在 Cloud Storage 中的位置。
dataproc	kerberos.keystore.password.uri	`gs://<dir-path>`	包含密钥库密码的 KMS 加密文件在 Cloud Storage 中的位置。
dataproc	kerberos.keystore.uri¹	`gs://<dir-path>`	包含集群节点所使用的通配符证书和私钥的密钥库文件在 Cloud Storage 中的位置。
dataproc	kerberos.kms.key.uri	`KMS key URI`	用于解密根密码的 KMS 密钥的 URI，例如 `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key`（请参阅密钥资源 ID）。
dataproc	kerberos.root.principal.password.uri	`gs://<dir-path>`	Kerberos root 主体的 KMS 加密密码在 Cloud Storage 中的位置。
dataproc	kerberos.tgt.lifetime.hours	`hours`	票据授权票据的最长周期时间。
dataproc	kerberos.truststore.password.uri	`gs://<dir-path>`	包含信任库文件密码的 KMS 加密文件在 Cloud Storage 中的位置。
dataproc	kerberos.truststore.uri²	`gs://<dir-path>`	包含受信证书的 KMS 加密信任库文件在 Cloud Storage 中的位置。
dataproc	pip.packages	Pip 软件包	此属性以英文逗号分隔的列表形式显示，列表中包含要在 `base` Conda 环境中安装的特定版本的 Pip 软件包。如需了解详情，请参阅与 Conda 相关的集群属性。（默认值：`empty`）。
dataproc	ranger.kms.key.uri	`KMS key URI`	用于解密 Ranger 管理员用户密码的 KMS 密钥的 URI，例如 `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key`（请参阅密钥资源 ID）。
dataproc	ranger.admin.password.uri	`gs://<dir-path>`	Ranger 管理员用户的 KMS 加密密码在 Cloud Storage 中的位置。
dataproc	ranger.db.admin.password.uri	`gs://<dir-path>`	Ranger 数据库管理员用户的 KMS 加密密码在 Cloud Storage 中的位置。
dataproc	ranger.cloud-sql.instance.connection.name	`cloud sql instance connection name`	Cloud SQL 实例的连接名称，例如 `project-id:region:name.`
dataproc	ranger.cloud-sql.root.password.uri	`gs://<dir-path>`	Cloud SQL 实例的根用户的 KMS 加密密码在 Cloud Storage 中的位置。
dataproc	ranger.cloud-sql.use-private-ip	`true` 或 `false`	集群实例和 Cloud SQL 实例之间的通信是否应通过专用 IP进行（默认值为 `false`）。
dataproc	solr.gcs.path	`gs://<dir-path>`	用作 Solr 主目录的 Cloud Storage 路径。
dataproc	startup.component.service-binding-timeout.hadoop-hdfs-namenode	`seconds`	在确定成功启动之前，Dataproc 启动脚本将等待 hadoop-hdfs-namenode 绑定到端口的时间。最大可识别值为 1800 秒 (30 分钟)。
dataproc	startup.component.service-binding-timeout.hive-metastore	`seconds`	在确定其启动成功之前，Dataproc 启动脚本等待 Hive-Metastore 服务绑定到端口的时间。最大可识别值为 1800 秒 (30 分钟)。
dataproc	startup.component.service-binding-timeout.hive-server2	`seconds`	在确定其启动成功之前，Dataproc 启动脚本等待 hive-server2 绑定到端口的时间。最大可识别值为 1800 秒 (30 分钟)。
dataproc	user-attribution.enabled	`true` 或 `false`	将此属性设置为 `true` 可将 Dataproc 作业与提交该作业的用户的身份对应起来（默认值为 `false`）。
dataproc	yarn.docker.enable	`true` 或 `false`	设置为 `true` 以启用 YARN 上的 Dataproc Docker 功能（默认值为 `false`）。
dataproc	yarn.docker.image	`docker image`	启用 Dataproc Docker on YARN 功能 (`dataproc:yarn.docker.enable=true`) 时，您可以使用此可选属性来指定 Docker 映像（例如 `dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1`）。如果指定，则系统会在创建集群期间下载该映像并将其缓存在集群的所有节点上。
dataproc	yarn.log-aggregation.enabled	`true` 或 `false`	允许（`true`）在集群的 `temp bucket` 上启用 YARN 日志集合。存储桶名称的格式如下：`dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>`。（对于图片版本 1.5+，默认值为 `true`）。注意：集群被删除时，该集群的临时存储桶不会被删除。用户还可以通过覆盖 `yarn.nodemanager.remote-app-log-dir` YARN 属性来设置汇总的 YARN 日志位置。
Knox	gateway.host	`ip address`	为了降低通过不安全的笔记本服务器 API 执行远程代码的风险，映像版本 1.3+ 的默认设置为 `127.0.0.1`，当启用组件网关时，该设置将连接限制为 `localhost`。默认设置可以替换，例如，将此属性设置为 `0.0.0.0` 以允许所有连接。
zeppelin	zeppelin.notebook.gcs.dir	`gs://<dir-path>`	Cloud Storage 中用于保存 Zeppelin 笔记本的位置。
zeppelin	zeppelin.server.addr	`ip address`	为了降低通过不安全的笔记本服务器 API 执行远程代码的风险，映像版本 1.3+ 的默认设置为 `127.0.0.1`，当启用组件网关时，该设置将连接限制为 `localhost`。此默认设置可以替换，例如，将此属性设置为 `0.0.0.0` 以允许所有连接。

¹ 密钥库文件：密钥库文件包含 SSL 证书。文件应为 Java KeyStore (JKS) 格式。在复制到虚拟机时，其将重命名为 keystore.jks。 SSL 证书应为适用于集群中每个节点的通配符证书。

²信任库文件：信任库文件应为 Java KeyStore (JKS) 格式。在复制到虚拟机时，其将重命名为 truststore.jks。