集群属性

Apache Hadoop YARN、HDFS、Spark 以及相关属性

安装在 Dataproc 集群上的开源组件包含许多配置文件。例如，Apache Spark 和 Apache Hadoop 具有一些 XML 和纯文本配置文件。您可以在创建集群时使用 gcloud dataproc clusters create 命令的 ‑‑properties 标志来修改许多常用配置文件。

格式设置

gcloud dataproc clusters create --properties 标志接受以下字符串格式：

file_prefix1:property1=value1,file_prefix2:property2=value2,...

file_prefix 映射到预定义的配置文件（如下表所示），property 映射到该文件中的属性。
用于分隔多个集群属性的默认分隔符是英文逗号 (,)。但是，如果属性值中包含英文逗号，则必须通过在属性列表的开头指定“^delimiter^”来更改分隔符（如需了解详情，请参阅 gcloud topic escaping）。
- 使用“#”分隔符的示例：
```
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
```

示例

gcloud 命令

如需更改 spark-defaults.conf 文件中的 spark.master 设置，请添加以下 gcloud dataproc clusters create --properties 标志：

--properties 'spark:spark.master=spark://example.com'

利用逗号分隔符，您可以一次性更改一个或多个配置文件中的多个属性。每个属性都必须以完整的 file_prefix:property=value 格式指定。例如，如需更改 spark-defaults.conf 文件中的 spark.master 设置和 hdfs-site.xml 文件中的 dfs.hosts 设置，请在创建集群时使用以下 --properties 标志：

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

REST API

要将 spark.executor.memory 设置为 10g，请在 clusters.create 请求的 SoftwareConfig 部分插入以下 properties 设置：

"properties": {
  "spark:spark.executor.memory": "10g"
}

如需查看如何构建 Dataproc API 集群 REST 请求的 JSON 正文，一个简单的方法是使用 --log-http 标记启动等效的 gcloud 命令。以下是一个示例 gcloud dataproc clusters create 命令，该命令使用 --properties spark:spark.executor.memory=10g 标志设置集群属性。stdout 日志显示了生成的 REST 请求正文（properties 代码段如下所示）：

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

输出：

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

...
== body end ==
...

如果您不希望命令生效，请在 JSON 正文出现在输出中后确保取消该命令。

控制台

要更改 spark-defaults.conf 文件中的 spark.master 设置，请按以下步骤操作：

在 Google Cloud 控制台中，打开 Dataproc 创建集群页面。点击“自定义集群”面板，然后滚动到“集群属性”部分。
点击 + 添加属性。在“前缀”列表中选择 spark，然后在“键”字段添加“spark.master”并在“值”字段中添加设置。

集群与作业属性

在您创建集群时，系统会在集群级层应用 Apache Hadoop YARN、HDFS、Spark 和其他文件前缀属性。创建集群后，这些属性无法应用于集群。但是，其中许多属性也可应用于特定作业。将属性应用于作业时，系统不会使用文件前缀。

以下示例将 Spark 作业的 Spark 执行器内存设置为 4g（省略 spark: 前缀）。

gcloud dataproc jobs submit spark \
    --region=REGION \
    --properties=spark.executor.memory=4g \
    other args ...

您可以使用 gcloud dataproc jobs submit job-type --properties-file 标志在文件中提交作业属性（例如，请参阅 Hadoop 作业提交的 --properties-file 说明）。

gcloud dataproc jobs submit JOB_TYPE \
    --region=REGION \
    --properties-file=PROPERTIES_FILE \
    other args ...

PROPERTIES_FILE 是一组以换行符分隔的 key=value 对。要设置的属性是 key，要将该属性设置为的值是 value。如需详细了解属性文件格式，请参阅 java.util.Properties 类。

以下是一个提交 Dataproc 作业时可传递给 --properties-file 标志的属性文件示例。

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

文件前缀属性表

文件前缀	文件	文件用途
capacity-scheduler	capacity-scheduler.xml	Hadoop YARN 容量调度程序配置
core	core-site.xml	Hadoop 常规配置
distcp	distcp-default.xml	Hadoop 分布式复制配置
Flink	flink-conf.yaml	Flink 配置
flink-log4j	log4j.properties	Log4j 设置文件
hadoop-env	hadoop-env.sh	Hadoop 特定环境变量
hadoop-log4j	log4j.properties	Log4j 设置文件
hbase	hbase-site.xml	HBase 配置
hbase-log4j	log4j.properties	Log4j 设置文件
hdfs	hdfs-site.xml	Hadoop HDFS 配置
hive	hive-site.xml	Hive 配置
hive-log4j2	hive-log4j2.properties	Log4j 设置文件
hudi	hudi-default.conf	Hudi 配置
mapred	mapred-site.xml	Hadoop MapReduce 配置
mapred-env	mapred-env.sh	Hadoop MapReduce 特定环境变量
猪	pig.properties	Pig 配置
pig-log4j	log4j.properties	Log4j 设置文件
presto	config.properties	Presto 配置
presto-jvm	jvm.config	Presto 特定的 JVM 配置
spark	spark-defaults.conf	Spark 配置
spark-env	spark-env.sh	Spark 特定环境变量
spark-log4j	log4j.properties	Log4j 设置文件
tez	tez-site.xml	Tez 配置
webcat-log4j	webhcat-log4j2.properties	Log4j 设置文件
yarn	yarn-site.xml	Hadoop YARN 配置
yarn-env	yarn-env.sh	Hadoop YARN 特定环境变量
zeppelin	zeppelin-site.xml	Zeppelin 配置
zeppelin-env	zeppelin-env.sh	Zeppelin 特定环境变量（仅限可选组件）
zeppelin-log4j	log4j.properties	Log4j 设置文件
zookeeper	zoo.cfg	Zookeeper 配置
zookeeper-log4j	log4j.properties	Log4j 设置文件

备注

有些属性是预留属性，不能被替换，因为它们会影响 Dataproc 集群的功能。如果您尝试更改预留属性，则在创建集群时，您将收到错误消息。
您可以指定多项更改，只需用逗号分隔每项更改即可。
--properties 标记不能修改上面未显示的配置文件。
系统会先应用对属性做出的更改，然后再启动集群上的守护进程。
如果指定的属性存在，它将被更新。如果指定的属性不存在，它将被添加到配置文件中。

Dataproc 服务属性

本部分中列出的属性是 Dataproc 特有的。这些属性可用于进一步配置 Dataproc 集群的功能。

格式设置

gcloud dataproc clusters create --properties 标志接受以下字符串格式：

property_prefix1:property1=value1,property_prefix2:property2=value2,...

用于分隔多个集群属性的默认分隔符是英文逗号 (,)。但是，如果属性值中包含英文逗号，则必须通过在属性列表的开头指定“^delimiter^”来更改分隔符（如需了解详情，请参阅 gcloud topic escaping）。
- 使用“#”分隔符的示例：
```
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
```

示例：

创建集群并将增强的灵活性模式设置为 Spark 主工作器重排。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    other args ...

Dataproc 服务属性表

属性前缀	属性	值	说明
dataproc	agent.process.threads.job.min	`number`	Dataproc 在线程池中并发运行用户作业驱动程序。该属性控制线程池中最小线程数以实现快速启动，即使没有作业正在运行也是如此（默认值：10）。
dataproc	agent.process.threads.job.max	`number`	Dataproc 在线程池中并发运行用户作业驱动程序。该属性控制线程池中的线程数量上限，从而限制最大并发用户作业数。提高该值以提高并发性（默认值：100）。
dataproc	am.primary_only	`true` 或 `false`	将此属性设置为 `true` 可防止应用主实例在 Dataproc 集群抢占式工作器上运行。注意：此功能仅适用于 Dataproc 1.2 及更高版本。默认值为 `false`。
dataproc	conda.env.config.uri	`gs://<path>`	Conda 环境配置文件在 Cloud Storage 中的位置。系统将根据此文件创建并激活新的 Conda 环境。如需了解详情，请参阅使用与 Conda 相关的集群属性。（默认值：`empty`）。
dataproc	conda.packages	Conda 软件包	此属性以逗号分隔的列表形式显示，列表中包含要在 `base` Conda 环境中安装的特定版本的 Conda 软件包。如需了解详情，请参阅使用与 Conda 相关的集群属性。（默认值：`empty`）。
dataproc	dataproc.allow.zero.workers	`true` 或 `false`	在 Dataproc `clusters.create` API 请求中将 SoftwareConfig 属性设置为 `true`，以创建单节点集群，将默认的工作器数量从 2 更改为 0，并将工作器组件放置在主实例主机上。您还可以通过 Google Cloud 控制台或 Google Cloud CLI 并将工作器的数量设置为 `0` 来创建单节点集群。
dataproc	dataproc.alpha.master.nvdimm.size.gb	1500-6500	设置值会创建具有 Intel Optane DC 持久存储器的 Dataproc 主实例。注意：Optane 虚拟机只能在 `us-central1-f` 区域中创建，只有 `n1-highmem-96-aep` 机器类型，且只能在白名单项目中创建。
dataproc：	dataproc.alpha.worker.nvdimm.size.gb	1500-6500	设置值会创建具有 Intel Optane DC 持久存储器的 Dataproc 工作器。注意：Optane 虚拟机只能在 `us-central1-f` 区域中创建，只有 `n1-highmem-96-aep` 机器类型，且只能在白名单项目中创建。
dataproc：	dataproc.await-new-workers-service-registration	`true` 或 `false`	此属性适用于 2.0.49 及更高版本映像。默认值为 `false`。将此属性设置为 `true` 可在集群创建或集群扩容期间等待新的主要工作器注册服务主节点，例如 HDFS NameNode 和 YARN ResourceManager（系统仅会监控 HDFS 和 YARN 服务）。设置为 `true` 时，如果新的工作器未能向服务注册，则系统会为该工作器分配 `FAILED` 状态。如果集群正在扩容，则失败的工作器会被移除。如果正在创建集群，并且已在 `gcloud` 命令或 API 集群创建请求中指定 `gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE` 标志或 API `actionOnFailedPrimaryWorkers=DELETE` 字段，则失败的工作器会被移除。
dataproc：	dataproc.beta.secure.multi-tenancy.user.mapping	`user-to-service account mappings`	此属性接受用户到服务账号的映射列表。映射的用户可以以隔离的用户身份将交互式工作负载提交到集群（请参阅基于 Dataproc 服务账号的安全多租户）。
dataproc：	dataproc.cluster.caching.enabled	`true` 或 `false`	启用集群缓存后，集群会缓存 Spark 作业访问的 Cloud Storage 数据，从而在不影响一致性的情况下提高作业性能。（默认值：`false`）。
dataproc	dataproc.cluster-ttl.consider-yarn-activity	`true` 或 `false`	如果设置为 `true`，集群预定删除功能在计算集群空闲时间时会同时考虑 YARN 和 Dataproc Jobs API 活动。如果设置为 `false`，仅会考虑 Dataproc Jobs API 活动。（默认值：`true`）。如需了解详情，请参阅集群空闲时间计算。
dataproc	dataproc.conscrypt.provider.enable	`true` 或 `false`	启用（`true`）或停用（`false`）Conscrypt作为主要 Java 安全提供程序。注意：默认情况下，Dataproc 1.2 和更高版本中启用了 Conscrypt，但在 1.0/1.1 版本中停用了此组件。
dataproc	dataproc.cooperative.multi-tenancy.user.mapping	`user-to-service account mappings`	此属性采用以逗号分隔的用户到服务账号映射列表。如果使用此属性集创建集群，当用户提交作业时，集群将在通过 Cloud Storage 连接器访问 Cloud Storage 时尝试模拟相应的服务账号。此功能需要 Cloud Storage 连接器版本 `2.1.4` 或更高版本。如需了解详情，请参阅 Dataproc 合作多租户。（默认：`empty`）。
dataproc	dataproc.control.max.assigned.job.tasks	`100`	此属性会限制在集群主节点上可以同时运行的任务数量。如果活跃任务数量超过任务上限，新作业会排队，直到正在运行的作业完成并释放资源，以便安排新任务。注意：不建议将默认任务上限设置为超过 `100`（默认值），因为这可能会导致主节点出现内存不足的情况。
dataproc	dataproc:hudi.version	Hudi 版本	设置与可选 Dataproc Hudi 组件搭配使用的 Hudi 版本。注意：此版本由 Dataproc 设置，以与集群映像版本兼容。如果由用户设置，则指定的版本与集群映像不兼容时，集群创建可能会失败。
dataproc	dataproc.lineage.enabled	`true`	在 Dataproc 集群中为 Spark 作业启用数据沿袭。
dataproc	dataproc.localssd.mount.enable	`true` 或 `false`	是否将本地 SSD 挂载为 Hadoop/Spark 临时目录和 HDFS 数据目录（默认值：`true`）。
dataproc	dataproc.logging.extended.enabled	`true` 或 `false`	在 Cloud Logging 中启用 (`true`) 或停用 (`false`) 以下各项的日志：`knox`、`zeppelin`、`ranger-usersync`、`jupyter_notebook`、`jupyter_kernel_gateway` 和 `spark-history-server`（默认值：`false`）。如需了解详情，请参阅 Logging 中的 Dataproc 集群日志。
dataproc	dataproc.logging.stackdriver.enable	`true` 或 `false`	启用（`true`）或停用（`false`）Cloud Logging（默认值：`true`）。如需了解相关费用，请参阅 Cloud Logging 价格。
dataproc	dataproc.logging.stackdriver.job.driver.enable	`true` 或 `false`	在 Cloud Logging 中启用 (`true`) 或停用 (`false`) Dataproc 作业驱动程序日志。请参阅 Dataproc 作业输出和日志（默认值：`false`）。
dataproc	dataproc.logging.stackdriver.job.yarn.container.enable	`true` 或 `false`	在 Cloud Logging 中启用（`true`）或停用（`false`）YARN 容器日志。请参阅 Spark 作业输出选项。（默认值：`false`）。
dataproc	dataproc.logging.syslog.enabled	`true` 或 `false`	在 Cloud Logging 中启用 (`true`) 或停用 (`false`) 虚拟机 syslog（默认值：`false`）。
dataproc	dataproc.master.custom.init.actions.mode	`RUN_BEFORE_SERVICES` 或 `RUN_AFTER_SERVICES`	对于 2.0 及更高版本的映像集群，如果设置为 `RUN_AFTER_SERVICES`，则主实例上的初始化操作将在初始化 HDFS 以及依赖于 HDFS 的所有服务之后再运行。依赖于 HDFS 的服务示例包括：HBase、Hive Server2、Ranger、Solr 以及 Spark 和 MapReduce 历史记录服务器。（默认值：`RUN_BEFORE_SERVICES`）。
dataproc	dataproc.monitoring.stackdriver.enable	`true` 或 `false`	启用 (`true`) 或停用 (`false`) Monitoring 代理（默认值：`false`）。此属性已弃用。如需在 Monitoring 中启用 Dataproc OSS 指标收集功能，请参阅启用自定义指标收集功能。
dataproc	dataproc.scheduler.driver-size-mb	`number`	平均驱动程序内存占用量，用于确定集群将运行的并发作业数上限。默认值为 `1`GB。较小的值（如 `256`）可能适用于 Spark 作业。
dataproc	dataproc.scheduler.job-submission-rate	`number`	如果超出此速率，作业会被节流。默认速率为 `1.0` QPS。
dataproc	dataproc.scheduler.max-concurrent-jobs	`number`	并发作业数上限。如果在创建集群时未设置此值，则并发作业数上限计为 `max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5)`。`masterMemoryMb` 由主虚拟机的机器类型确定。`masterMemoryMbPerJob` 默认为 `1024`，不过您可以在创建集群时使用 `dataproc:dataproc.scheduler.driver-size-mb` 集群属性对其进行配置。
dataproc	dataproc.scheduler.max-memory-used	`number`	可使用的 RAM 容量上限。如果当前用量超过此阈值，则无法安排新作业。默认值为 `0.9` (90%)。如果设置为 `1.0`，则系统会停用主内存利用率作业节流。
dataproc	dataproc.scheduler.min-free-memory.mb	`number`	Dataproc 作业驱动程序在集群上安排另一个作业所需的最小可用内存量（以 MB 为单位）。默认值为 `256` MB。
dataproc	dataproc.snap.enabled	`true` 或 `false`	启用或停用 Ubuntu Snap 守护程序。默认值为 `true`。如果设置为 `false`，则映像中预安装的 Snap 软件包不会受到影响，但自动刷新会被停用。适用于 1.4.71、1.5.46、2.0.20 及更高版本的 Ubuntu 映像。
dataproc	dataproc.worker.custom.init.actions.mode	`RUN_BEFORE_SERVICES`	对于 2.0 版之前的映像集群，未设置 RUN_BEFORE_SERVICES，但用户可以在创建集群时设置。对于 2.0+ 映像集群，设置为 RUN_BEFORE_SERVICES，并且该属性无法传递给集群（用户不能更改此属性）。如需了解此设置的影响，请参阅重要注意事项和指南 - 初始化处理。
dataproc	dataproc.yarn.orphaned-app-termination.enable	`true` 或 `false`	默认值为 `true`。将其设置为 `false` 可防止 Dataproc 终止“孤立的”YARN 应用。如果提交 YARN 应用的作业驱动程序已退出，Dataproc 会将 YARN 应用视为孤立应用。警告：如果您使用 Spark 集群模式 (`spark.submit.deployMode=cluster`) 并设置 `spark.yarn.submit.waitAppCompletion=false`，Spark 驱动程序会退出，而不会等待 YARN 应用完成；在这种情况下，请设置 `dataproc:dataproc.yarn.orphaned-app-termination.enable=false`。如果您提交 Hive 作业，也需要将此属性设置为 `false`。
dataproc	diagnostic.capture.enabled	`true` 或 `false`	启用集群检查点诊断数据收集功能。（默认值：`false`）。
dataproc	diagnostic.capture.access	`GOOGLE_DATAPROC_DIAGNOSE`	如果设置为 `GOOGLE_DATAPROC_DIAGNOSE`，则会与 Dataproc 支持团队共享集群检查点诊断数据（保存在 Cloud Storage 中）。（默认值：not set）
dataproc	efm.spark.shuffle	`primary-worker`	如果设置为 `primary-worker`，则 Spark shuffle 数据会写入主要工作器。如需了解详情，请参阅 Dataproc 增强的灵活性模式。
dataproc	job.history.to-gcs.enabled	`true` 或 `false`	允许将 MapReduce 和 Spark 历史记录文件持久存储到 Dataproc 临时存储区中（对于图片版本 1.5+，默认值为 `true`）。用户可以通过以下属性覆盖作业历史记录文件持久性的位置：`mapreduce.jobhistory.done-dir`、`mapreduce.jobhistory.intermediate-done-dir`、`spark.eventLog.dir` 和 `spark.history.fs.logDirectory`如需了解与 Dataproc 作业历史记录和事件文件关联的这些属性和其他集群属性，请参阅 Dataproc Persistent History Server。
dataproc	jobs.file-backed-output.enable	`true` 或 `false`	配置 Dataproc 作业，使其输出传送到 `/var/log/google-dataproc-job` 目录中的临时文件。必须设置为 `true` 才能在 Cloud Logging 中启用作业驱动程序日志记录（默认值：`true`）。
dataproc	jupyter.listen.all.interfaces	`true` 或 `false`	为了降低通过不安全的笔记本服务器 API 执行远程代码的风险，映像版本 1.3+ 的默认设置为 `false`；当启用组件网关时，该设置将连接限制为 `localhost` (`127.0.0.1`)（对于 2.0+ 映像，不需要激活组件网关）。通过将此属性设置为 `true` 以允许所有连接，可以替换此默认设置。
dataproc	jupyter.notebook.gcs.dir	`gs://<dir-path>`	Cloud Storage 中用于保存 Jupyter 笔记本的位置。
dataproc	kerberos.beta.automatic-config.enable	`true` 或 `false`	设置为 `true` 时，用户无需使用 `--kerberos-root-principal-password` 和 `--kerberos-kms-key-uri` 标志（默认值：`false`）指定 Kerberos Root 主账号密码。如需了解详情，请参阅通过 Kerberos 启用 Hadoop 安全模式。
dataproc	kerberos.cross-realm-trust.admin-server	`hostname/address`	远程管理服务器（通常与 KDC 服务器相同）的主机名/地址。
dataproc	kerberos.cross-realm-trust.kdc	`hostname/address`	远程 KDC 的主机名/地址。
dataproc	kerberos.cross-realm-trust.realm	`realm name`	域名由大写的 ASCII 字符串构成。此域名通常与 DNS 域名（大写）相同。示例：如果机器命名为“`machine-id`.example.west-coast.mycompany.com”，则关联的域可指定为“EXAMPLE.WEST-COAST.MYCOMPANY.COM”。
dataproc	kerberos.cross-realm-trust.shared-password.uri	`gs://<dir-path>`	KMS 加密共享密码在 Cloud Storage 中的位置。
dataproc	kerberos.kdc.db.key.uri	`gs://<dir-path>`	包含 KDC 数据库主密钥的 KMS 加密文件在 Cloud Storage 中的位置。
dataproc	kerberos.key.password.uri	`gs://<dir-path>`	包含密钥（密钥库文件中）密码的 KMS 加密文件在 Cloud Storage 中的位置。
dataproc	kerberos.keystore.password.uri	`gs://<dir-path>`	包含密钥库密码的 KMS 加密文件在 Cloud Storage 中的位置。
dataproc	kerberos.keystore.uri¹	`gs://<dir-path>`	包含集群节点所使用的通配符证书和私钥的密钥库文件在 Cloud Storage 中的位置。
dataproc	kerberos.kms.key.uri	`KMS key URI`	用于解密根密码的 KMS 密钥的 URI，例如 `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key`（请参阅密钥资源 ID）。
dataproc	kerberos.root.principal.password.uri	`gs://<dir-path>`	Kerberos root 主体的 KMS 加密密码在 Cloud Storage 中的位置。
dataproc	kerberos.tgt.lifetime.hours	`hours`	票据授权票据的最长周期时间。
dataproc	kerberos.truststore.password.uri	`gs://<dir-path>`	包含信任库文件密码的 KMS 加密文件在 Cloud Storage 中的位置。
dataproc	kerberos.truststore.uri²	`gs://<dir-path>`	包含受信证书的 KMS 加密信任库文件在 Cloud Storage 中的位置。
dataproc	pip.packages	Pip 软件包	此属性以逗号分隔的列表形式显示，列表中包含要在 `base` Conda 环境中安装的特定版本的 Pip 软件包。如需了解详情，请参阅与 Conda 相关的集群属性。（默认值：`empty`）。
dataproc	ranger.kms.key.uri	`KMS key URI`	用于解密 Ranger 管理员用户密码的 KMS 密钥的 URI，例如 `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key`（请参阅密钥资源 ID）。
dataproc	ranger.admin.password.uri	`gs://<dir-path>`	Ranger 管理员用户的 KMS 加密密码在 Cloud Storage 中的位置。
dataproc	ranger.db.admin.password.uri	`gs://<dir-path>`	Ranger 数据库管理员用户的 KMS 加密密码在 Cloud Storage 中的位置。
dataproc	ranger.cloud-sql.instance.connection.name	`cloud sql instance connection name`	Cloud SQL 实例的连接名称，例如 `project-id:region:name.`
dataproc	ranger.cloud-sql.root.password.uri	`gs://<dir-path>`	Cloud SQL 实例的根用户的 KMS 加密密码在 Cloud Storage 中的位置。
dataproc	ranger.cloud-sql.use-private-ip	`true` 或 `false`	集群实例和 Cloud SQL 实例之间的通信是否应通过专用 IP进行（默认值为 `false`）。
dataproc	solr.gcs.path	`gs://<dir-path>`	用作 Solr 主目录的 Cloud Storage 路径。
dataproc	startup.component.service-binding-timeout.hadoop-hdfs-namenode	`seconds`	在确定成功启动之前，Dataproc 启动脚本将等待 hadoop-hdfs-namenode 绑定到端口的时间。最大可识别值为 1800 秒 (30 分钟)。
dataproc	startup.component.service-binding-timeout.hive-metastore	`seconds`	在确定其启动成功之前，Dataproc 启动脚本等待 Hive-Metastore 服务绑定到端口的时间。最大可识别值为 1800 秒 (30 分钟)。
dataproc	startup.component.service-binding-timeout.hive-server2	`seconds`	在确定其启动成功之前，Dataproc 启动脚本等待 hive-server2 绑定到端口的时间。最大可识别值为 1800 秒 (30 分钟)。
dataproc	user-attribution.enabled	`true` 或 `false`	将此属性设置为 `true` 可将 Dataproc 作业与提交该作业的用户的身份对应起来（默认值为 `false`）。
dataproc	yarn.docker.enable	`true` 或 `false`	设置为 `true` 可启用 Dataproc Docker on YARN 功能（默认值为 `false`）。
dataproc	yarn.docker.image	`docker image`	启用 Dataproc Docker on YARN 功能 (`dataproc:yarn.docker.enable=true`) 时，您可以使用此可选属性指定 Docker 映像（例如 `dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1`）。如果指定了此属性，该映像会在集群创建期间下载并缓存在集群的所有节点中。
dataproc	yarn.log-aggregation.enabled	`true` 或 `false`	允许（`true`）在集群的 `temp bucket` 上启用 YARN 日志集合。存储桶名称的格式如下：`dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>`。（对于图片版本 1.5+，默认值为 `true`）。注意：集群被删除时，该集群的临时存储桶不会被删除。用户还可以通过覆盖 `yarn.nodemanager.remote-app-log-dir` YARN 属性来设置汇总的 YARN 日志位置。
Knox	gateway.host	`ip address`	为了降低通过不安全的笔记本服务器 API 执行远程代码的风险，映像版本 1.3+ 的默认设置为 `127.0.0.1`，当启用组件网关时，该设置将连接限制为 `localhost`。默认设置可以替换，例如，将此属性设置为 `0.0.0.0` 以允许所有连接。
zeppelin	zeppelin.notebook.gcs.dir	`gs://<dir-path>`	Cloud Storage 中用于保存 Zeppelin 笔记本的位置。
zeppelin	zeppelin.server.addr	`ip address`	为了降低通过不安全的笔记本服务器 API 执行远程代码的风险，映像版本 1.3+ 的默认设置为 `127.0.0.1`，当启用组件网关时，该设置将连接限制为 `localhost`。此默认设置可以替换，例如，将此属性设置为 `0.0.0.0` 以允许所有连接。

¹ 密钥库文件：密钥库文件包含 SSL 证书。文件应为 Java KeyStore (JKS) 格式。在复制到虚拟机时，其将重命名为 keystore.jks。 SSL 证书应为适用于集群中每个节点的通配符证书。

²信任库文件：信任库文件应为 Java KeyStore (JKS) 格式。在复制到虚拟机时，其将重命名为 truststore.jks。

集群属性 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

Apache Hadoop YARN、HDFS、Spark 以及相关属性

格式设置

示例

gcloud 命令

REST API

控制台

集群与作业属性

文件前缀属性表

Dataproc 服务属性

格式设置

Dataproc 服务属性表

集群属性