Apache Hadoop YARN、HDFS、Spark 以及相关属性
安装在 Dataproc 集群上的开源组件包含许多配置文件。例如,Apache Spark 和 Apache Hadoop 具有一些 XML 和纯文本配置文件。您可以在创建集群时使用 gcloud dataproc clusters create 命令的 ‑‑properties
标志来修改许多常用配置文件。
格式设置
gcloud dataproc clusters create --properties
标志接受以下字符串格式:
file_prefix1:property1=value1,file_prefix2:property2=value2,...
file_prefix 映射到预定义的配置文件(如下表所示),property 映射到该文件中的属性。
用于分隔多个集群属性的默认分隔符是逗号 (,)。但是,如果属性值中包含逗号,则必须通过在属性列表的开头指定“^delimiter^”来更改分隔符(请参阅 gcloud topic escaping 了解详情)。
- 使用“#”分隔符的示例:
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
- 使用“#”分隔符的示例:
示例
gcloud 命令
如需更改 spark-defaults.conf
文件中的 spark.master
设置,请添加以下 gcloud dataproc clusters create --properties
标志:
--properties 'spark:spark.master=spark://example.com'
利用逗号分隔符,您可以一次性更改一个或多个配置文件中的多个属性。每个属性都必须以完整的 file_prefix:property=value
格式指定。例如,如需更改 spark-defaults.conf
文件中的 spark.master
设置和 hdfs-site.xml
文件中的 dfs.hosts
设置,请在创建集群时使用以下 --properties
标志:
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'
REST API
要将 spark.executor.memory
设置为 10g
,请在 clusters.create 请求的 SoftwareConfig 部分插入以下 properties
设置:
"properties": { "spark:spark.executor.memory": "10g" }
如需查看如何构建 Dataproc API 集群 REST 请求的 JSON 正文,一个简单的方法是使用 --log-http
标记启动等效的 gcloud
命令。以下是一个示例 gcloud dataproc clusters create
命令,该命令使用 --properties spark:spark.executor.memory=10g
标志设置集群属性。stdout 日志显示了生成的 REST 请求正文(properties
代码段如下所示):
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=spark:spark.executor.memory=10g \ --log-http \ other args ...
输出:
... == body start == {"clusterName": "my-cluster", "config": {"gceClusterConfig": ... "masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},
... == body end == ...
如果您不希望命令生效,请在 JSON 正文出现在输出中后确保取消该命令。
控制台
要更改 spark-defaults.conf
文件中的 spark.master
设置,请按以下步骤操作:
- 在 Google Cloud 控制台中,打开 Dataproc 创建集群 页面。点击“自定义集群”面板,然后滚动到“集群属性”部分。
- 点击 + 添加属性。在“前缀”列表中选择 spark,然后在“键”字段添加“spark.master”并在“值”字段中添加设置。
集群与作业属性
在您创建集群时,系统会在集群级层应用 Apache Hadoop YARN、HDFS、Spark 和其他文件前缀属性。这些属性 无法在集群创建完毕后应用于集群 不过,其中许多属性也适用于特定作业。将属性应用于作业时,不使用文件前缀。
以下示例将 Spark 作业的 Spark 执行程序内存设置为 4g(省略 spark:
前缀)。
gcloud dataproc jobs submit spark \ --region=REGION \ --properties=spark.executor.memory=4g \ other args ...
您可以使用 gcloud dataproc jobs submit job-type --properties-file
标志在文件中提交作业属性(例如,请参阅 Hadoop 作业提交的 --properties-file 说明)。
gcloud dataproc jobs submit JOB_TYPE \ --region=REGION \ --properties-file=PROPERTIES_FILE \ other args ...
PROPERTIES_FILE
是一组
以换行符分隔的 key
=value
对。要设置的属性是 key
,
并将该属性设置为 value
。如需详细了解属性文件格式,请参阅 java.util.Properties 类。
以下示例展示了一个属性文件,可在提交 Dataproc 作业时传递给 --properties-file
标志。
dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml spark:spark.history.fs.logDirectory=gs://some-bucket spark:spark.eventLog.dir=gs://some-bucket capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5
文件前缀属性表
文件前缀 | 文件 | 文件用途 |
---|---|---|
capacity-scheduler | capacity-scheduler.xml | Hadoop YARN 容量调度程序配置 |
core | core-site.xml | Hadoop 常规配置 |
distcp | distcp-default.xml | Hadoop 分布式复制配置 |
flink | flink-conf.yaml | Flink 配置 |
flink-log4j | log4j.properties | Log4j 设置文件 |
hadoop-env | hadoop-env.sh | Hadoop 特定环境变量 |
hadoop-log4j | log4j.properties | Log4j 设置文件 |
hbase | hbase-site.xml | HBase 配置 |
hbase-log4j | log4j.properties | Log4j 设置文件 |
hdfs | hdfs-site.xml | Hadoop HDFS 配置 |
hive | hive-site.xml | Hive 配置 |
hive-log4j2 | hive-log4j2.properties | Log4j 设置文件 |
Hudi | hudi-default.conf | Hudi 配置 |
mapred | mapred-site.xml | Hadoop MapReduce 配置 |
mapred-env | mapred-env.sh | Hadoop MapReduce 特定环境变量 |
pig | pig.properties | Pig 配置 |
pig-log4j | log4j.properties | Log4j 设置文件 |
presto | config.properties | Presto 配置 |
presto-jvm | jvm.config | Presto 特定的 JVM 配置 |
spark | spark-defaults.conf | Spark 配置 |
spark-env | spark-env.sh | Spark 特定环境变量 |
spark-log4j | log4j.properties | Log4j 设置文件 |
tez | tez-site.xml | Tez 配置 |
webcat-log4j | webhcat-log4j2.properties | Log4j 设置文件 |
yarn | yarn-site.xml | Hadoop YARN 配置 |
yarn-env | yarn-env.sh | Hadoop YARN 特定环境变量 |
zeppelin | zeppelin-site.xml | Zeppelin 配置 |
zeppelin-env | zeppelin-env.sh | Zeppelin 特定环境变量(仅限可选组件) |
zeppelin-log4j | log4j.properties | Log4j 设置文件 |
zookeeper | zoo.cfg | Zookeeper 配置 |
zookeeper-log4j | log4j.properties | Log4j 设置文件 |
备注
- 有些属性是预留属性,不能被替换,因为它们会影响 Dataproc 集群的功能。如果您尝试更改预留属性,则在创建集群时,您将收到错误消息。
- 您可以指定多项更改,只需用逗号分隔每项更改即可。
--properties
标记不能修改上面未显示的配置文件。- 系统会先应用对属性做出的更改,然后再启动集群上的守护进程。
- 如果指定的属性存在,它将被更新。如果指定的属性不存在,它将被添加到配置文件中。
Dataproc 服务属性
本部分列出的属性特定于 Dataproc。 这些属性可用于进一步配置 Dataproc 集群。
格式设置
gcloud dataproc clusters create --properties
标志接受以下字符串格式:
property_prefix1:property1=value1,property_prefix2:property2=value2,...
用于分隔多个集群属性的默认分隔符是逗号 (,)。但是,如果属性值中包含逗号,则必须通过在属性列表的开头指定“^delimiter^”来更改分隔符(请参阅 gcloud topic escaping 了解详情)。
- 使用“#”分隔符的示例:
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
- 使用“#”分隔符的示例:
示例:
创建集群并将增强的灵活性模式设置为 Spark 主工作器重排。
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=dataproc:efm.spark.shuffle=primary-worker \ other args ...
Dataproc 服务属性表
属性前缀 | 属性 | 值 | 说明 |
---|---|---|---|
dataproc | agent.process.threads.job.min | number |
Dataproc 在线程池中并发运行用户作业驱动程序。该属性控制线程池中最小线程数以实现快速启动,即使没有作业正在运行也是如此(默认值:10)。 |
dataproc | agent.process.threads.job.max | number |
Dataproc 在线程池中并发运行用户作业驱动程序。该属性控制线程池中的线程数量上限,从而限制最大并发用户作业数。提高该值以提高并发性(默认值:100)。 |
dataproc | am.primary_only | true 或 false |
将此属性设置为 true 可防止应用主实例在 Dataproc 集群抢占式工作器上运行。注意:此功能仅适用于 Dataproc 1.2 及更高版本。默认值为 false 。 |
dataproc | conda.env.config.uri | gs://<path> |
Conda 环境配置文件在 Cloud Storage 中的位置。系统将根据此文件创建并激活新的 Conda 环境。如需了解详情,请参阅使用与 Conda 相关的集群属性。(默认值:empty )。 |
dataproc | conda.packages | Conda 软件包 | 此属性以英文逗号分隔的列表形式显示,列表中包含要在 base Conda 环境中安装的特定版本的 Conda 软件包。如需了解详情,请参阅使用与 Conda 相关的集群属性。(默认值:empty )。 |
dataproc | dataproc.allow.zero.workers | true 或 false |
在 Dataproc clusters.create API 请求中将 SoftwareConfig 属性设置为 true ,以创建单节点集群,将默认的工作器数量从 2 更改为 0,并将工作器组件放置在主实例主机上。您还可以通过 Google Cloud 控制台或 Google Cloud CLI 并将工作器的数量设置为 0 来创建单节点集群。 |
dataproc | dataproc.alpha.master.nvdimm.size.gb | 1500-6500 | 设置值会创建具有 Intel Optane DC 持久存储器的 Dataproc 主实例。注意:Optane 虚拟机只能在 us-central1-f 区域中创建,只有 n1-highmem-96-aep 机器类型,且只能在白名单项目中创建。 |
dataproc: | dataproc.alpha.worker.nvdimm.size.gb | 1500-6500 | 设置值会创建具有 Intel Optane DC 持久存储器的 Dataproc 工作器。注意:Optane 虚拟机只能在 us-central1-f 区域中创建,只有 n1-highmem-96-aep 机器类型,且只能在白名单项目中创建。 |
dataproc: | dataproc.await-new-workers-service-registration | true 或 false |
此属性在映像 2.0.49 及更高版本中可用。默认值为 false 。将此属性设置为 true ,以在集群创建或集群纵向扩容期间等待新的主工作器注册服务主要副本,例如 HDFS NameNode 和 YARN ResourceManager(仅监控 HDFS 和 YARN 服务)。设置为 true 时,如果新 worker 未能注册到 Service,则会为该 worker 分配 FAILED 状态。如果集群正在纵向扩容,则系统会移除失败的工作器。正在创建集群时,如果在 gcloud 命令或 API 集群创建请求中指定了 gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE 标志或 API actionOnFailedPrimaryWorkers=DELETE 字段,则系统会移除失败的工作器。 |
dataproc: | dataproc.beta.secure.multi-tenancy.user.mapping | user-to-service account mappings |
此属性接受用户到服务账号的映射列表。映射的用户可以以隔离的用户身份将交互式工作负载提交到集群(请参阅基于 Dataproc 服务账号的安全多租户)。 |
dataproc: | dataproc.cluster.caching.enabled | true 或 false |
启用集群缓存后,集群会缓存 Spark 作业访问的 Cloud Storage 数据,从而提高作业性能,而不会影响一致性。(默认值:false )。 |
dataproc | dataproc.cluster-ttl.consider-yarn-activity | true 或 false |
如果设置为 true ,集群计划删除在计算集群空闲时间时将同时考虑 YARN 和 Dataproc Jobs API 的活动。如果设置为 false ,则仅考虑 Dataproc Jobs API 活动。(默认值:true )。如需了解详情,请参阅集群空闲时间计算。 |
dataproc | dataproc.conscrypt.provider.enable | true 或 false |
启用(true )或停用(false )Conscrypt作为主要 Java 安全提供程序。注意:默认情况下,Dataproc 1.2 和更高版本中启用了 Conscrypt,但在 1.0/1.1 版本中停用了此组件。 |
dataproc | dataproc.cooperative.multi-tenancy.user.mapping | user-to-service account mappings |
此属性采用以逗号分隔的用户到服务账号映射列表。如果使用此属性集创建集群,当用户提交作业时,集群将在通过 Cloud Storage 连接器访问 Cloud Storage 时尝试模拟相应的服务账号。此功能需要 Cloud Storage 连接器版本 2.1.4 或更高版本。如需了解详情,请参阅 Dataproc 合作多租户。(默认:empty )。 |
dataproc | dataproc.control.max.assigned.job.tasks | 100 |
此属性限制可以在集群主服务器节点上并发运行的任务数量。如果活跃任务数超出任务数上限,新作业会进入队列,直到正在运行的作业完成并释放资源,以便安排新任务。注意:不建议将默认任务数限制设置为超过 100 (默认值),因为这可能会导致主节点出现内存不足的情况。 |
dataproc | dataproc:hudi.version | Hudi 版本 | 设置与可选的 Dataproc Hudi 组件一起使用的 Hudi 版本。注意:此版本由 Dataproc 设置,与集群映像版本兼容。如果用户设置了该属性,并且指定的版本与集群映像不兼容,则集群创建可能会失败。 |
dataproc | dataproc.lineage.enabled | true |
为 Dataproc 集群中的 Spark 作业启用数据谱系。 |
dataproc | dataproc.localssd.mount.enable | true 或 false |
是否将本地 SSD 挂载为 Hadoop/Spark 临时目录和 HDFS 数据目录(默认值:true )。 |
dataproc | dataproc.logging.stackdriver.enable | true 或 false |
启用(true )或停用(false )Cloud Logging(默认值:true )。如需了解相关费用,请参阅 Cloud Logging 价格。 |
dataproc | dataproc.logging.stackdriver.job.driver.enable | true 或 false |
在 Cloud Logging 中启用(true )或停用(false )Dataproc 作业驱动程序日志。请参阅 Dataproc 作业输出和日志(默认值:false )。 |
dataproc | dataproc.logging.stackdriver.job.yarn.container.enable | true 或 false |
在 Cloud Logging 中启用(true )或停用(false )YARN 容器日志。请参阅 Spark 作业输出选项。(默认:false )。 |
dataproc | dataproc.master.custom.init.actions.mode | RUN_BEFORE_SERVICES 或 RUN_AFTER_SERVICES |
对于 2.0 及更高版本的映像集群,如果设置为 RUN_AFTER_SERVICES ,则主实例上的初始化操作将在初始化 HDFS 以及依赖于 HDFS 的所有服务之后再运行。依赖于 HDFS 的服务示例包括:HBase、Hive Server2、Ranger、Solr 以及 Spark 和 MapReduce 历史记录服务器。(默认值:RUN_BEFORE_SERVICES )。 |
dataproc | dataproc.monitoring.stackdriver.enable | true 或 false |
启用 (true ) 或停用 (false ) Monitoring 代理(默认值:false )。此属性已弃用。请参阅启用自定义指标收集,以便在 Monitoring 中启用 Dataproc OSS 指标收集。 |
dataproc | dataproc.scheduler.driver-size-mb | number |
平均驱动程序内存占用量,用于确定集群将运行的并发作业数上限。默认值为 1 GB。较小的值(如 256 )可能适用于 Spark 作业。 |
dataproc | dataproc.scheduler.job-submission-rate | number |
如果超出此速率,系统会节流作业。默认速率为 1.0 QPS。 |
dataproc | dataproc.scheduler.max-concurrent-jobs | number |
并发作业数上限。如果在创建集群时未设置此值,则并发作业数上限计为 max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5) 。masterMemoryMb 由主虚拟机的机器类型确定。masterMemoryMbPerJob 默认为 1024 ,不过您可以在创建集群时使用 dataproc:dataproc.scheduler.driver-size-mb 集群属性对其进行配置。 |
dataproc | dataproc.scheduler.max-memory-used | number |
可使用的 RAM 上限。如果当前用量高于此阈值,则无法安排新作业。默认值为 0.9 (90%)。如果设置为 1.0 ,则会停用主内存用量作业节流。 |
dataproc | dataproc.scheduler.min-free-memory.mb | number |
Dataproc 作业驱动程序在集群上调度另一个作业时所需的最小可用内存量(以兆字节为单位)。默认值为 256 MB。 |
dataproc | dataproc.snap.enabled | true 或 false |
启用或停用 Ubuntu Snap 守护程序。默认值为 true 。如果设置为 false ,则映像中预安装的 Snap 软件包不会受到影响,但自动刷新会被停用。适用于 1.4.71、1.5.46、2.0.20 及更高版本的 Ubuntu 映像。 |
dataproc | dataproc.worker.custom.init.actions.mode | RUN_BEFORE_SERVICES |
对于 2.0 版之前的映像集群,未设置 RUN_BEFORE_SERVICES,但用户可以在创建集群时设置。对于 2.0+ 映像集群,设置为 RUN_BEFORE_SERVICES,并且该属性无法传递给集群(用户不能更改此属性)。如需了解此设置的影响,请参阅重要注意事项和指南 - 初始化处理。 |
dataproc | dataproc.yarn.orphaned-app-termination.enable | true 或 false |
默认值为 true 。设置为 false 可防止 Dataproc 终止“孤立的”YARN 应用。如果提交 YARN 应用的作业驱动程序已退出,Dataproc 会将该 YARN 应用视为孤儿应用。警告:如果您使用 Spark 集群模式 (spark.submit.deployMode=cluster ) 并设置 spark.yarn.submit.waitAppCompletion=false ,则 Spark 驱动程序将退出,不会等待 YARN 应用完成;在本示例中,请设置 dataproc:dataproc.yarn.orphaned-app-termination.enable=false 。如果您提交 Hive 作业,也请将此属性设置为 false 。 |
dataproc | efm.spark.shuffle | primary-worker |
如果设置为 primary-worker ,则 Spark Shuffle 数据将写入主工作器”。如需了解详情,请参阅 Dataproc 增强的灵活模式。 |
dataproc | job.history.to-gcs.enabled | true 或 false |
允许将 MapReduce 和 Spark 历史记录文件持久存储到 Dataproc 临时存储区中(对于图片版本 1.5+,默认值为 true )。用户可以通过以下属性覆盖作业历史记录文件持久性的位置:mapreduce.jobhistory.done-dir 、mapreduce.jobhistory.intermediate-done-dir 、spark.eventLog.dir 和 spark.history.fs.logDirectory 如需了解与 Dataproc 作业历史记录和事件文件关联的这些属性和其他集群属性,请参阅 Dataproc Persistent History Server。 |
dataproc | jobs.file-backed-output.enable | true 或 false |
配置 Dataproc 作业,使其输出传送到 /var/log/google-dataproc-job 目录中的临时文件。必须设置为 true 才能在 Cloud Logging 中启用作业驱动程序日志记录(默认值:true )。 |
dataproc | jupyter.listen.all.interfaces | true 或 false |
为了降低通过不安全的笔记本服务器 API 执行远程代码的风险,映像版本 1.3+ 的默认设置为 false ;当启用组件网关时,该设置将连接限制为 localhost (127.0.0.1 )(对于 2.0+ 映像,不需要激活组件网关)。通过将此属性设置为 true 以允许所有连接,可以替换此默认设置。 |
dataproc | jupyter.notebook.gcs.dir | gs://<dir-path> |
Cloud Storage 中用于保存 Jupyter 笔记本的位置。 |
dataproc | kerberos.beta.automatic-config.enable | true 或 false |
设置为 true 时,用户无需使用 --kerberos-root-principal-password 和 --kerberos-kms-key-uri 标志(默认值:false )指定 Kerberos Root 主账号密码。如需了解详情,请参阅通过 Kerberos 启用 Hadoop 安全模式。 |
dataproc | kerberos.cross-realm-trust.admin-server | hostname/address |
远程管理服务器(通常与 KDC 服务器相同)的主机名/地址。 |
dataproc | kerberos.cross-realm-trust.kdc | hostname/address |
远程 KDC 的主机名/地址。 |
dataproc | kerberos.cross-realm-trust.realm | realm name |
域名由大写的 ASCII 字符串构成。此域名通常与 DNS 域名(大写)相同。示例:如果机器命名为“machine-id.example.west-coast.mycompany.com”,则关联的域可指定为“EXAMPLE.WEST-COAST.MYCOMPANY.COM”。 |
dataproc | kerberos.cross-realm-trust.shared-password.uri | gs://<dir-path> |
KMS 加密共享密码在 Cloud Storage 中的位置。 |
dataproc | kerberos.kdc.db.key.uri | gs://<dir-path> |
包含 KDC 数据库主密钥的 KMS 加密文件在 Cloud Storage 中的位置。 |
dataproc | kerberos.key.password.uri | gs://<dir-path> |
包含密钥(密钥库文件中)密码的 KMS 加密文件在 Cloud Storage 中的位置。 |
dataproc | kerberos.keystore.password.uri | gs://<dir-path> |
包含密钥库密码的 KMS 加密文件在 Cloud Storage 中的位置。 |
dataproc | kerberos.keystore.uri1 | gs://<dir-path> |
包含集群节点所使用的通配符证书和私钥的密钥库文件在 Cloud Storage 中的位置。 |
dataproc | kerberos.kms.key.uri | KMS key URI |
用于解密根密码的 KMS 密钥的 URI,例如 projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (请参阅密钥资源 ID)。 |
dataproc | kerberos.root.principal.password.uri | gs://<dir-path> |
Kerberos root 主体的 KMS 加密密码在 Cloud Storage 中的位置。 |
dataproc | kerberos.tgt.lifetime.hours | hours |
票据授权票据的最长周期时间。 |
dataproc | kerberos.truststore.password.uri | gs://<dir-path> |
包含信任库文件密码的 KMS 加密文件在 Cloud Storage 中的位置。 |
dataproc | kerberos.truststore.uri2 | gs://<dir-path> |
包含受信证书的 KMS 加密信任库文件在 Cloud Storage 中的位置。 |
dataproc | pip.packages | Pip 软件包 | 此属性以英文逗号分隔的列表形式显示,列表中包含要在 base Conda 环境中安装的特定版本的 Pip 软件包。如需了解详情,请参阅与 Conda 相关的集群属性。(默认值:empty )。 |
dataproc | ranger.kms.key.uri | KMS key URI |
用于解密 Ranger 管理员用户密码的 KMS 密钥的 URI,例如 projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (请参阅密钥资源 ID)。 |
dataproc | ranger.admin.password.uri | gs://<dir-path> |
Ranger 管理员用户的 KMS 加密密码在 Cloud Storage 中的位置。 |
dataproc | ranger.db.admin.password.uri | gs://<dir-path> |
Ranger 数据库管理员用户的 KMS 加密密码在 Cloud Storage 中的位置。 |
dataproc | ranger.cloud-sql.instance.connection.name | cloud sql instance connection name |
Cloud SQL 实例的连接名称,例如 project-id:region:name. |
dataproc | ranger.cloud-sql.root.password.uri | gs://<dir-path> |
Cloud SQL 实例的根用户的 KMS 加密密码在 Cloud Storage 中的位置。 |
dataproc | ranger.cloud-sql.use-private-ip | true 或 false |
集群实例和 Cloud SQL 实例之间的通信是否应通过专用 IP进行(默认值为 false )。 |
dataproc | solr.gcs.path | gs://<dir-path> |
用作 Solr 主目录的 Cloud Storage 路径。 |
dataproc | startup.component.service-binding-timeout.hadoop-hdfs-namenode | seconds |
在确定成功启动之前,Dataproc 启动脚本将等待 hadoop-hdfs-namenode 绑定到端口的时间。最大可识别值为 1800 秒 (30 分钟)。 |
dataproc | startup.component.service-binding-timeout.hive-metastore | seconds |
在确定其启动成功之前,Dataproc 启动脚本等待 Hive-Metastore 服务绑定到端口的时间。最大可识别值为 1800 秒 (30 分钟)。 |
dataproc | startup.component.service-binding-timeout.hive-server2 | seconds |
在确定其启动成功之前,Dataproc 启动脚本等待 hive-server2 绑定到端口的时间。最大可识别值为 1800 秒 (30 分钟)。 |
dataproc | user-attribution.enabled | true 或 false |
将此属性设置为 true 可将 Dataproc 作业与提交该作业的用户的身份对应起来(默认值为 false )。 |
dataproc | yarn.docker.enable | true 或 false |
设置为 true 可启用 YARN 上的 Dataproc Docker 功能(默认值为 false )。 |
dataproc | yarn.docker.image | docker image |
启用 Dataproc Docker on YARN 功能 (dataproc:yarn.docker.enable=true ) 时,您可以使用此可选属性来指定 Docker 映像(例如 dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1 )。如果指定,则在创建集群时,系统会下载映像并将其缓存在集群的所有节点中。 |
dataproc | yarn.log-aggregation.enabled | true 或 false |
允许(true )在集群的 temp bucket 上启用 YARN 日志集合。存储桶名称的格式如下:dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING> 。(对于图片版本 1.5+,默认值为 true )。注意:集群被删除时,该集群的临时存储桶不会被删除。用户还可以通过覆盖 yarn.nodemanager.remote-app-log-dir YARN 属性来设置汇总的 YARN 日志位置。 |
Knox | gateway.host | ip address |
为了降低通过不安全的笔记本服务器 API 执行远程代码的风险,映像版本 1.3+ 的默认设置为 127.0.0.1 ,当启用组件网关时,该设置将连接限制为 localhost 。默认设置可以替换,例如,将此属性设置为 0.0.0.0 以允许所有连接。 |
zeppelin | zeppelin.notebook.gcs.dir | gs://<dir-path> |
Cloud Storage 中用于保存 Zeppelin 笔记本的位置。 |
zeppelin | zeppelin.server.addr | ip address |
为了降低通过不安全的笔记本服务器 API 执行远程代码的风险,映像版本 1.3+ 的默认设置为 127.0.0.1 ,当启用组件网关时,该设置将连接限制为 localhost 。此默认设置可以替换,例如,将此属性设置为 0.0.0.0 以允许所有连接。 |
1 密钥库文件:密钥库文件包含 SSL 证书。文件应为 Java KeyStore (JKS) 格式。在复制到虚拟机时,其将重命名为 keystore.jks
。
SSL 证书应为适用于集群中每个节点的通配符证书。
2信任库文件:信任库文件应为 Java KeyStore (JKS) 格式。在复制到虚拟机时,其将重命名为 truststore.jks
。