Apache Hadoop YARN、HDFS、Spark 以及相关属性
安装在 Dataproc 集群上的开源组件包含许多配置文件。例如,Apache Spark 和 Apache Hadoop 具有一些 XML 和纯文本配置文件。您可以在创建集群时使用 gcloud dataproc clusters create 命令的 ‑‑properties
标志来修改许多常用配置文件。
格式设置
gcloud dataproc clusters create --properties
标志接受以下字符串格式:
file_prefix1:property1=value1,file_prefix2:property2=value2,...
file_prefix 映射到预定义的配置文件(如下表所示),property 映射到该文件中的属性。
用于分隔多个集群属性的默认分隔符是逗号 (,)。但是,如果属性值中包含逗号,则必须通过在属性列表的开头指定“^delimiter^”来更改分隔符(请参阅 gcloud topic escaping 了解详情)。
- 使用“#”分隔符的示例:
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
- 使用“#”分隔符的示例:
示例
gcloud 命令
如需更改 spark-defaults.conf
文件中的 spark.master
设置,请添加以下 gcloud dataproc clusters create --properties
标志:
--properties 'spark:spark.master=spark://example.com'
利用逗号分隔符,您可以一次性更改一个或多个配置文件中的多个属性。每个属性都必须以完整的 file_prefix:property=value
格式指定。例如,如需更改 spark-defaults.conf
文件中的 spark.master
设置和 hdfs-site.xml
文件中的 dfs.hosts
设置,请在创建集群时使用以下 --properties
标志:
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'
REST API
要将 spark.executor.memory
设置为 10g
,请在 clusters.create 请求的 SoftwareConfig 部分插入以下 properties
设置:
"properties": { "spark:spark.executor.memory": "10g" }
如需查看如何构建 Dataproc API 集群 REST 请求的 JSON 正文,一个简单的方法是使用 --log-http
标记启动等效的 gcloud
命令。以下是一个示例 gcloud dataproc clusters create
命令,该命令使用 --properties spark:spark.executor.memory=10g
标志设置集群属性。stdout 日志显示了生成的 REST 请求正文(properties
代码段如下所示):
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=spark:spark.executor.memory=10g \ --log-http \ other args ...
输出:
... == body start == {"clusterName": "my-cluster", "config": {"gceClusterConfig": ... "masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},
... == body end == ...
如果您不希望命令生效,请在 JSON 正文出现在输出中后确保取消该命令。
控制台
要更改 spark-defaults.conf
文件中的 spark.master
设置,请按以下步骤操作:
- 在 Google Cloud 控制台中,打开 Dataproc 创建集群页面。点击“自定义集群”面板,然后滚动到“集群属性”部分。
- 点击 + 添加属性。在“前缀”列表中选择 spark,然后在“键”字段添加“spark.master”并在“值”字段中添加设置。
集群与作业属性
在您创建集群时,系统会在集群级层应用 Apache Hadoop YARN、HDFS、Spark 和其他文件前缀属性。集群创建后,无法将这些属性应用于集群。不过,其中许多属性也适用于特定作业。将属性应用于作业时不使用文件前缀。
以下示例将 Spark 作业的 Spark 执行程序内存设置为 4g(省略 spark:
前缀)。
gcloud dataproc jobs submit spark \ --region=REGION \ --properties=spark.executor.memory=4g \ other args ...
您可以使用 gcloud dataproc jobs submit job-type --properties-file
标志在文件中提交作业属性(例如,请参阅 Hadoop 作业提交的 --properties-file 说明)。
gcloud dataproc jobs submit JOB_TYPE \ --region=REGION \ --properties-file=PROPERTIES_FILE \ other args ...
PROPERTIES_FILE
是一组以行分隔的 key
=value
对。要设置的属性是 key
,要将该属性设置为的值是 value
。如需详细了解属性文件格式,请参阅 java.util.Properties 类。
以下示例展示了一个属性文件,可在提交 Dataproc 作业时传递给 --properties-file
标志。
dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml spark:spark.history.fs.logDirectory=gs://some-bucket spark:spark.eventLog.dir=gs://some-bucket capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5
文件前缀属性表
文件前缀 | 文件 | 文件用途 |
---|---|---|
capacity-scheduler | capacity-scheduler.xml | Hadoop YARN 容量调度程序配置 |
core | core-site.xml | Hadoop 常规配置 |
distcp | distcp-default.xml | Hadoop 分布式复制配置 |
flink | flink-conf.yaml | Flink 配置 |
flink-log4j | log4j.properties | Log4j 设置文件 |
hadoop-env | hadoop-env.sh | Hadoop 特定环境变量 |
hadoop-log4j | log4j.properties | Log4j 设置文件 |
hbase | hbase-site.xml | HBase 配置 |
hbase-log4j | log4j.properties | Log4j 设置文件 |
hdfs | hdfs-site.xml | Hadoop HDFS 配置 |
hive | hive-site.xml | Hive 配置 |
hive-log4j2 | hive-log4j2.properties | Log4j 设置文件 |
hudi | hudi-default.conf | Hudi 配置 |
mapred | mapred-site.xml | Hadoop MapReduce 配置 |
mapred-env | mapred-env.sh | Hadoop MapReduce 特定环境变量 |
pig | pig.properties | Pig 配置 |
pig-log4j | log4j.properties | Log4j 设置文件 |
presto | config.properties | Presto 配置 |
presto-jvm | jvm.config | Presto 特定的 JVM 配置 |
spark | spark-defaults.conf | Spark 配置 |
spark-env | spark-env.sh | Spark 特定环境变量 |
spark-log4j | log4j.properties | Log4j 设置文件 |
tez | tez-site.xml | Tez 配置 |
webcat-log4j | webhcat-log4j2.properties | Log4j 设置文件 |
yarn | yarn-site.xml | Hadoop YARN 配置 |
yarn-env | yarn-env.sh | Hadoop YARN 特定环境变量 |
zeppelin | zeppelin-site.xml | Zeppelin 配置 |
zeppelin-env | zeppelin-env.sh | Zeppelin 特定环境变量(仅限可选组件) |
zeppelin-log4j | log4j.properties | Log4j 设置文件 |
zookeeper | zoo.cfg | Zookeeper 配置 |
zookeeper-log4j | log4j.properties | Log4j 设置文件 |
备注
- 有些属性是预留属性,不能被替换,因为它们会影响 Dataproc 集群的功能。如果您尝试更改预留属性,则在创建集群时,您将收到错误消息。
- 您可以指定多项更改,只需用逗号分隔每项更改即可。
--properties
标记不能修改上面未显示的配置文件。- 系统会先应用对属性做出的更改,然后再启动集群上的守护进程。
- 如果指定的属性存在,它将被更新。如果指定的属性不存在,它将被添加到配置文件中。
Dataproc 服务属性
本部分列出的属性是 Dataproc 特有的。这些属性可用于进一步配置 Dataproc 集群的功能。
格式设置
gcloud dataproc clusters create --properties
标志接受以下字符串格式:
property_prefix1:property1=value1,property_prefix2:property2=value2,...
用于分隔多个集群属性的默认分隔符是逗号 (,)。但是,如果属性值中包含逗号,则必须通过在属性列表的开头指定“^delimiter^”来更改分隔符(请参阅 gcloud topic escaping 了解详情)。
- 使用“#”分隔符的示例:
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
- 使用“#”分隔符的示例:
示例:
创建集群并将增强的灵活性模式设置为 Spark 主工作器重排。
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=dataproc:efm.spark.shuffle=primary-worker \ other args ...
Dataproc 服务属性表
属性前缀 | 属性 | 值 | 说明 |
---|---|---|---|
dataproc | agent.process.threads.job.min | number |
Dataproc 在线程池中并发运行用户作业驱动程序。该属性控制线程池中最小线程数以实现快速启动,即使没有作业正在运行也是如此(默认值:10)。 |
dataproc | agent.process.threads.job.max | number |
Dataproc 在线程池中并发运行用户作业驱动程序。该属性控制线程池中的线程数量上限,从而限制最大并发用户作业数。提高该值以提高并发性(默认值:100)。 |
dataproc | am.primary_only | true 或 false |
将此属性设置为 true 可防止应用主实例在 Dataproc 集群抢占式工作器上运行。注意:此功能仅适用于 Dataproc 1.2 及更高版本。默认值为 false 。 |
dataproc | conda.env.config.uri | gs://<path> |
Conda 环境配置文件在 Cloud Storage 中的位置。系统将根据此文件创建并激活新的 Conda 环境。如需了解详情,请参阅使用与 Conda 相关的集群属性。(默认值:empty )。 |
dataproc | conda.packages | Conda 软件包 | 此属性以英文逗号分隔的列表形式显示,列表中包含要在 base Conda 环境中安装的特定版本的 Conda 软件包。如需了解详情,请参阅使用与 Conda 相关的集群属性。(默认值:empty )。 |
dataproc | dataproc.allow.zero.workers | true 或 false |
在 Dataproc clusters.create API 请求中将 SoftwareConfig 属性设置为 true ,以创建单节点集群,将默认的工作器数量从 2 更改为 0,并将工作器组件放置在主实例主机上。您还可以通过 Google Cloud 控制台或 Google Cloud CLI 并将工作器的数量设置为 0 来创建单节点集群。 |
dataproc | dataproc.alpha.master.nvdimm.size.gb | 1500-6500 | 设置值会创建具有 Intel Optane DC 持久存储器的 Dataproc 主实例。注意:Optane 虚拟机只能在 us-central1-f 区域中创建,只有 n1-highmem-96-aep 机器类型,且只能在白名单项目中创建。 |
dataproc: | dataproc.alpha.worker.nvdimm.size.gb | 1500-6500 | 设置值会创建具有 Intel Optane DC 持久存储器的 Dataproc 工作器。注意:Optane 虚拟机只能在 us-central1-f 区域中创建,只有 n1-highmem-96-aep 机器类型,且只能在白名单项目中创建。 |
dataproc: | dataproc.await-new-workers-service-registration | true 或 false |
此属性适用于映像 2.0.49 及更高版本。默认值为 false 。将此属性设置为 true 可在集群创建或集群扩容期间等待新的主工作器注册服务主导(例如 HDFS NameNode 和 YARN ResourceManager)(仅监控 HDFS 和 YARN 服务)。设置为 true 时,如果新 worker 未能注册到服务,则 worker 会被分配 FAILED 状态。如果集群正在扩容,则系统会移除故障工作器。如果正在创建集群,则如果在 gcloud 命令或 API 集群创建请求中指定了 gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE 标志或 API actionOnFailedPrimaryWorkers=DELETE 字段,系统会移除失败的工作器。 |
dataproc: | dataproc.beta.secure.multi-tenancy.user.mapping | user-to-service account mappings |
此属性接受用户到服务账号的映射列表。映射的用户可以以隔离的用户身份将交互式工作负载提交到集群(请参阅基于 Dataproc 服务账号的安全多租户)。 |
dataproc: | dataproc.cluster.caching.enabled | true 或 false |
启用集群缓存后,集群会缓存 Spark 作业访问的 Cloud Storage 数据,从而提高作业性能,而不会影响一致性。(默认值:false )。 |
dataproc | dataproc.cluster-ttl.consider-yarn-activity | true 或 false |
设置为 true 时,集群预定删除功能在计算集群空闲时间时会同时考虑 YARN 和 Dataproc Jobs API 活动。如果设置为 false ,则仅考虑 Dataproc Jobs API 活动。(默认值:true )。如需了解详情,请参阅集群空闲时间计算。 |
dataproc | dataproc.conscrypt.provider.enable | true 或 false |
启用(true )或停用(false )Conscrypt作为主要 Java 安全提供程序。注意:默认情况下,Dataproc 1.2 和更高版本中启用了 Conscrypt,但在 1.0/1.1 版本中停用了此组件。 |
dataproc | dataproc.cooperative.multi-tenancy.user.mapping | user-to-service account mappings |
此属性采用以逗号分隔的用户到服务账号映射列表。如果使用此属性集创建集群,当用户提交作业时,集群将在通过 Cloud Storage 连接器访问 Cloud Storage 时尝试模拟相应的服务账号。此功能需要 Cloud Storage 连接器版本 2.1.4 或更高版本。如需了解详情,请参阅 Dataproc 合作多租户。(默认:empty )。 |
dataproc | dataproc.control.max.assigned.job.tasks | 100 |
此属性限制了集群主服务器节点上可以同时运行的任务数量。如果活跃任务数超出任务数上限,新作业会进入队列,直到正在运行的作业完成并释放资源,以便安排新任务。注意:不建议将默认任务数限制设置为超过 100 (默认值),因为这可能会导致主节点出现内存不足的情况。 |
dataproc | dataproc:hudi.version | Hudi 版本 | 设置与可选的 Dataproc Hudi 组件搭配使用的 Hudi 版本。注意:此版本由 Dataproc 设置,以与集群映像版本兼容。如果由用户设置,如果指定的版本与集群映像不兼容,集群创建可能会失败。 |
dataproc | dataproc.lineage.enabled | true |
为 Dataproc 集群中的 Spark 作业启用数据谱系。 |
dataproc | dataproc.localssd.mount.enable | true 或 false |
是否将本地 SSD 挂载为 Hadoop/Spark 临时目录和 HDFS 数据目录(默认值:true )。 |
dataproc | dataproc.logging.stackdriver.enable | true 或 false |
启用(true )或停用(false )Cloud Logging(默认值:true )。如需了解相关费用,请参阅 Cloud Logging 价格。 |
dataproc | dataproc.logging.stackdriver.job.driver.enable | true 或 false |
在 Cloud Logging 中启用(true )或停用(false )Dataproc 作业驱动程序日志。请参阅 Dataproc 作业输出和日志(默认值:false )。 |
dataproc | dataproc.logging.stackdriver.job.yarn.container.enable | true 或 false |
在 Cloud Logging 中启用(true )或停用(false )YARN 容器日志。请参阅 Spark 作业输出选项。(默认:false )。 |
dataproc | dataproc.master.custom.init.actions.mode | RUN_BEFORE_SERVICES 或 RUN_AFTER_SERVICES |
对于 2.0 及更高版本的映像集群,如果设置为 RUN_AFTER_SERVICES ,则主实例上的初始化操作将在初始化 HDFS 以及依赖于 HDFS 的所有服务之后再运行。依赖于 HDFS 的服务示例包括:HBase、Hive Server2、Ranger、Solr 以及 Spark 和 MapReduce 历史记录服务器。(默认值:RUN_BEFORE_SERVICES )。 |
dataproc | dataproc.monitoring.stackdriver.enable | true 或 false |
启用(true )或停用(false )监控代理(默认值:false )。此属性已弃用。请参阅启用自定义指标收集,以便在 Monitoring 中启用 Dataproc OSS 指标收集。 |
dataproc | dataproc.scheduler.driver-size-mb | number |
平均驱动程序内存占用量,用于确定集群将运行的并发作业数上限。默认值为 1 GB。较小的值(如 256 )可能适用于 Spark 作业。 |
dataproc | dataproc.scheduler.job-submission-rate | number |
如果超出此速率,系统会节流作业。默认速率为 1.0 QPS。 |
dataproc | dataproc.scheduler.max-concurrent-jobs | number |
并发作业数上限。如果在创建集群时未设置此值,则并发作业数上限计为 max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5) 。masterMemoryMb 由主虚拟机的机器类型确定。masterMemoryMbPerJob 默认为 1024 ,不过您可以在创建集群时使用 dataproc:dataproc.scheduler.driver-size-mb 集群属性对其进行配置。 |
dataproc | dataproc.scheduler.max-memory-used | number |
可使用的 RAM 上限。如果当前用量超过此阈值,则无法安排新作业。默认值为 0.9 (90%)。如果设置为 1.0 ,则会停用主内存用量作业节流。 |
dataproc | dataproc.scheduler.min-free-memory.mb | number |
Dataproc 作业驱动程序在集群上调度另一个作业时所需的最小可用内存量(以兆字节为单位)。默认值为 256 MB。 |
dataproc | dataproc.snap.enabled | true 或 false |
启用或停用 Ubuntu Snap 守护程序。默认值为 true 。如果设置为 false ,则映像中预安装的 Snap 软件包不会受到影响,但自动刷新会被停用。适用于 1.4.71、1.5.46、2.0.20 及更高版本的 Ubuntu 映像。 |
dataproc | dataproc.worker.custom.init.actions.mode | RUN_BEFORE_SERVICES |
对于 2.0 版之前的映像集群,未设置 RUN_BEFORE_SERVICES,但用户可以在创建集群时设置。对于 2.0+ 映像集群,设置为 RUN_BEFORE_SERVICES,并且该属性无法传递给集群(用户不能更改此属性)。如需了解此设置的影响,请参阅重要注意事项和指南 - 初始化处理。 |
dataproc | dataproc.yarn.orphaned-app-termination.enable | true 或 false |
默认值为 true 。设置为 false 可防止 Dataproc 终止“孤儿”YARN 应用。如果提交 YARN 应用的作业驱动程序已退出,Dataproc 会将该 YARN 应用视为孤儿应用。警告:如果您使用 Spark 集群模式 (spark.submit.deployMode=cluster ) 并设置了 spark.yarn.submit.waitAppCompletion=false ,Spark 驱动程序会退出,而不会等待 YARN 应用完成;在这种情况下,请设置 dataproc:dataproc.yarn.orphaned-app-termination.enable=false 。如果您提交 Hive 作业,还应将此属性设置为 false 。 |
dataproc | efm.spark.shuffle | primary-worker |
如果设为 primary-worker ,则 Spark Shuffle 数据会写入主要工作器”。如需了解详情,请参阅 Dataproc 增强的灵活性模式。 |
dataproc | job.history.to-gcs.enabled | true 或 false |
允许将 MapReduce 和 Spark 历史记录文件持久存储到 Dataproc 临时存储区中(对于图片版本 1.5+,默认值为 true )。用户可以通过以下属性覆盖作业历史记录文件持久性的位置:mapreduce.jobhistory.done-dir 、mapreduce.jobhistory.intermediate-done-dir 、spark.eventLog.dir 和 spark.history.fs.logDirectory 如需了解与 Dataproc 作业历史记录和事件文件关联的这些属性和其他集群属性,请参阅 Dataproc Persistent History Server。 |
dataproc | jobs.file-backed-output.enable | true 或 false |
配置 Dataproc 作业,使其输出传送到 /var/log/google-dataproc-job 目录中的临时文件。必须设置为 true 才能在 Cloud Logging 中启用作业驱动程序日志记录(默认值:true )。 |
dataproc | jupyter.listen.all.interfaces | true 或 false |
为了降低通过不安全的笔记本服务器 API 执行远程代码的风险,映像版本 1.3+ 的默认设置为 false ;当启用组件网关时,该设置将连接限制为 localhost (127.0.0.1 )(对于 2.0+ 映像,不需要激活组件网关)。通过将此属性设置为 true 以允许所有连接,可以替换此默认设置。 |
dataproc | jupyter.notebook.gcs.dir | gs://<dir-path> |
Cloud Storage 中用于保存 Jupyter 笔记本的位置。 |
dataproc | kerberos.beta.automatic-config.enable | true 或 false |
设置为 true 时,用户无需使用 --kerberos-root-principal-password 和 --kerberos-kms-key-uri 标志(默认值:false )指定 Kerberos Root 主账号密码。如需了解详情,请参阅通过 Kerberos 启用 Hadoop 安全模式。 |
dataproc | kerberos.cross-realm-trust.admin-server | hostname/address |
远程管理服务器(通常与 KDC 服务器相同)的主机名/地址。 |
dataproc | kerberos.cross-realm-trust.kdc | hostname/address |
远程 KDC 的主机名/地址。 |
dataproc | kerberos.cross-realm-trust.realm | realm name |
域名由大写的 ASCII 字符串构成。此域名通常与 DNS 域名(大写)相同。示例:如果机器命名为“machine-id.example.west-coast.mycompany.com”,则关联的域可指定为“EXAMPLE.WEST-COAST.MYCOMPANY.COM”。 |
dataproc | kerberos.cross-realm-trust.shared-password.uri | gs://<dir-path> |
KMS 加密共享密码在 Cloud Storage 中的位置。 |
dataproc | kerberos.kdc.db.key.uri | gs://<dir-path> |
包含 KDC 数据库主密钥的 KMS 加密文件在 Cloud Storage 中的位置。 |
dataproc | kerberos.key.password.uri | gs://<dir-path> |
包含密钥(密钥库文件中)密码的 KMS 加密文件在 Cloud Storage 中的位置。 |
dataproc | kerberos.keystore.password.uri | gs://<dir-path> |
包含密钥库密码的 KMS 加密文件在 Cloud Storage 中的位置。 |
dataproc | kerberos.keystore.uri1 | gs://<dir-path> |
包含集群节点所使用的通配符证书和私钥的密钥库文件在 Cloud Storage 中的位置。 |
dataproc | kerberos.kms.key.uri | KMS key URI |
用于解密根密码的 KMS 密钥的 URI,例如 projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (请参阅密钥资源 ID)。 |
dataproc | kerberos.root.principal.password.uri | gs://<dir-path> |
Kerberos root 主体的 KMS 加密密码在 Cloud Storage 中的位置。 |
dataproc | kerberos.tgt.lifetime.hours | hours |
票据授权票据的最长周期时间。 |
dataproc | kerberos.truststore.password.uri | gs://<dir-path> |
包含信任库文件密码的 KMS 加密文件在 Cloud Storage 中的位置。 |
dataproc | kerberos.truststore.uri2 | gs://<dir-path> |
包含受信证书的 KMS 加密信任库文件在 Cloud Storage 中的位置。 |
dataproc | pip.packages | Pip 软件包 | 此属性以英文逗号分隔的列表形式显示,列表中包含要在 base Conda 环境中安装的特定版本的 Pip 软件包。如需了解详情,请参阅与 Conda 相关的集群属性。(默认值:empty )。 |
dataproc | ranger.kms.key.uri | KMS key URI |
用于解密 Ranger 管理员用户密码的 KMS 密钥的 URI,例如 projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (请参阅密钥资源 ID)。 |
dataproc | ranger.admin.password.uri | gs://<dir-path> |
Ranger 管理员用户的 KMS 加密密码在 Cloud Storage 中的位置。 |
dataproc | ranger.db.admin.password.uri | gs://<dir-path> |
Ranger 数据库管理员用户的 KMS 加密密码在 Cloud Storage 中的位置。 |
dataproc | ranger.cloud-sql.instance.connection.name | cloud sql instance connection name |
Cloud SQL 实例的连接名称,例如 project-id:region:name. |
dataproc | ranger.cloud-sql.root.password.uri | gs://<dir-path> |
Cloud SQL 实例的根用户的 KMS 加密密码在 Cloud Storage 中的位置。 |
dataproc | ranger.cloud-sql.use-private-ip | true 或 false |
集群实例和 Cloud SQL 实例之间的通信是否应通过专用 IP进行(默认值为 false )。 |
dataproc | solr.gcs.path | gs://<dir-path> |
用作 Solr 主目录的 Cloud Storage 路径。 |
dataproc | startup.component.service-binding-timeout.hadoop-hdfs-namenode | seconds |
在确定成功启动之前,Dataproc 启动脚本将等待 hadoop-hdfs-namenode 绑定到端口的时间。最大可识别值为 1800 秒 (30 分钟)。 |
dataproc | startup.component.service-binding-timeout.hive-metastore | seconds |
在确定其启动成功之前,Dataproc 启动脚本等待 Hive-Metastore 服务绑定到端口的时间。最大可识别值为 1800 秒 (30 分钟)。 |
dataproc | startup.component.service-binding-timeout.hive-server2 | seconds |
在确定其启动成功之前,Dataproc 启动脚本等待 hive-server2 绑定到端口的时间。最大可识别值为 1800 秒 (30 分钟)。 |
dataproc | user-attribution.enabled | true 或 false |
将此属性设置为 true 可将 Dataproc 作业与提交该作业的用户的身份对应起来(默认值为 false )。 |
dataproc | yarn.docker.enable | true 或 false |
设置为 true 可启用 Dataproc Docker on YARN 功能(默认值为 false )。 |
dataproc | yarn.docker.image | docker image |
启用 Dataproc Docker on YARN 功能 (dataproc:yarn.docker.enable=true ) 时,您可以使用此可选属性指定 Docker 映像(例如 dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1 )。如果指定了此属性,系统会在创建集群期间将映像下载并缓存在集群的所有节点中。 |
dataproc | yarn.log-aggregation.enabled | true 或 false |
允许(true )在集群的 temp bucket 上启用 YARN 日志集合。存储桶名称的格式如下:dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING> 。(对于图片版本 1.5+,默认值为 true )。注意:集群被删除时,该集群的临时存储桶不会被删除。用户还可以通过覆盖 yarn.nodemanager.remote-app-log-dir YARN 属性来设置汇总的 YARN 日志位置。 |
Knox | gateway.host | ip address |
为了降低通过不安全的笔记本服务器 API 执行远程代码的风险,映像版本 1.3+ 的默认设置为 127.0.0.1 ,当启用组件网关时,该设置将连接限制为 localhost 。默认设置可以替换,例如,将此属性设置为 0.0.0.0 以允许所有连接。 |
zeppelin | zeppelin.notebook.gcs.dir | gs://<dir-path> |
Cloud Storage 中用于保存 Zeppelin 笔记本的位置。 |
zeppelin | zeppelin.server.addr | ip address |
为了降低通过不安全的笔记本服务器 API 执行远程代码的风险,映像版本 1.3+ 的默认设置为 127.0.0.1 ,当启用组件网关时,该设置将连接限制为 localhost 。此默认设置可以替换,例如,将此属性设置为 0.0.0.0 以允许所有连接。 |
1 密钥库文件:密钥库文件包含 SSL 证书。文件应为 Java KeyStore (JKS) 格式。在复制到虚拟机时,其将重命名为 keystore.jks
。
SSL 证书应为适用于集群中每个节点的通配符证书。
2信任库文件:信任库文件应为 Java KeyStore (JKS) 格式。在复制到虚拟机时,其将重命名为 truststore.jks
。