本頁面由 Cloud Translation API 翻譯而成。

叢集屬性

Apache Hadoop YARN、HDFS、Spark 和相關屬性

安裝在 Dataproc 叢集上的開放原始碼元件包含許多設定檔。舉例來說，Apache Spark 和 Apache Hadoop 就有幾個 XML 和純文字設定檔。您可以在建立叢集時，於 gcloud dataproc clusters create 指令中使用 ‑‑properties 標記，來修改許多常用的設定檔。

格式設定

gcloud dataproc clusters create --properties 標記接受下列字串格式：

file_prefix1:property1=value1,file_prefix2:property2=value2,...

file_prefix 會對應至預先定義的設定檔 (如下表所示)，而 property 則會對應至檔案中的屬性。
用來分隔多個叢集屬性的預設分隔符號是半形逗號 (,)。不過，如果屬性值包含半形逗號，您必須在屬性清單開頭指定「^delimiter^」來變更分隔符號 (詳情請參閱 gcloud 主題逸出)。
- 使用「#」分隔符號的範例：
```
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
```

範例

gcloud 指令

如要變更 spark-defaults.conf 檔案中的 spark.master 設定，請新增下列 gcloud dataproc clusters create --properties 標記：

--properties 'spark:spark.master=spark://example.com'

您可以使用逗號分隔符號，一次變更一或多個設定檔中的數個屬性。每個屬性都必須以完整的 file_prefix:property=value 格式指定。舉例來說，如要變更 spark-defaults.conf 檔案中的 spark.master 設定，以及 hdfs-site.xml 檔案中的 dfs.hosts 設定，請在建立叢集時使用下列 --properties 旗標：

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

REST API

如要將 spark.executor.memory 設為 10g，請在 clusters.create 要求的 SoftwareConfig 區段中插入下列 properties 設定：

"properties": {
  "spark:spark.executor.memory": "10g"
}

如要查看如何建構 Dataproc API 叢集 REST 要求的 JSON 主體，其中一個簡單的方式是使用 --log-http 標記啟動對等的 gcloud 指令。以下為 gcloud dataproc clusters create 指令範例，使用 --properties spark:spark.executor.memory=10g 標記設定叢集屬性。stdout 記錄檔顯示產生的 REST 要求主體 (properties 片段顯示如下)：

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

輸出內容：

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

...
== body end ==
...

如果您不想讓指令生效，請務必在輸出中出現 JSON 主體後取消指令。

控制台

如要變更 spark-defaults.conf 檔案中的 spark.master 設定，請按照下列步驟操作：

在 Google Cloud 控制台中，開啟 Dataproc 的「建立叢集」頁面。按一下「自訂叢集」面板，然後捲動至「叢集屬性」部分。
按一下「+ 新增資源」。在「Prefix」清單中選取「spark」，然後在「Key」欄位中新增「spark.master」，並在「Value」欄位中新增設定。

叢集與工作屬性

建立叢集時，系統會在叢集層級套用 Apache Hadoop YARN、HDFS、Spark 和其他以檔案為前置字元的屬性。叢集建立後，就無法再將這些屬性套用至叢集。不過，許多屬性也可以套用至特定工作。將屬性套用至工作時，不會使用檔案前置字串。

下列範例會將 Spark 執行器記憶體設為 4g，用於 Spark 工作 (省略 spark: 前置字串)。

gcloud dataproc jobs submit spark \
    --region=REGION \
    --properties=spark.executor.memory=4g \
    other args ...

您可以使用 gcloud dataproc jobs submit job-type --properties-file 旗標，在檔案中提交工作屬性 (例如，請參閱 Hadoop 工作提交的 --properties-file 說明)。

gcloud dataproc jobs submit JOB_TYPE \
    --region=REGION \
    --properties-file=PROPERTIES_FILE \
    other args ...

PROPERTIES_FILE 是一組以換行符號分隔的 key=value 配對。要設定的屬性是 key，而要將屬性設為的值是 value。如要詳細瞭解屬性檔案格式，請參閱 java.util.Properties 類別。

以下範例為屬性檔案，提交 Dataproc 工作時可傳遞至 --properties-file 標記。

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

以檔案為前置字元的屬性資料表

檔案前置字串	檔案	檔案用途
capacity-scheduler	capacity-scheduler.xml	Hadoop YARN Capacity Scheduler 設定
core	core-site.xml	Hadoop 一般設定
distcp	distcp-default.xml	Hadoop Distributed Copy 設定
Flink	flink-conf.yaml	Flink 設定
flink-log4j	log4j.properties	Log4j 設定檔
hadoop-env	hadoop-env.sh	Hadoop 特定環境變數
hadoop-log4j	log4j.properties	Log4j 設定檔
hbase	hbase-site.xml	HBase 設定
hbase-log4j	log4j.properties	Log4j 設定檔
hdfs	hdfs-site.xml	Hadoop HDFS 設定
hive	hive-site.xml	Hive 設定
hive-log4j2	hive-log4j2.properties	Log4j 設定檔
hudi	hudi-default.conf	Hudi 設定
mapred	mapred-site.xml	Hadoop MapReduce 設定
mapred-env	mapred-env.sh	Hadoop MapReduce 特定環境變數
pig	pig.properties	Pig 設定
pig-log4j	log4j.properties	Log4j 設定檔
presto	config.properties	Presto 設定
presto-jvm	jvm.config	Presto 特定 JVM 設定
spark	spark-defaults.conf	Spark 設定
spark-env	spark-env.sh	Spark 特定環境變數
spark-log4j	log4j.properties	Log4j 設定檔
tez	tez-site.xml	Tez 設定
webcat-log4j	webhcat-log4j2.properties	Log4j 設定檔
yarn	yarn-site.xml	Hadoop YARN 設定
yarn-env	yarn-env.sh	Hadoop YARN 特定環境變數
齊柏林飛船	zeppelin-site.xml	Zeppelin 設定
zeppelin-env	zeppelin-env.sh	Zeppelin 特定環境變數 (僅限選用元件)
zeppelin-log4j	log4j.properties	Log4j 設定檔
zookeeper	zoo.cfg	Zookeeper 設定
zookeeper-log4j	log4j.properties	Log4j 設定檔

附註

有些屬性攸關 Dataproc 叢集的功能，因此無法覆寫，並且會被保留下來。如果您嘗試變更保留屬性，將會在建立叢集時收到錯誤訊息。
如要指定多個變更，可以用逗號來分隔。
--properties 標記無法修改未顯示在上表中的設定檔。
對屬性所做的變更將在叢集上的 Daemon 啟動之前套用。
如果指定的屬性存在，將會更新該屬性。如果指定的屬性不存在，則會將它新增至設定檔。

Dataproc 服務屬性

本節列出的屬性專屬於 Dataproc。這些屬性可用於進一步設定 Dataproc 叢集的功能。

格式設定

gcloud dataproc clusters create --properties 標記接受下列字串格式：

property_prefix1:property1=value1,property_prefix2:property2=value2,...

用來分隔多個叢集屬性的預設分隔符號是半形逗號 (,)。不過，如果屬性值包含半形逗號，您必須在屬性清單開頭指定「^delimiter^」，藉此變更分隔符號 (詳情請參閱 gcloud topic escaping)。
- 使用「#」分隔符號的範例：
```
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
```

範例：

建立叢集，並將「強化版彈性模式」設為 Spark 主要工作者隨機播放。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    other args ...

Dataproc 服務屬性資料表

屬性前置字元	屬性	值	說明
dataproc	agent.process.threads.job.min	`number`	Dataproc 會在執行緒集區中並行執行使用者工作驅動程式。即使沒有工作正在執行，這項屬性也會控制執行緒集區中的執行緒數量下限，確保快速啟動 (預設值：10)。
dataproc	agent.process.threads.job.max	`number`	Dataproc 會在執行緒集區中並行執行使用者工作驅動程式。這項屬性可控制執行緒集區中的執行緒數量上限，因此會限制使用者作業的並行上限。調高這個值可提高並行程度 (預設值：100)。
dataproc	am.primary_only	`true`或`false`	將此屬性設為 `true`，防止應用程式主要執行個體在 Dataproc 叢集先佔工作站上執行。注意：這項功能僅適用於 Dataproc 1.2 以上版本。預設值為 `false`。
dataproc	conda.env.config.uri	`gs://<path>`	Conda 環境設定檔在 Cloud Storage 中的位置。系統會根據這個檔案建立並啟用新的 Conda 環境。詳情請參閱「使用與 Conda 相關的叢集屬性」。(預設值：`empty`)。
dataproc	conda.packages	Conda 套件	這項屬性會採用以逗號分隔的 Conda 套件清單，並在 `base` Conda 環境中安裝特定版本。詳情請參閱「使用與 Conda 相關的叢集屬性」。(預設值：`empty`)。
dataproc	dataproc.allow.zero.workers	`true`或`false`	在 Dataproc `clusters.create` API 要求中將此 SoftwareConfig 屬性設為 `true`，以建立單節點叢集，這會將預設的工作站數量從 2 變更為 0，並將工作站元件放在主要主機上。您也可以透過在 Google Cloud 控制台上或使用 Google Cloud CLI 將工作站數量設為 `0` 來建立單一節點叢集。
dataproc	dataproc.alpha.master.nvdimm.size.gb	1500-6500	設定值會建立具有 Intel Optane DC 持續性記憶體的 Dataproc 主機。注意：Optane VM 只能在 `us-central1-f` 可用區中建立，且只能使用 `n1-highmem-96-aep` 機器類型，並僅限於已加入許可清單的專案。
dataproc：	dataproc.alpha.worker.nvdimm.size.gb	1500-6500	設定值會建立具有 Intel Optane DC 持續性記憶體的 Dataproc 工作站。注意：Optane VM 只能在 `us-central1-f` 區域中建立，且只能使用 `n1-highmem-96-aep` 機器類型，並僅限於已加入許可清單的專案。
dataproc：	dataproc.await-new-workers-service-registration	`true`或`false`	這個屬性適用於 2.0.49 以上版本的圖片。預設值為 `false`。將這項屬性設為 `true`，即可在建立叢集或擴充叢集時，等待新的主要工作站註冊服務領導者，例如 HDFS NameNode 和 YARN ResourceManager (僅監控 HDFS 和 YARN 服務)。如果設為 `true`，新工作人員無法註冊服務時，系統會將工作人員指派為 `FAILED` 狀態。如果叢集正在擴充，系統會移除失敗的工作人員。如果正在建立叢集，且在 `gcloud` 指令或 API 叢集建立要求中指定了 `gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE` 標記或 API `actionOnFailedPrimaryWorkers=DELETE` 欄位，系統就會移除失敗的工作站。
dataproc：	dataproc.beta.secure.multi-tenancy.user.mapping	`user-to-service account mappings`	這項屬性會採用使用者與服務帳戶的對應清單。對應的使用者可將互動式工作負載提交至叢集，並使用隔離的使用者身分 (請參閱「以 Dataproc 服務帳戶為基礎的多用戶群安全架構」)。
dataproc：	dataproc.cluster.caching.enabled	`true`或`false`	啟用叢集快取後，叢集會快取 Spark 工作存取的 Cloud Storage 資料，進而提升工作效能，同時確保資料一致性。(預設值：`false`)。
dataproc	dataproc.cluster-ttl.consider-yarn-activity	`true`或`false`	設為 `true` 時，「叢集排定刪除」會同時考量 YARN 和 Dataproc Jobs API 活動，計算叢集閒置時間。如果設為 `false`，系統只會考量 Dataproc Jobs API 活動。(預設值：`true`)。詳情請參閱叢集閒置時間計算。
dataproc	dataproc.conscrypt.provider.enable	`true`或`false`	啟用 (`true`) 或停用 (`false`) Conscrypt 為主要 Java 安全性供應商。注意：Conscrypt 在 Dataproc 1.2 及更高版本中是預設為啟用，但在 1.0/1.1 中則是預設為停用。
dataproc	dataproc.cooperative.multi-tenancy.user.mapping	`user-to-service account mappings`	這項屬性會採用以半形逗號分隔的使用者與服務帳戶對應清單。如果叢集是使用這項屬性集建立，當使用者提交作業時，叢集會嘗試透過 Cloud Storage 連接器存取 Cloud Storage，並模擬對應的服務帳戶。這項功能需要 Cloud Storage 連接器 `2.1.4` 以上版本。詳情請參閱「Dataproc 合作式多用戶群架構」。(預設值：`empty`)。
dataproc	dataproc.control.max.assigned.job.tasks	`100`	這項屬性會限制叢集主節點可同時執行的工作數量。如果有效工作數超過工作限制，新工作會排入佇列，直到執行中的工作完成並釋出資源，才能排定新工作。注意：不建議將預設工作限制設為超過 `100` (預設值)，因為這可能會導致主節點發生記憶體不足的情況。
dataproc	dataproc:hudi.version	Hudi 版本	設定與選用 Dataproc Hudi 元件搭配使用的 Hudi 版本。注意：這個版本是由 Dataproc 設定，與叢集映像檔版本相容。如果是由使用者設定，且指定版本與叢集映像檔不相容，叢集建立作業可能會失敗。
dataproc	dataproc.lineage.enabled	`true`	在 Dataproc 叢集中為 Spark 工作啟用資料沿襲。
dataproc	dataproc.localssd.mount.enable	`true`或`false`	是否將本機 SSD 掛接為 Hadoop/Spark 臨時目錄和 HDFS 資料目錄 (預設值：`true`)。
dataproc	dataproc.logging.extended.enabled	`true`或`false`	啟用 (`true`) 或停用 (`false`) Cloud Logging 中的下列記錄：`knox`、`zeppelin`、`ranger-usersync`、`jupyter_notebook`、`jupyter_kernel_gateway` 和 `spark-history-server` (預設為 `false`)。詳情請參閱「Logging 中的 Dataproc 叢集記錄」。
dataproc	dataproc.logging.stackdriver.enable	`true`或`false`	啟用 (`true`) 或停用 (`false`) Cloud Logging (預設值：`true`)。如需相關費用，請參閱 Cloud Logging 定價。
dataproc	dataproc.logging.stackdriver.job.driver.enable	`true`或`false`	啟用 (`true`) 或停用 (`false`) Cloud Logging 中的 Dataproc 工作驅動程式記錄。請參閱 Dataproc 工作輸出內容和記錄 (預設值：`false`)。
dataproc	dataproc.logging.stackdriver.job.yarn.container.enable	`true`或`false`	啟用 (`true`) 或停用 (`false`) Cloud Logging 中的 YARN 容器記錄。請參閱「Spark 工作輸出選項」。(預設值：`false`)。
dataproc	dataproc.logging.syslog.enabled	`true`或`false`	啟用 (`true`) 或停用 (`false`) Cloud Logging 中的 VM 系統記錄 (預設為 `false`)。
dataproc	dataproc.master.custom.init.actions.mode	`RUN_BEFORE_SERVICES`或`RUN_AFTER_SERVICES`	如果是 2.0 以上的映像檔叢集，設為 `RUN_AFTER_SERVICES` 時，系統會在初始化 HDFS 和任何依附於 HDFS 的服務後，執行主要節點的初始化動作。HDFS 相關服務的範例包括：HBase、Hive Server2、Ranger、Solr，以及 Spark 和 MapReduce 歷來伺服器。(預設值：`RUN_BEFORE_SERVICES`)。
dataproc	dataproc.monitoring.stackdriver.enable	`true`或`false`	啟用 (`true`) 或停用 (`false`) Monitoring 代理程式 (預設值：`false`)。這項屬性已淘汰。如要啟用 Monitoring 中的 Dataproc OSS 指標收集功能，請參閱「啟用自訂指標收集功能」。
dataproc	dataproc.scheduler.driver-size-mb	`number`	驅動程式的平均記憶體用量，決定叢集可執行的並行工作數量上限。預設值為 `1` GB。較小的值 (例如 `256`) 可能適合 Spark 工作。
dataproc	dataproc.scheduler.job-submission-rate	`number`	如果超過這個速率，系統就會限制工作。預設值為 `1.0` QPS。
dataproc	dataproc.scheduler.max-concurrent-jobs	`number`	並行工作數上限。如果建立叢集時未設定這個值，並行工作上限會計算為 `max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5)`。`masterMemoryMb` 取決於主要 VM 的機器類型。`masterMemoryMbPerJob` 預設為 `1024`，但可使用 `dataproc:dataproc.scheduler.driver-size-mb` 叢集屬性在建立叢集時設定。
dataproc	dataproc.scheduler.max-memory-used	`number`	可使用的 RAM 容量上限。如果目前用量超過這個門檻，就無法安排新工作。預設值為 `0.9` (90%)。如果設為 `1.0`，系統會停用主記憶體用量工作節流。
dataproc	dataproc.scheduler.min-free-memory.mb	`number`	Dataproc 工作驅動程式在叢集上排定其他工作時，所需的最小可用記憶體量 (以 MB 為單位)。預設值為 `256` MB。
dataproc	dataproc.snap.enabled	`true`或`false`	啟用或停用 Ubuntu Snap Daemon。預設值為 `true`。如果設為 `false`，映像檔中預先安裝的 Snap 套件不會受到影響，但自動重新整理功能會停用。適用於 1.4.71、1.5.46、2.0.20 以上版本的 Ubuntu 映像檔。
dataproc	dataproc.worker.custom.init.actions.mode	`RUN_BEFORE_SERVICES`	對於 2.0 之前的映像檔叢集，RUN_BEFORE_SERVICES 不會設定，但使用者可以在建立叢集時設定。如果是 2.0 以上的映像檔叢集，系統會設定 RUN_BEFORE_SERVICES ，且屬性無法傳遞至叢集 (使用者無法變更)。如要瞭解這項設定的影響，請參閱「重要考量事項與指引 - 初始化處理程序」。
dataproc	dataproc.yarn.orphaned-app-termination.enable	`true`或`false`	預設值為 `true`。設為 `false` 可防止 Dataproc 終止「孤立」的 YARN 應用程式。如果提交 YARN 應用程式的工作驅動程式已結束，Dataproc 會將 YARN 應用程式視為孤立應用程式。警告：如果您使用 Spark 叢集模式 (`spark.submit.deployMode=cluster`) 並設定 `spark.yarn.submit.waitAppCompletion=false`，Spark 驅動程式會結束，不會等待 YARN 應用程式完成作業；在這種情況下，請設定 `dataproc:dataproc.yarn.orphaned-app-termination.enable=false`。提交 Hive 工作時，也請將這個屬性設為 `false`。
dataproc	diagnostic.capture.enabled	`true`或`false`	啟用叢集檢查點診斷資料的收集功能。(預設值：`false`)。
dataproc	diagnostic.capture.access	`GOOGLE_DATAPROC_DIAGNOSE`	如果設為 `GOOGLE_DATAPROC_DIAGNOSE`，系統會將儲存在 Cloud Storage 中的叢集檢查點診斷資料，分享給 Dataproc 支援團隊。(預設值：未設定)。
dataproc	efm.spark.shuffle	`primary-worker`	如果設為 `primary-worker`，Spark Shuffle 資料會寫入主要工作站。詳情請參閱「Dataproc 強化版彈性模式」。
dataproc	job.history.to-gcs.enabled	`true`或`false`	允許將 MapReduce 和 Spark 記錄檔保留在 Dataproc 暫時值區 (預設：1.5 以上版本的映像檔為 `true`)。使用者可以透過下列屬性覆寫工作記錄檔的保留位置：`mapreduce.jobhistory.done-dir`、`mapreduce.jobhistory.intermediate-done-dir`、`spark.eventLog.dir` 和 `spark.history.fs.logDirectory`。如要瞭解這些屬性，以及與 Dataproc 工作記錄和事件檔案相關聯的其他叢集屬性，請參閱「Dataproc 持續性記錄伺服器」。
dataproc	jobs.file-backed-output.enable	`true`或`false`	將 Dataproc 工作設為將輸出內容透過管道傳送至 `/var/log/google-dataproc-job` 目錄中的暫存檔案。必須設為 `true`，才能在 Cloud Logging 中啟用工作驅動程式記錄 (預設值：`true`)。
dataproc	jupyter.listen.all.interfaces	`true`或`false`	為降低透過不安全的 Notebook 伺服器 API 執行遠端程式碼的風險，1.3 以上版本映像檔的預設設定為 `false`，啟用元件閘道時，會將連線限制為 `localhost` (`127.0.0.1`) (2.0 以上版本映像檔不需啟用元件閘道)。如要允許所有連線，請將這項屬性設為 `true`，即可覆寫預設設定。
dataproc	jupyter.notebook.gcs.dir	`gs://<dir-path>`	儲存 Jupyter 筆記本的 Cloud Storage 位置。
dataproc	kerberos.beta.automatic-config.enable	`true`或`false`	設為 `true` 時，使用者不需要使用 `--kerberos-root-principal-password` 和 `--kerberos-kms-key-uri` 旗標指定 Kerberos 根主體密碼 (預設為 `false`)。詳情請參閱「透過 Kerberos 啟用 Hadoop 安全模式」。
dataproc	kerberos.cross-realm-trust.admin-server	`hostname/address`	遠端管理伺服器的主機名稱/位址 (通常與 KDC 伺服器相同)。
dataproc	kerberos.cross-realm-trust.kdc	`hostname/address`	遠端 KDC 的主機名稱/位址。
dataproc	kerberos.cross-realm-trust.realm	`realm name`	領域名稱可由任何大寫 ASCII 字串組成。通常領域名稱與 DNS 網域名稱相同 (以大寫表示)。舉例來說，如果機器的名稱為「`machine-id`.example.west-coast.mycompany.com」，相關聯的領域可能會指定為「EXAMPLE.WEST-COAST.MYCOMPANY.COM」。
dataproc	kerberos.cross-realm-trust.shared-password.uri	`gs://<dir-path>`	Cloud Storage 中 KMS 加密共用密碼的位置。
dataproc	kerberos.kdc.db.key.uri	`gs://<dir-path>`	KMS 加密檔案在 Cloud Storage 中的位置，該檔案含有 KDC 資料庫主金鑰。
dataproc	kerberos.key.password.uri	`gs://<dir-path>`	KMS 加密檔案的 Cloud Storage 位置，該檔案含有 KeyStore 檔案中金鑰的密碼。
dataproc	kerberos.keystore.password.uri	`gs://<dir-path>`	Cloud Storage 中 KMS 加密檔案的位置，該檔案含有金鑰儲存庫密碼。
dataproc	kerberos.keystore.uri¹	`gs://<dir-path>`	KeyStore 檔案在 Cloud Storage 中的位置，該檔案含有叢集節點使用的萬用字元憑證和私密金鑰。
dataproc	kerberos.kms.key.uri	`KMS key URI`	用於解密根密碼的 KMS 金鑰 URI，例如 `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (請參閱「金鑰資源 ID」)。
dataproc	kerberos.root.principal.password.uri	`gs://<dir-path>`	Kerberos 根主體 KMS 加密密碼的 Cloud Storage 位置。
dataproc	kerberos.tgt.lifetime.hours	`hours`	票證授權票證的最長生命週期。
dataproc	kerberos.truststore.password.uri	`gs://<dir-path>`	KMS 加密檔案在 Cloud Storage 中的位置，該檔案含有信任儲存庫檔案的密碼。
dataproc	kerberos.truststore.uri²	`gs://<dir-path>`	KMS 加密信任儲存庫檔案的 Cloud Storage 位置，該檔案含有受信任的憑證。
dataproc	pip.packages	Pip 套件	這項屬性會採用以逗號分隔的 Pip 套件清單 (含特定版本)，並安裝在 `base` Conda 環境中。詳情請參閱「Conda 相關叢集屬性」。(預設值：`empty`)。
dataproc	ranger.kms.key.uri	`KMS key URI`	用於解密 Ranger 管理員使用者密碼的 KMS 金鑰 URI，例如 `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (請參閱「金鑰資源 ID」)。
dataproc	ranger.admin.password.uri	`gs://<dir-path>`	Cloud Storage 中 Ranger 管理員使用者 KMS 加密密碼的位置。
dataproc	ranger.db.admin.password.uri	`gs://<dir-path>`	Ranger 資料庫管理員使用者 KMS 加密密碼的 Cloud Storage 位置。
dataproc	ranger.cloud-sql.instance.connection.name	`cloud sql instance connection name`	Cloud SQL 執行個體的連線名稱，例如 `project-id:region:name.`
dataproc	ranger.cloud-sql.root.password.uri	`gs://<dir-path>`	Cloud SQL 執行個體超級使用者密碼的 Cloud Storage 位置 (已透過 KMS 加密)。
dataproc	ranger.cloud-sql.use-private-ip	`true`或`false`	叢集執行個體與 Cloud SQL 執行個體之間的通訊是否應透過私人 IP 進行 (預設值為 `false`)。
dataproc	solr.gcs.path	`gs://<dir-path>`	做為 Solr 主目錄的 Cloud Storage 路徑。
dataproc	startup.component.service-binding-timeout.hadoop-hdfs-namenode	`seconds`	Dataproc 啟動指令碼會等待 hadoop-hdfs-namenode 繫結至連接埠的時間長度，之後才會判定啟動成功。可辨識的最大值為 1800 秒 (30 分鐘)。
dataproc	startup.component.service-binding-timeout.hive-metastore	`seconds`	Dataproc 啟動指令碼會等待 Hive Metastore 服務繫結至連接埠的時間長度，之後會判定啟動是否成功。可辨識的最大值為 1800 秒 (30 分鐘)。
dataproc	startup.component.service-binding-timeout.hive-server2	`seconds`	Dataproc 啟動指令碼會等待 hive-server2 繫結至連接埠的時間長度，之後才會判定啟動成功。可辨識的最大值為 1800 秒 (30 分鐘)。
dataproc	user-attribution.enabled	`true`或`false`	將此屬性設為 `true`，即可將 Dataproc 工作歸因於提交該工作的使用者身分 (預設值為 `false`)。
dataproc	yarn.docker.enable	`true`或`false`	設為 `true` 即可啟用 Dataproc Docker on YARN 功能 (預設值為 `false`)。
dataproc	yarn.docker.image	`docker image`	啟用 Dataproc Docker on YARN 功能 (`dataproc:yarn.docker.enable=true`) 時，您可以使用這個選用屬性指定 Docker 映像檔 (例如 `dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1`)。如果指定，系統會在建立叢集期間，將映像檔下載並快取至叢集的所有節點。
dataproc	yarn.log-aggregation.enabled	`true`或`false`	允許 (`true`) 啟用 YARN 記錄檔匯總功能，將記錄檔匯總至叢集的 `temp bucket`。值區名稱的格式如下：`dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>`。(預設值：映像檔版本 1.5 以上為 `true`)。注意：刪除叢集時，系統不會刪除叢集的暫時值區。使用者也可以覆寫 `yarn.nodemanager.remote-app-log-dir` YARN 屬性，設定匯總 YARN 記錄的位置。
knox	gateway.host	`ip address`	為降低透過不安全的 Notebook 伺服器 API 執行遠端程式碼的風險，映像檔版本 1.3 以上的預設設定為 `127.0.0.1`，啟用元件閘道時，系統會將連線限制為 `localhost`。您可以覆寫預設設定，例如將這項屬性設為 `0.0.0.0`，允許所有連線。
齊柏林飛船	zeppelin.notebook.gcs.dir	`gs://<dir-path>`	儲存 Zeppelin 筆記本的 Cloud Storage 位置。
齊柏林飛船	zeppelin.server.addr	`ip address`	為降低透過不安全的 Notebook 伺服器 API 執行遠端程式碼的風險，映像檔版本 1.3 以上的預設設定為 `127.0.0.1`，這會限制連線至 `localhost` (啟用元件閘道時)。您可以覆寫這項預設設定，例如將這項屬性設為 `0.0.0.0`，允許所有連線。

¹ 金鑰儲存區檔案：金鑰儲存區檔案包含 SSL 憑證。檔案應採用 Java KeyStore (JKS) 格式。複製到 VM 時，會重新命名為 keystore.jks。 SSL 憑證應為適用於叢集中每個節點的萬用字元憑證。

²信任儲存庫檔案：信任儲存庫檔案應採用 Java KeyStore (JKS) 格式。複製到 VM 時，會重新命名為 truststore.jks。

叢集屬性 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

Apache Hadoop YARN、HDFS、Spark 和相關屬性

格式設定

範例

gcloud 指令

REST API

控制台

叢集與工作屬性

以檔案為前置字元的屬性資料表

Dataproc 服務屬性

格式設定

Dataproc 服務屬性資料表

叢集屬性