このページは Cloud Translation API によって翻訳されました。

クラスタプロパティ

Apache Hadoop YARN、HDFS、Spark、関連プロパティ

Dataproc クラスタにインストールされるオープンソースコンポーネントには、多くの構成ファイルが含まれます。たとえば、Apache Spark と Apache Hadoop には XML と書式なしテキストの構成ファイルがいくつか含まれています。gcloud dataproc clusters create コマンドの ‑‑properties フラグを使用すると、クラスタの作成時に、多くの一般的な構成ファイルを変更できます。

書式設定

gcloud dataproc clusters create --properties フラグには、次の文字列形式を指定できます。

file_prefix1:property1=value1,file_prefix2:property2=value2,...

file_prefix は、次の表に示す定義済みの構成ファイルにマッピングされ、property はファイル内のプロパティにマッピングされます。
複数のクラスタプロパティを区切るために使用されるデフォルトの区切り文字はカンマ（,）です。ただし、プロパティ値にカンマが含まれている場合は、プロパティリストの先頭に区切り文字「^delimiter^」を指定して区切り文字を変更する必要があります（gcloud トピックのエスケープをご覧ください）。
- 「#」区切り文字の使用例
```
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
```

例

gcloud コマンド

spark-defaults.conf ファイルの spark.master 設定を変更するには、次の gcloud dataproc clusters create --properties フラグを追加します。

--properties 'spark:spark.master=spark://example.com'

1 つ以上の構成ファイルで複数のプロパティを一度に変更する場合は、区切り文字としてカンマを使用します。各プロパティは完全な file_prefix:property=value 形式で指定する必要があります。たとえば、spark-defaults.conf ファイルの spark.master 設定と hdfs-site.xml ファイルの dfs.hosts 設定を変更するには、クラスタの作成時に次の --properties フラグを使用します。

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

REST API

spark.executor.memory を 10g に設定するには、clusters.create リクエストの SoftwareConfig セクションに次の properties 設定を挿入します。

"properties": {
  "spark:spark.executor.memory": "10g"
}

Dataproc API クラスタの REST リクエストの JSON 本文を簡単に調べて作成するには、--log-http フラグを使用して同等の gcloud コマンドを開始します。次に示すのは、gcloud dataproc clusters create コマンドのサンプルです。このコマンドは、クラスタプロパティを --properties spark:spark.executor.memory=10g フラグを使用して設定します。 stdout ログは、この結果生成される REST リクエストの本文を示します（properties スニペットを以下に示します）。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

出力:

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

...
== body end ==
...

コマンドを有効にしたくない場合は、出力に JSON 本文が表示された後にコマンドをキャンセルしてください。

Console

spark-defaults.conf ファイルの spark.master 設定を変更するには:

Google Cloud コンソールで、Dataproc の [クラスタの作成] ページを開きます。[クラスタのカスタマイズ] パネルをクリックし、[クラスタプロパティ] セクションまでスクロールします。
[+ プロパティを追加] をクリックします。 [プレフィックス] リストで [spark] を選択し、[キー] フィールドに「spark.master」と入力し、[値] フィールドに設定を追加します。

クラスタプロパティとジョブプロパティの比較

Apache Hadoop YARN、HDFS、Spark などのファイル接頭辞が付いたプロパティは、クラスタの作成時にクラスタレベルで適用されます。これらのプロパティは、クラスタの作成後にクラスタに適用できません。ただし、これらのプロパティの多くは特定のジョブにも適用できます。ジョブにプロパティを適用する場合、ファイル接頭辞は使用されません。

次の例では、Spark ジョブの Spark エグゼキュータのメモリを 4G に設定します（spark: 接頭辞は省略）。

gcloud dataproc jobs submit spark \
    --region=REGION \
    --properties=spark.executor.memory=4g \
    other args ...

ジョブのプロパティは、gcloud dataproc jobs submit job-type --properties-file フラグを使用してファイルで送信できます（たとえば、Hadoop ジョブの送信についての --properties-file の説明をご覧ください）。

gcloud dataproc jobs submit JOB_TYPE \
    --region=REGION \
    --properties-file=PROPERTIES_FILE \
    other args ...

PROPERTIES_FILE は、行区切りの key=value ペアのセットです。設定するプロパティは key で、プロパティに設定する値は value です。プロパティファイル形式の詳細については、java.util.Properties クラスをご覧ください。

以下は、Dataproc ジョブの送信時に --properties-file フラグに渡すことができるプロパティファイルの例です。

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

ファイルプレフィックス付きのプロパティテーブル

ファイル接頭辞	ファイル	ファイルの目的
capacity-scheduler	capacity-scheduler.xml	Hadoop YARN キャパシティスケジューラの構成
core	core-site.xml	Hadoop 全般構成
distcp	distcp-default.xml	Hadoop 分散コピー構成
flink	flink-conf.yaml	Flink 構成
flink-log4j	log4j.properties	Log4j 設定ファイル
hadoop-env	hadoop-env.sh	Hadoop 固有の環境変数
hadoop-log4j	log4j.properties	Log4j 設定ファイル
hbase	hbase-site.xml	HBase の構成
hbase-log4j	log4j.properties	Log4j 設定ファイル
hdfs	hdfs-site.xml	Hadoop HDFS 構成
hive	hive-site.xml	Hive 構成
hive-log4j2	hive-log4j2.properties	Log4j 設定ファイル
hudi	hudi-default.conf	Hudi の構成
mapred	mapred-site.xml	Hadoop MapReduce 構成
mapred-env	mapred-env.sh	Hadoop MapReduce 固有の環境変数
pig	pig.properties	Pig 構成
pig-log4j	log4j.properties	Log4j 設定ファイル
presto	config.properties	Presto 構成
presto-jvm	jvm.config	Presto 固有の JVM 構成
spark	spark-defaults.conf	Spark 構成
spark-env	spark-env.sh	Spark 固有の環境変数
spark-log4j	log4j.properties	Log4j 設定ファイル
tez	tez-site.xml	Tez の構成
webcat-log4j	webhcat-log4j2.properties	Log4j 設定ファイル
yarn	yarn-site.xml	Hadoop YARN 構成
yarn-env	yarn-env.sh	Hadoop YARN 固有の環境変数
zeppelin	zeppelin-site.xml	Zeppelin の構成
zeppelin-env	zeppelin-env.sh	Zeppelin 固有の環境変数（オプションコンポーネントのみ）
zeppelin-log4j	log4j.properties	Log4j 設定ファイル
zookeeper	zoo.cfg	Zookeeper の構成
zookeeper-log4j	log4j.properties	Log4j 設定ファイル

注

一部のプロパティは予約され、Dataproc クラスタの機能に影響するため、上書きすることはできません。予約済みのプロパティを変更しようとすると、クラスタを作成するときにエラーメッセージが表示されます。
複数の変更を指定する場合は、各変更をカンマで区切ります。
--properties フラグでは、上記以外の構成ファイルは変更できません。
プロパティの変更は、クラスタに対するデーモンが起動する前に適用されます。
指定したプロパティが存在する場合は、そのプロパティが更新されます。指定したプロパティが存在しない場合は、そのプロパティが構成ファイルに追加されます。

Dataproc サービスのプロパティ

このセクションで示すプロパティは Dataproc に固有のものです。これらのプロパティは、Dataproc クラスタの機能をさらに構成するのに使用できます。

書式設定

gcloud dataproc clusters create --properties フラグには、次の文字列形式を指定できます。

property_prefix1:property1=value1,property_prefix2:property2=value2,...

複数のクラスタプロパティを区切るために使用されるデフォルトの区切り文字はカンマ（,）です。ただし、プロパティ値にカンマが含まれている場合は、プロパティリストの先頭に区切り文字「^delimiter^」を指定して区切り文字を変更する必要があります（gcloud トピックのエスケープをご覧ください）。
- 「#」区切り文字の使用例
```
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
```

例:

クラスタを作成して Spark プライマリワーカーのシャッフルに [高度な柔軟性モード] を設定します。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    other args ...

Dataproc サービスのプロパティテーブル

プロパティの接頭辞	プロパティ	値	説明
dataproc	agent.process.threads.job.min	`number`	Dataproc は、スレッドプール内でユーザージョブドライバを同時に実行します。このプロパティは、ジョブが実行されていなくても、高速起動のスレッドプールの最小スレッド数を制御します（デフォルトは 10）。
dataproc	agent.process.threads.job.max	`number`	Dataproc は、スレッドプール内でユーザージョブドライバを同時に実行します。このプロパティはスレッドプール内の最大スレッド数を制御します。ユーザージョブの最大同時実行数はこの数までに制限されます。同時実行数を大きくするにはこの値を増やします（デフォルト: 100）。
dataproc	am.primary_only	`true` または `false`	このプロパティを`true`に設定すると、Dataproc クラスタのリエンプティブルワーカーでアプリケーションマスターが実行されなくなります。注: この機能は Dataproc 1.2 以降でのみ使用できます。デフォルト値は `false` です。
dataproc	conda.env.config.uri	`gs://<path>`	Conda 環境構成ファイルの Cloud Storage 内の場所。このファイルに基づいて新しい Conda 環境が作成され、有効化されます。詳細については、Conda 関連のクラスタプロパティの使用をご覧ください。（デフォルト: `empty`）
dataproc	conda.packages	Conda packages	このプロパティには、`base` Conda 環境にインストールされる、カンマで区切られた特定バージョンConda パッケージのリストを指定します。詳細については、Conda 関連のクラスタプロパティの使用をご覧ください。（デフォルト: `empty`）
dataproc	dataproc.allow.zero.workers	`true` または `false`	Dataproc `clusters.create` API リクエストで、この SoftwareConfig プロパティを `true` に設定して、単一ノードクラスタを作成します。これにより、ワーカーのデフォルト数が 2 から 0 に変更され、ワーカーコンポーネントがマスターホストに配置されます。単一ノードクラスタは、Google Cloud コンソールまたは Google Cloud CLI を使用して作成することもでき、その際ワーカー数を `0` に設定します。
dataproc	dataproc.alpha.master.nvdimm.size.gb	1500-6500	値を設定すると、Intel Optane DC Persistent Memory を使用して Dataproc マスターが作成されます。注: Optane VM は`us-central1-f`ゾーン、`n1-highmem-96-aep`マシンタイプ、ホワイトリスト登録済みプロジェクトでのみ作成できます。
dataproc:	dataproc.alpha.worker.nvdimm.size.gb	1500-6500	値を設定すると、Intel Optane DC Persistent Memory を使用して Dataproc ワーカーが作成されます。注: Optane VM は`us-central1-f`ゾーン、`n1-highmem-96-aep`マシンタイプ、ホワイトリスト登録済みプロジェクトでのみ作成できます。
dataproc:	dataproc.await-new-workers-service-registration	`true` または `false`	このプロパティは、イメージ 2.0.49+ で使用できます。デフォルト値は `false` です。このプロパティを `true` に設定すると、クラスタの作成時またはスケールアップ中に、新しいプライマリワーカーが HDFS NameNode や YARN ResourceManager などのサービスリーダーを登録するのを待ちます（HDFS と YARN サービスのみがモニタリングされます）。`true` に設定すると、新しいワーカーがサービスに登録できなかった場合、ワーカーに `FAILED` ステータスが割り当てられます。クラスタがスケールアップされている場合、障害が発生したワーカーは削除されます。クラスタが作成中の場合、`gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE` フラグまたは API `actionOnFailedPrimaryWorkers=DELETE` フィールドが `gcloud` コマンドまたは API クラスタ作成リクエストの一部として指定されていれば、失敗したワーカーは削除されます。
dataproc:	dataproc.beta.secure.multi-tenancy.user.mapping	`user-to-service account mappings`	このプロパティには、ユーザーアカウントとサービスアカウントのマッピングのリストが入ります。マッピングされたユーザーは、独立したユーザー ID を使用してインタラクティブなワークロードをクラスタに送信できます（Dataproc サービスアカウントベースの安全なマルチテナンシーをご覧ください）。
dataproc:	dataproc.cluster.caching.enabled	`true` または `false`	クラスタキャッシュが有効になっている場合、クラスタは Spark ジョブによってアクセスされる Cloud Storage データをキャッシュに保存するため、整合性を損なうことなくジョブのパフォーマンスが向上します。（デフォルト: `false`）
dataproc	dataproc.cluster-ttl.consider-yarn-activity	`true` または `false`	`true` に設定すると、クラスタのアイドル時間を計算する際に、クラスタのスケジュール設定された削除で YARN と Dataproc Jobs API の両方のアクティビティが考慮されます。`false` に設定すると、Dataproc Jobs API アクティビティのみが考慮されます。（デフォルト: `true`）。詳細については、クラスタのアイドル時間の計算をご覧ください。
dataproc	dataproc.conscrypt.provider.enable	`true` または `false`	Conscrypt をプライマリ Java セキュリティプロバイダとして有効（`true`）または無効（`false`）にします。注: Conscrypt は、Dataproc 1.2 以降ではデフォルトで有効になっていますが、1.0 / 1.1 では無効になっています。
dataproc	dataproc.cooperative.multi-tenancy.user.mapping	`user-to-service account mappings`	このプロパティは、ユーザーアカウントとサービスアカウントのカンマ区切りのマッピングのリストを取得します。このプロパティセットでクラスタを作成した場合、ユーザーがジョブを送信すると、クラスタは Cloud Storage コネクタを介して Cloud Storage にアクセスする際に、対応するサービスアカウントの権限を借用しようとします。この機能を使用するには、Cloud Storage コネクタのバージョン `2.1.4` 以降が必要です。詳細については、Dataproc 協調型マルチテナンシーをご覧ください。（デフォルト: `empty`）
dataproc	dataproc.control.max.assigned.job.tasks	`100`	このプロパティは、クラスタマスターノードで同時に実行できるタスクの数を制限します。アクティブなタスク数がタスクの上限を超えると、実行中のジョブが完了し、リソースが解放されて新しいタスクのスケジュールが可能になるまで、新しいジョブはキューに登録されます。注: マスターノードでメモリ不足が発生する可能性があるため、デフォルトのタスク上限を `100`（デフォルト）を超えて設定することはおすすめしません。
dataproc	dataproc:hudi.version	Hudi のバージョン	オプションの Dataproc Hudi コンポーネントで使用される Hudi のバージョンを設定します。注: このバージョンは、クラスタイメージバージョンとの互換性を確保するために Dataproc によって設定されます。ユーザーが設定した場合、指定したバージョンがクラスタイメージと互換性がない場合にはクラスタの作成に失敗することがあります。
dataproc	dataproc.lineage.enabled	`true`	Spark ジョブ用に Dataproc クラスタでデータリネージを有効にします。
dataproc	dataproc.localssd.mount.enable	`true` または `false`	ローカル SSD を Hadoop / Spark 一時ディレクトリおよび HDFS データディレクトリとしてマウントするかどうか（デフォルト: `true`）。
dataproc	dataproc.logging.extended.enabled	`true` または `false`	knox、zeppelin、solr、trino、presto、ranger-usersync、jupyter_notebook、spark-history-server の Cloud Logging でのログを有効（`true`）または無効（`false`）にします（デフォルト: `false`）。詳細については、Logging の Dataproc クラスタログをご覧ください。
dataproc	dataproc.logging.stackdriver.enable	`true` または `false`	Cloud Logging を有効（`true`）または無効（`false`）にします（デフォルト: `true`）。関連する料金については、Cloud Logging の料金をご覧ください。
dataproc	dataproc.logging.stackdriver.job.driver.enable	`true` または `false`	Cloud Logging の Dataproc ジョブドライバログを有効（`true`）または無効（`false`）にします。Dataproc ジョブの出力とログ（デフォルト: `false`）をご覧ください。
dataproc	dataproc.logging.stackdriver.job.yarn.container.enable	`true` または `false`	Cloud Logging の YARN コンテナログを有効（`true`）または無効（`false`）にします。Spark ジョブの出力オプションをご覧ください。（デフォルト: `false`）
dataproc	dataproc.logging.syslog.enabled	`true` または `false`	Cloud Logging で VM syslog を有効（`true`）または無効（`false`）にします（デフォルト: `false`）。
dataproc	dataproc.master.custom.init.actions.mode	`RUN_BEFORE_SERVICES` または `RUN_AFTER_SERVICES`	2.0 以降のイメージクラスタの場合は、`RUN_AFTER_SERVICES` に設定すると、マスターでの初期化アクションは、HDFS と HDFS に依存するサービスが初期化された後に実行されます。HDFS に依存するサービスの例としては、HBase、Hive Server2、Ranger、Solr、Spark と MapReduce 履歴サーバーなどがあります。(デフォルト: `RUN_BEFORE_SERVICES`).
dataproc	dataproc.monitoring.stackdriver.enable	`true` または `false`	Monitoring エージェントを有効（`true`）または無効（`false`）にします（デフォルト: `false`）。このプロパティは非推奨になりました。Monitoring で Dataproc カスタム指標コレクションの収集を有効にするには、OSS 指標の収集を有効にするをご覧ください。
dataproc	dataproc.scheduler.driver-size-mb	`number`	あるクラスタが実行する同時実行ジョブの最大数を決定する平均ドライバメモリフットプリント。デフォルト値は `1` GB です。Spark ジョブでは、`256` などのより小さな値が適切な場合があります。
dataproc	dataproc.scheduler.job-submission-rate	`number`	このレートを超えると、ジョブがスロットリングされます。デフォルトのレートは `1.0` QPS です。
dataproc	dataproc.scheduler.max-concurrent-jobs	`number`	同時実行ジョブの最大数。クラスタの作成時にこの値が設定されていない場合、同時ジョブの上限は `max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5)` として計算されます。`masterMemoryMb` は、マスター VM のマシンタイプによって決まります。`masterMemoryMbPerJob` はデフォルトで `1024` ですが、クラスタの作成時に `dataproc:dataproc.scheduler.driver-size-mb` クラスタプロパティで構成できます。
dataproc	dataproc.scheduler.max-memory-used	`number`	使用できる RAM の最大容量。現在の使用量がこのしきい値を超えると、新しいジョブのスケジュールを設定できません。デフォルトは `0.9`（90%）です。`1.0` に設定すると、master-memory-utilization ジョブスロットリングが無効になります。
dataproc	dataproc.scheduler.min-free-memory.mb	`number`	Dataproc ジョブドライバがクラスタ上の別のジョブのスケジュールを設定するために必要とする最小空きメモリ（MB 単位）。デフォルトは `256` MB です。
dataproc	dataproc.snap.enabled	`true` または `false`	Ubuntu スナップデーモンを有効または無効にします。デフォルト値は `true` です。`false` に設定した場合、イメージにプリインストールされている Snap パッケージは影響を受けませんが、自動更新は無効になります。1.4.71、1.5.46、2.0.20 以降の Ubuntu イメージに適用されます。
dataproc	dataproc.worker.custom.init.actions.mode	`RUN_BEFORE_SERVICES`	2.0 より前のイメージのクラスタの場合、RUN_BEFORE_SERVICES は設定されませんが、クラスタの作成時にユーザーが設定できます。2.0 以降のイメージのクラスタの場合、RUN_BEFORE_SERVICES が設定され、そのプロパティはクラスタに渡せません（ユーザーはそれを変更できません）。この設定の影響については、初期化アクション - 重要な考慮事項とガイドラインをご覧ください。
dataproc	dataproc.yarn.orphaned-app-termination.enable	`true` または `false`	デフォルト値は `true` です。`false` に設定して、Dataproc が「孤立した」YARN アプリを終了しないようにします。Dataproc は、YARN アプリを送信したジョブドライバが終了した場合、YARN アプリが孤立しているとみなします。警告: Spark クラスタモード（`spark.submit.deployMode=cluster`）を使用していて、`spark.yarn.submit.waitAppCompletion=false` を設定すると、Spark ドライバは YARN アプリの完了を待たずに終了します。この場合は、`dataproc:dataproc.yarn.orphaned-app-termination.enable=false` を設定します。Hive ジョブを送信する場合は、このプロパティも `false` に設定します。
dataproc	diagnostic.capture.enabled	`true` または `false`	クラスタのチェックポイント診断データの収集を有効にします。（デフォルト: `false`）
dataproc	diagnostic.capture.access	`GOOGLE_DATAPROC_DIAGNOSE`	`GOOGLE_DATAPROC_DIAGNOSE` に設定すると、Cloud Storage に保存されているクラスタのチェックポイント診断データが Dataproc サポートと共有されます。（デフォルト: 未設定）。
dataproc	efm.spark.shuffle	`primary-worker`	`primary-worker` に設定した場合、Spark シャッフルデータはプライマリワーカーに書き込まれます。詳細については、Dataproc の高度な柔軟性モードをご覧ください。
dataproc	job.history.to-gcs.enabled	`true` または `false`	MapReduce と Spark の履歴ファイルを Dataproc の一時バケットで永続化することを許可します（イメージバージョン 1.5 以降の場合のデフォルト: `true`）。ジョブ履歴ファイルの永続化の場所は、`mapreduce.jobhistory.done-dir`、`mapreduce.jobhistory.intermediate-done-dir`、`spark.eventLog.dir`、`spark.history.fs.logDirectory` のプロパティから上書きできます。上述のプロパティおよび Dataproc ジョブ履歴ファイルとイベントファイルに関連するその他のクラスタプロパティについては、Dataproc の永続履歴サーバーをご覧ください。
dataproc	jobs.file-backed-output.enable	`true` または `false`	Dataproc ジョブが `/var/log/google-dataproc-job` ディレクトリ内の一時ファイルに出力をパイプするように構成します。Cloud Logging でのジョブドライバロギングを有効にするには、`true` に設定する必要があります（デフォルト: `true`）。
dataproc	jupyter.listen.all.interfaces	`true` または `false`	セキュアでないノートブックサーバーの API を介したリモートコード実行のリスクを軽減するため、イメージバージョン 1.3 以上では、デフォルトの設定は `false` になっています。この設定では、コンポーネントゲートウェイが有効な場合、`localhost`（`127.0.0.1`）への接続が制限されます（2.0 以上のイメージではコンポーネントゲートウェイの有効化は必要ありません）。このデフォルト設定は、このプロパティを `true` に設定することでオーバーライドできます。
dataproc	jupyter.notebook.gcs.dir	`gs://<dir-path>`	Jupyter ノートブックを保存する Cloud Storage 内の場所。
dataproc	kerberos.beta.automatic-config.enable	`true` または `false`	`true` に設定すると、ユーザーは `--kerberos-root-principal-password` フラグと `--kerberos-kms-key-uri` フラグを指定して Kerberos ルートプリンシパルのパスワードを指定する必要がなくなります（デフォルト: `false`）。詳細については、Kerberos による Hadoop セキュアモードの有効化をご覧ください。
dataproc	kerberos.cross-realm-trust.admin-server	`hostname/address`	リモート管理サーバーのホスト名 / アドレス（たいてい KDC サーバーと同じ）。
dataproc	kerberos.cross-realm-trust.kdc	`hostname/address`	リモート KDC のホスト名 / アドレス。
dataproc	kerberos.cross-realm-trust.realm	`realm name`	レルム名には大文字の ASCII 文字列を使用できます。通常レルム名は、使用している DNS ドメイン名と同じです（大文字）。例：マシンの名前が「`machine-id`.example.west-coast.mycompany.com」の場合、それに対応するレルムは「EXAMPLE.WEST-COAST.MYCOMPANY.COM」と指定します。
dataproc	kerberos.cross-realm-trust.shared-password.uri	`gs://<dir-path>`	KMS 暗号化共有パスワードの Cloud Storage 内の場所。
dataproc	kerberos.kdc.db.key.uri	`gs://<dir-path>`	KDC データベースマスターキーを含む KMS 暗号化ファイルの Cloud Storage 内の場所。
dataproc	kerberos.key.password.uri	`gs://<dir-path>`	キーストアファイル内のキーのパスワードを含む KMS 暗号化ファイルの Cloud Storage 内の場所。
dataproc	kerberos.keystore.password.uri	`gs://<dir-path>`	キーストアのパスワードを含む KMS 暗号化ファイルの Cloud Storage 内の場所。
dataproc	kerberos.keystore.uri¹	`gs://<dir-path>`	クラスタノードによって使用されるワイルドカード証明書と秘密鍵を含むキーストアファイルの Cloud Storage 内の場所。
dataproc	kerberos.kms.key.uri	`KMS key URI`	root パスワードの復号に使用される KMS 鍵の URI。たとえば、`projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key`（鍵のリソース ID をご覧ください）。
dataproc	kerberos.root.principal.password.uri	`gs://<dir-path>`	Kerberos root プリンシパルの KMS 暗号化パスワードの Cloud Storage 内の場所。
dataproc	kerberos.tgt.lifetime.hours	`hours`	チケットを付与するチケットの最大存続時間。
dataproc	kerberos.truststore.password.uri	`gs://<dir-path>`	トラストストアファイルに対するパスワードを含む KMS 暗号化ファイルの Cloud Storage 内の場所。
dataproc	kerberos.truststore.uri²	`gs://<dir-path>`	信頼された証明書を含む KMS 暗号化トラストストアファイルの Cloud Storage 内の場所。
dataproc	pip.packages	Pip パッケージ	このプロパティは、`base` Conda 環境にインストールされる特定のバージョンの、カンマ区切りの Pip パッケージのリストを受け取ります。詳細については、Conda 関連のクラスタプロパティをご覧ください。（デフォルト: `empty`）
dataproc	ranger.kms.key.uri	`KMS key URI`	Ranger 管理者のユーザーパスワードの復号に使用される KMS 鍵の URI。たとえば、`projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key`（鍵のリソース ID をご覧ください）。
dataproc	ranger.admin.password.uri	`gs://<dir-path>`	Ranger 管理者の KMS 暗号化パスワードが存在する Cloud Storage 内の場所。
dataproc	ranger.db.admin.password.uri	`gs://<dir-path>`	Ranger データベース管理者の KMS 暗号化パスワードが存在する Cloud Storage 内の場所。
dataproc	ranger.cloud-sql.instance.connection.name	`cloud sql instance connection name`	Cloud SQL インスタンスの接続名（例: `project-id:region:name.`）
dataproc	ranger.cloud-sql.root.password.uri	`gs://<dir-path>`	Cloud SQL インスタンスの root ユーザーの KMS 暗号化パスワードが存在するCloud Storage 内の場所。
dataproc	ranger.cloud-sql.use-private-ip	`true` または `false`	クラスタインスタンスと Cloud SQL インスタンス間の通信にプライベート IP を使用するかどうか（デフォルト値は `false`）。
dataproc	solr.gcs.path	`gs://<dir-path>`	Solr のホームディレクトリとして機能する Cloud Storage パス。
dataproc	startup.component.service-binding-timeout.hadoop-hdfs-namenode	`seconds`	hadoop-hdfs-namenode がポートにバインドされ起動が成功したと判断できるまで、Dataproc 起動スクリプトが待機する時間。認識される最大値は 1,800 秒（30 分）です。
dataproc	startup.component.service-binding-timeout.hive-metastore	`seconds`	hive-metastore service がポートにバインドされ起動が成功したと判断できるまで、Dataproc 起動スクリプトが待機する時間。認識される最大値は 1,800 秒（30 分）です。
dataproc	startup.component.service-binding-timeout.hive-server2	`seconds`	hive-server2 がポートにバインドされ起動が成功したと判断できるまで、Dataproc 起動スクリプトが待機する時間。認識される最大値は 1,800 秒（30 分）です。
dataproc	user-attribution.enabled	`true` または `false`	このプロパティを `true` に設定すると、Dataproc ジョブを送信したユーザーの ID に帰属させます（デフォルト値は `false`）。
dataproc	yarn.docker.enable	`true` または `false`	Dataproc の機能 Docker on YARN を有効にするには、`true` に設定します（デフォルト値は `false`）。
dataproc	yarn.docker.image	`docker image`	Dataproc の機能 Docker on YARN（`dataproc:yarn.docker.enable=true`）を有効にする場合は、このオプションのプロパティを使用して Docker イメージ（`dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1` など）を指定できます。指定すると、イメージは、クラスタの作成時にクラスタのすべてのノードにダウンロードされ、キャッシュに保存されます。
dataproc	yarn.log-aggregation.enabled	`true` または `false`	クラスタの `temp bucket` への YARN ログ集計を有効にするのを許可（`true`）します。バケット名の形式は `dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>` です。（イメージバージョン 1.5 以降の場合のデフォルト: `true`）。注: クラスタを削除しても、クラスタの一時バケットは削除されません。また、`yarn.nodemanager.remote-app-log-dir` YARN プロパティを上書きすることで、集計された YARN ログの場所を設定することもできます。
knox	gateway.host	`ip address`	セキュリティで保護されていないノートブックサーバー API を介したリモートコード実行のリスクを軽減するため、イメージバージョン 1.3 以降のデフォルト設定は `127.0.0.1` となっています。この設定は、コンポーネントゲートウェイが有効となっている時に、`localhost` への接続を制限します。デフォルトの設定は、たとえばこのプロパティを `0.0.0.0` に設定してすべての接続を許可することで、オーバーライドできます。
zeppelin	zeppelin.notebook.gcs.dir	`gs://<dir-path>`	Zeppelin ノートブックを保存する Cloud Storage 内の場所。
zeppelin	zeppelin.server.addr	`ip address`	セキュリティで保護されていないノートブックサーバー API を介したリモートコード実行のリスクを軽減するため、イメージバージョン 1.3 以降のデフォルト設定は `127.0.0.1` となっています。この設定は、コンポーネントゲートウェイが有効となっている時に、`localhost` への接続を制限します。デフォルトの設定は、たとえばこのプロパティを `0.0.0.0` に設定してすべての接続を許可することで、オーバーライドできます。

¹キーストアファイル: キーストアファイルには SSL 証明書が含まれています。ファイルの形式は Java KeyStore（JKS）です。VM にコピーされるときに、このファイルの名前は keystore.jks に変更されます。SSL 証明書は、クラスタ内の各ノードに適用されるワイルドカード証明書です。

²トラストストアファイル: トラストストアファイルの形式は Java KeyStore（JKS）です。VM にコピーされるときに、このファイルの名前は truststore.jks に変更されます。

クラスタ プロパティ

Apache Hadoop YARN、HDFS、Spark、関連プロパティ

書式設定

例

gcloud コマンド

REST API

Console

クラスタ プロパティとジョブ プロパティの比較

ファイル プレフィックス付きのプロパティ テーブル

Dataproc サービスのプロパティ

書式設定

Dataproc サービスのプロパティ テーブル

クラスタプロパティ

クラスタプロパティとジョブプロパティの比較

ファイルプレフィックス付きのプロパティテーブル

Dataproc サービスのプロパティテーブル