Apache Hadoop YARN、HDFS、Spark、関連プロパティ
Dataproc クラスタにインストールされているオープンソース コンポーネントには、数多くの構成ファイルが含まれています。たとえば、Apache Spark と Apache Hadoop には XML と書式なしテキストの構成ファイルがいくつか含まれています。gcloud dataproc clusters create コマンドの ‑‑properties フラグを使用すると、クラスタの作成時に、多くの一般的な構成ファイルを変更できます。
書式設定
gcloud dataproc clusters create --properties フラグには、次の文字列形式を指定できます。
file_prefix1:property1=value1,file_prefix2:property2=value2,...
- file_prefix は、次の表に示す定義済みの構成ファイルにマッピングされ、property はファイル内のプロパティにマッピングされます。 
- 複数のクラスタ プロパティを区切るために使用されるデフォルトの区切り文字はカンマ(,)です。ただし、プロパティ値にカンマが含まれている場合は、プロパティ リストの先頭に区切り文字「^delimiter^」を指定して区切り文字を変更する必要があります(gcloud トピックのエスケープをご覧ください)。 - 「#」区切り文字の使用例--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2 
 
- 「#」区切り文字の使用例
例
gcloud コマンド
spark-defaults.conf ファイルの spark.master 設定を変更するには、次の gcloud dataproc clusters create --properties フラグを追加します。
--properties 'spark:spark.master=spark://example.com'
1 つ以上の構成ファイルで複数のプロパティを一度に変更する場合は、区切り文字としてカンマを使用します。各プロパティは完全な file_prefix:property=value 形式で指定する必要があります。たとえば、spark-defaults.conf ファイルの spark.master 設定と hdfs-site.xml ファイルの dfs.hosts 設定を変更するには、クラスタの作成時に次の --properties フラグを使用します。
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'
REST API
spark.executor.memory を 10g に設定するには、clusters.create リクエストの SoftwareConfig セクションに次の properties 設定を挿入します。
"properties": {
  "spark:spark.executor.memory": "10g"
}
Dataproc API クラスタの REST リクエストの JSON 本文を簡単に調べて作成するには、--log-http フラグを使用して同等の gcloud コマンドを開始します。次に示すのは、gcloud dataproc clusters create コマンドのサンプルです。このコマンドは、クラスタ プロパティを --properties spark:spark.executor.memory=10g フラグを使用して設定します。stdout ログは、この結果生成される REST リクエストの本文を示します(properties スニペットを以下に示します)。
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=spark:spark.executor.memory=10g \ --log-http \ other args ...
出力:
...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},
...
== body end ==
...
コマンドを有効にしたくない場合は、出力に JSON 本文が表示された後にコマンドをキャンセルしてください。
コンソール
spark-defaults.conf ファイルの spark.master 設定を変更するには:
- Google Cloud コンソールで、Dataproc の [クラスタの作成] ページを開きます。[クラスタのカスタマイズ] パネルをクリックし、[クラスタ プロパティ] セクションまでスクロールします。
- [+ プロパティを追加] をクリックします。[接頭辞] リストで [spark] を選択し、[キー] フィールドに「spark.master」と入力して、[値] フィールドに設定を追加します。
クラスタ プロパティとジョブ プロパティの比較
Apache Hadoop YARN、HDFS、Spark などのファイル接頭辞が付いたプロパティは、クラスタの作成時にクラスタレベルで適用されます。これらのプロパティは、クラスタの作成後にクラスタに適用できません。ただし、これらのプロパティの多くは特定のジョブにも適用できます。ジョブにプロパティを適用する場合、ファイル接頭辞は使用されません。
次の例では、Spark ジョブの Spark エグゼキューターのメモリを 4G に設定します(spark: 接頭辞は省略)。
gcloud dataproc jobs submit spark \ --region=REGION \ --properties=spark.executor.memory=4g \ other args ...
ジョブのプロパティは、gcloud dataproc jobs submit job-type --properties-file フラグを使用してファイルで送信できます(たとえば、Hadoop ジョブの送信についての --properties-file の説明をご覧ください)。
gcloud dataproc jobs submit JOB_TYPE \ --region=REGION \ --properties-file=PROPERTIES_FILE \ other args ...
PROPERTIES_FILE は、行区切りの key=value ペアのセットです。設定するプロパティは key で、プロパティに設定する値は value です。プロパティ ファイル形式の詳細については、java.util.Properties クラスをご覧ください。
次の例は、Dataproc ジョブを送信するときに --properties-file フラグに渡すことができるプロパティ ファイルの例です。
dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml spark:spark.history.fs.logDirectory=gs://some-bucket spark:spark.eventLog.dir=gs://some-bucket capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5
ファイル接頭辞付きプロパティのテーブル
| ファイル接頭辞 | ファイル | ファイルの目的 | 
|---|---|---|
| capacity-scheduler | capacity-scheduler.xml | Hadoop YARN キャパシティ スケジューラの構成 | 
| core | core-site.xml | Hadoop 全般構成 | 
| distcp | distcp-default.xml | Hadoop 分散コピー構成 | 
| flink | flink-conf.yaml | Flink 構成 | 
| flink-log4j | log4j.properties | Log4j 設定ファイル | 
| hadoop-env | hadoop-env.sh | Hadoop 固有の環境変数 | 
| hadoop-log4j | log4j.properties | Log4j 設定ファイル | 
| hbase | hbase-site.xml | HBase の構成 | 
| hbase-log4j | log4j.properties | Log4j 設定ファイル | 
| hdfs | hdfs-site.xml | Hadoop HDFS 構成 | 
| hive | hive-site.xml | Hive 構成 | 
| hive-log4j2 | hive-log4j2.properties | Log4j 設定ファイル | 
| hudi | hudi-default.conf | Hudi の構成 | 
| mapred | mapred-site.xml | Hadoop MapReduce 構成 | 
| mapred-env | mapred-env.sh | Hadoop MapReduce 固有の環境変数 | 
| pig | pig.properties | Pig 構成 | 
| pig-log4j | log4j.properties | Log4j 設定ファイル | 
| presto | config.properties | Presto 構成 | 
| presto-jvm | jvm.config | Presto 固有の JVM 構成 | 
| spark | spark-defaults.conf | Spark 構成 | 
| spark-env | spark-env.sh | Spark 固有の環境変数 | 
| spark-log4j | log4j.properties | Log4j 設定ファイル | 
| tez | tez-site.xml | Tez の構成 | 
| webcat-log4j | webhcat-log4j2.properties | Log4j 設定ファイル | 
| yarn | yarn-site.xml | Hadoop YARN 構成 | 
| yarn-env | yarn-env.sh | Hadoop YARN 固有の環境変数 | 
| zeppelin | zeppelin-site.xml | Zeppelin の構成 | 
| zeppelin-env | zeppelin-env.sh | Zeppelin 固有の環境変数(オプション コンポーネントのみ) | 
| zeppelin-log4j | log4j.properties | Log4j 設定ファイル | 
| zookeeper | zoo.cfg | Zookeeper の構成 | 
| zookeeper-log4j | log4j.properties | Log4j 設定ファイル | 
注
- 一部のプロパティは予約され、Dataproc クラスタの機能に影響するため、上書きすることはできません。予約済みのプロパティを変更しようとすると、クラスタを作成するときにエラー メッセージが表示されます。
- 複数の変更を指定する場合は、各変更をカンマで区切ります。
- --propertiesフラグでは、上記以外の構成ファイルは変更できません。
- プロパティの変更は、クラスタに対するデーモンが起動する前に適用されます。
- 指定したプロパティが存在する場合は、そのプロパティが更新されます。指定したプロパティが存在しない場合は、そのプロパティが構成ファイルに追加されます。
Dataproc サービスのプロパティ
このセクションで示すプロパティは Dataproc に固有のものです。これらのプロパティは、Dataproc クラスタの機能をさらに構成するのに使用できます。
書式設定
gcloud dataproc clusters create --properties フラグには、次の文字列形式を指定できます。
property_prefix1:property1=value1,property_prefix2:property2=value2,...
- 複数のクラスタ プロパティを区切るために使用されるデフォルトの区切り文字はカンマ(,)です。ただし、プロパティ値にカンマが含まれている場合は、プロパティ リストの先頭に区切り文字「^delimiter^」を指定して区切り文字を変更する必要があります(gcloud トピックのエスケープをご覧ください)。 - 「#」区切り文字の使用例--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2 
 
- 「#」区切り文字の使用例
例:
クラスタを作成して Spark プライマリ ワーカーのシャッフルに高度な柔軟性モードを設定します。
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=dataproc:efm.spark.shuffle=primary-worker \ other args ...
Dataproc サービス プロパティのテーブル
| プロパティの接頭辞 | プロパティ | 値 | 説明 | 
|---|---|---|---|
| dataproc | agent.process.threads.job.min | number | Dataproc は、スレッドプール内でユーザージョブ ドライバを同時に実行します。このプロパティは、ジョブが実行されていなくても、高速起動のスレッドプールの最小スレッド数を制御します(デフォルトは 10)。 | 
| dataproc | agent.process.threads.job.max | number | Dataproc は、スレッドプール内でユーザージョブ ドライバを同時に実行します。このプロパティはスレッドプール内の最大スレッド数を制御します。ユーザージョブの最大同時実行数はこの数までに制限されます。同時実行数を大きくするには、この値を増やします(デフォルト: 100)。 | 
| dataproc | am.primary_only | trueまたはfalse | このプロパティを trueに設定すると、Dataproc クラスタのリエンプティブル ワーカーでアプリケーション マスターが実行されなくなります。注: この機能は、Dataproc 1.2 以降でのみ使用できます。デフォルト値はfalseです。 | 
| dataproc | conda.env.config.uri | gs://<path> | Conda 環境構成ファイルの Cloud Storage 内の場所。このファイルに基づいて新しい Conda 環境が作成され、有効化されます。詳細については、Conda 関連のクラスタ プロパティの使用をご覧ください。(デフォルト: empty) | 
| dataproc | conda.packages | Conda パッケージ | このプロパティには、 baseConda 環境に特定のバージョンがインストールされる Conda パッケージのカンマ区切りリストを指定します。詳細については、Conda 関連のクラスタ プロパティの使用をご覧ください。(デフォルト:empty) | 
| dataproc | dataproc.allow.zero.workers | trueまたはfalse | Dataproc clusters.createAPI リクエストで、この SoftwareConfig プロパティをtrueに設定して、単一ノードクラスタを作成します。これにより、ワーカーのデフォルト数が 2 から 0 に変更され、ワーカー コンポーネントがマスターホストに配置されます。単一ノードクラスタは、 Google Cloud コンソールまたは Google Cloud CLI を使用して作成することもでき、その際ワーカー数を0に設定します。 | 
| dataproc | dataproc.alpha.master.nvdimm.size.gb | 1500-6500 | 値を設定すると、Intel Optane DC Persistent Memory を使用して Dataproc マスターが作成されます。注: Optane VM は us-central1-fゾーン、n1-highmem-96-aepマシンタイプ、許可リスト登録済みプロジェクトでのみ作成できます。 | 
| dataproc: | dataproc.alpha.worker.nvdimm.size.gb | 1500-6500 | 値を設定すると、Intel Optane DC Persistent Memory を使用して Dataproc ワーカーが作成されます。注: Optane VM は us-central1-fゾーン、n1-highmem-96-aepマシンタイプ、許可リスト登録済みプロジェクトでのみ作成できます。 | 
| dataproc: | dataproc.await-new-workers-service-registration | trueまたはfalse | このプロパティは、イメージ 2.0.49+ で使用できます。デフォルト値は falseです。このプロパティをtrueに設定すると、クラスタの作成時またはスケールアップ中に、新しいプライマリ ワーカーが HDFS NameNode や YARN ResourceManager などのサービス リーダーを登録するのを待ちます(HDFS と YARN サービスのみがモニタリングされます)。trueに設定すると、新しいワーカーがサービスに登録できなかった場合、ワーカーにFAILEDステータスが割り当てられます。クラスタがスケールアップしている場合、失敗したワーカーは削除されます。クラスタが作成中の場合、gcloud dataproc clusters create --action-on-failed-primary-workers=DELETEフラグまたは APIactionOnFailedPrimaryWorkers=DELETEフィールドがgcloudコマンドまたは API クラスタ作成リクエストの一部として指定されていれば、失敗したワーカーは削除されます。 | 
| dataproc: | dataproc.beta.secure.multi-tenancy.user.mapping | user-to-service account mappings | このプロパティには、ユーザー アカウントとサービス アカウントのマッピングのリストが入ります。マッピングされたユーザーは、独立したユーザー ID を使用してインタラクティブなワークロードをクラスタに送信できます(Dataproc サービス アカウント ベースの安全なマルチテナンシーをご覧ください)。 | 
| dataproc: | dataproc.cluster.caching.enabled | trueまたはfalse | クラスタ キャッシュが有効になっている場合、クラスタは Spark ジョブによってアクセスされる Cloud Storage データをキャッシュに保存するため、整合性を損なうことなくジョブのパフォーマンスが向上します。(デフォルト: false) | 
| dataproc | dataproc.cluster-ttl.consider-yarn-activity | trueまたはfalse | trueに設定すると、クラスタのアイドル時間を計算する際に、スケジュールされたクラスタの削除で YARN と Dataproc Jobs API の両方のアクティビティが考慮されます。falseに設定すると、Dataproc Jobs API アクティビティのみが考慮されます。(デフォルト:true)。詳細については、クラスタのアイドル時間の計算をご覧ください。 | 
| dataproc | dataproc.conscrypt.provider.enable | trueまたはfalse | Conscrypt をプライマリ Java セキュリティ プロバイダとして有効( true)または無効(false)にします。注: Conscrypt は、Dataproc 1.2 以降ではデフォルトで有効になっていますが、1.0 / 1.1 では無効になっています。 | 
| dataproc | dataproc.cooperative.multi-tenancy.user.mapping | user-to-service account mappings | このプロパティは、ユーザー アカウントとサービス アカウントのカンマ区切りのマッピングのリストを取得します。このプロパティ セットでクラスタを作成した場合、ユーザーがジョブを送信すると、クラスタは Cloud Storage コネクタを介して Cloud Storage にアクセスする際に、対応するサービス アカウントの権限を借用しようとします。この機能を使用するには、Cloud Storage コネクタのバージョン 2.1.4以降が必要です。詳細については、Dataproc 協調型マルチテナンシーをご覧ください。(デフォルト:empty) | 
| dataproc | dataproc.control.max.assigned.job.tasks | 100 | このプロパティは、クラスタ マスターノードで同時に実行できるタスクの数を制限します。アクティブなタスク数がタスクの上限を超えると、実行中のジョブが完了し、リソースが解放されて新しいタスクのスケジュールが可能になるまで、新しいジョブはキューに登録されます。注: マスターノードでメモリ不足が発生する可能性があるため、デフォルトのタスク上限を 100(デフォルト)を超えて設定することはおすすめしません。 | 
| dataproc | dataproc:hudi.version | Hudi のバージョン | オプションの Dataproc Hudi コンポーネントで使用される Hudi のバージョンを設定します。注: このバージョンは、クラスタ イメージ バージョンとの互換性を確保するために Dataproc によって設定されます。ユーザーが設定した場合、指定したバージョンがクラスタ イメージと互換性がない場合にはクラスタの作成に失敗することがあります。 | 
| dataproc | dataproc.lineage.enabled | true | Spark ジョブの Dataproc クラスタでデータリネージを有効にします。 | 
| dataproc | dataproc.localssd.mount.enable | trueまたはfalse | ローカル SSD を Hadoop / Spark 一時ディレクトリおよび HDFS データ ディレクトリとしてマウントするかどうか(デフォルト: true)。 | 
| dataproc | dataproc.logging.extended.enabled | trueまたはfalse | Cloud Logging で、 knox、zeppelin、ranger-usersync、jupyter_notebook、jupyter_kernel_gateway、spark-history-serverのログを有効(true)または無効(false)にします(デフォルト:true)。詳細については、Logging の Dataproc クラスタログをご覧ください。 | 
| dataproc | dataproc.logging.stackdriver.enable | trueまたはfalse | Cloud Logging を有効( true)または無効(false)にします(デフォルト:true)。関連する料金については、Cloud Logging の料金をご覧ください。 | 
| dataproc | dataproc.logging.stackdriver.job.driver.enable | trueまたはfalse | Cloud Logging の Dataproc ジョブドライバ ログを有効( true)または無効(false)にします。Dataproc ジョブの出力とログ(デフォルト:false)をご覧ください。 | 
| dataproc | dataproc.logging.stackdriver.job.yarn.container.enable | trueまたはfalse | Cloud Logging の YARN コンテナログを有効( true)または無効(false)にします。Spark ジョブの出力オプションをご覧ください。(デフォルト:false) | 
| dataproc | dataproc.logging.syslog.enabled | trueまたはfalse | Cloud Logging の VM Syslog を有効( true)または無効(false)にします(デフォルト:true)。 | 
| dataproc | dataproc.master.custom.init.actions.mode | RUN_BEFORE_SERVICESまたはRUN_AFTER_SERVICES | 2.0 以降のイメージ クラスタの場合、 RUN_AFTER_SERVICESに設定すると、マスターでの初期化アクションは、HDFS と HDFS に依存するサービスが初期化された後に実行されます。HDFS に依存するサービスの例としては、HBase、Hive Server2、Ranger、Solr、Spark と MapReduce 履歴サーバーなどがあります。(デフォルト:RUN_BEFORE_SERVICES) | 
| dataproc | dataproc.monitoring.stackdriver.enable | trueまたはfalse | Monitoring エージェントを有効( true)または無効(false)にします(デフォルト:false)。このプロパティは非推奨になりました。Monitoring で Dataproc カスタム指標コレクションの収集を有効にするには、OSS 指標の収集を有効にするをご覧ください。 | 
| dataproc | dataproc.scheduler.driver-size-mb | number | あるクラスタが実行する同時実行ジョブの最大数を決定する平均ドライバメモリ フットプリント。デフォルト値は 1GB です。Spark ジョブでは、256などのより小さな値が適切な場合があります。 | 
| dataproc | dataproc.scheduler.job-submission-rate | number | このレートを超えると、ジョブがスロットリングされます。デフォルトのレートは 1.0QPS です。 | 
| dataproc | dataproc.scheduler.max-concurrent-jobs | number | 同時実行ジョブの最大数。クラスタの作成時にこの値が設定されていない場合、同時ジョブの上限は max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5)として計算されます。masterMemoryMbは、マスター VM のマシンタイプによって決まります。masterMemoryMbPerJobはデフォルトで1024ですが、クラスタの作成時にdataproc:dataproc.scheduler.driver-size-mbクラスタ プロパティで構成できます。 | 
| dataproc | dataproc.scheduler.max-memory-used | number | 使用できる RAM の最大容量。現在の使用量がこのしきい値を超えると、新しいジョブのスケジュールを設定できません。デフォルトは 0.9(90%)です。1.0に設定すると、master-memory-utilization ジョブ スロットリングが無効になります。 | 
| dataproc | dataproc.scheduler.min-free-memory.mb | number | Dataproc ジョブドライバがクラスタ上の別のジョブのスケジュールを設定するために必要とする最小空きメモリ(MB 単位)。デフォルトは 256MB です。 | 
| dataproc | dataproc.snap.enabled | trueまたはfalse | Ubuntu Snap デーモンを有効または無効にします。デフォルト値は trueです。falseに設定した場合、イメージにプリインストールされている Snap パッケージは影響を受けませんが、自動更新は無効になります。1.4.71、1.5.46、2.0.20 以降の Ubuntu イメージに適用されます。 | 
| dataproc | dataproc.worker.custom.init.actions.mode | RUN_BEFORE_SERVICES | 2.0 より前のイメージのクラスタの場合、RUN_BEFORE_SERVICES は設定されませんが、クラスタの作成時にユーザーが設定できます。2.0 以降のイメージのクラスタの場合、RUN_BEFORE_SERVICES が設定され、そのプロパティはクラスタに渡せません(ユーザーはそれを変更できません)。この設定の影響については、初期化アクション - 重要な考慮事項とガイドラインをご覧ください。 | 
| dataproc | dataproc.yarn.orphaned-app-termination.enable | trueまたはfalse | デフォルト値は trueです。falseに設定して、Dataproc が「孤立した」YARN アプリを終了しないようにします。YARN アプリを送信したジョブドライバが終了した場合、Dataproc は YARN アプリが孤立しているとみなします。警告: Spark クラスタモード(spark.submit.deployMode=cluster)を使用していて、spark.yarn.submit.waitAppCompletion=falseを設定すると、Spark ドライバは YARN アプリの完了を待たずに終了します。この場合は、dataproc:dataproc.yarn.orphaned-app-termination.enable=falseを設定します。Hive ジョブを送信する場合は、このプロパティもfalseに設定します。 | 
| dataproc | diagnostic.capture.enabled | trueまたはfalse | クラスタのチェックポイント診断データの収集を有効にします。(デフォルト: true) | 
| dataproc | diagnostic.capture.access | GOOGLE_DATAPROC_DIAGNOSE | GOOGLE_DATAPROC_DIAGNOSEに設定すると、Cloud Storage に保存されているクラスタのチェックポイント診断データが Dataproc サポートと共有されます。(デフォルト: 未設定) | 
| dataproc | efm.spark.shuffle | primary-worker | primary-workerに設定した場合、Spark シャッフル データはプライマリ ワーカーに書き込まれます。詳細については、Dataproc の高度な柔軟性モードをご覧ください。 | 
| dataproc | job.history.to-gcs.enabled | trueまたはfalse | MapReduce と Spark の履歴ファイルを Dataproc の一時バケットで永続化することを許可します(イメージ バージョン 1.5 以降の場合のデフォルト: true)。ジョブ履歴ファイルの永続化の場所は、mapreduce.jobhistory.done-dir、mapreduce.jobhistory.intermediate-done-dir、spark.eventLog.dir、spark.history.fs.logDirectoryのプロパティから上書きできます。これらのプロパティおよび Dataproc ジョブ履歴ファイルとイベント ファイルに関連するその他のクラスタ プロパティについては、Dataproc の永続履歴サーバーをご覧ください。 | 
| dataproc | jobs.file-backed-output.enable | trueまたはfalse | Dataproc ジョブが /var/log/google-dataproc-jobディレクトリ内の一時ファイルに出力をパイプするように構成します。Cloud Logging でのジョブドライバ ロギングを有効にするには、trueに設定する必要があります(デフォルト:true)。 | 
| dataproc | jupyter.listen.all.interfaces | trueまたはfalse | セキュアでないノートブック サーバーの API を介したリモートコード実行のリスクを軽減するため、イメージ バージョン 1.3 以上では、デフォルトの設定は falseになっています。この設定では、コンポーネント ゲートウェイが有効な場合、localhost(127.0.0.1)への接続が制限されます(2.0 以上のイメージではコンポーネント ゲートウェイの有効化は必要ありません)。このデフォルト設定は、このプロパティをtrueに設定することでオーバーライドできます。 | 
| dataproc | jupyter.notebook.gcs.dir | gs://<dir-path> | Jupyter ノートブックを保存する Cloud Storage 内の場所。 | 
| dataproc | kerberos.beta.automatic-config.enable | trueまたはfalse | trueに設定すると、ユーザーは--kerberos-root-principal-passwordフラグと--kerberos-kms-key-uriフラグを指定して Kerberos ルート プリンシパルのパスワードを指定する必要がなくなります(デフォルト:false)。詳細については、Kerberos による Hadoop セキュアモードの有効化をご覧ください。 | 
| dataproc | kerberos.cross-realm-trust.admin-server | hostname/address | リモート管理サーバーのホスト名 / アドレス(たいてい KDC サーバーと同じ)。 | 
| dataproc | kerberos.cross-realm-trust.kdc | hostname/address | リモート KDC のホスト名 / アドレス。 | 
| dataproc | kerberos.cross-realm-trust.realm | realm name | レルム名には大文字の ASCII 文字列を使用できます。通常レルム名は、使用している DNS ドメイン名と同じです(大文字)。例: マシンの名前がmachine-id.example.west-coast.mycompany.com の場合、それに対応するレルムは EXAMPLE.WEST-COAST.MYCOMPANY.COM と指定します。 | 
| dataproc | kerberos.cross-realm-trust.shared-password.uri | gs://<dir-path> | KMS 暗号化共有パスワードの Cloud Storage 内の場所。 | 
| dataproc | kerberos.kdc.db.key.uri | gs://<dir-path> | KDC データベース マスターキーを含む KMS 暗号化ファイルの Cloud Storage 内の場所。 | 
| dataproc | kerberos.key.password.uri | gs://<dir-path> | キーストア ファイル内のキーのパスワードを含む KMS 暗号化ファイルの Cloud Storage 内の場所。 | 
| dataproc | kerberos.keystore.password.uri | gs://<dir-path> | キーストアのパスワードを含む KMS 暗号化ファイルの Cloud Storage 内の場所。 | 
| dataproc | kerberos.keystore.uri1 | gs://<dir-path> | クラスタノードによって使用されるワイルドカード証明書と秘密鍵を含むキーストア ファイルの Cloud Storage 内の場所。 | 
| dataproc | kerberos.kms.key.uri | KMS key URI | root パスワードの復号に使用される KMS 鍵の URI。たとえば、 projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key(鍵のリソース ID をご覧ください)。 | 
| dataproc | kerberos.root.principal.password.uri | gs://<dir-path> | Kerberos root プリンシパルの KMS 暗号化パスワードの Cloud Storage 内の場所。 | 
| dataproc | kerberos.tgt.lifetime.hours | hours | チケットを付与するチケットの最大存続時間。 | 
| dataproc | kerberos.truststore.password.uri | gs://<dir-path> | トラストストア ファイルに対するパスワードを含む KMS 暗号化ファイルの Cloud Storage 内の場所。 | 
| dataproc | kerberos.truststore.uri2 | gs://<dir-path> | 信頼された証明書を含む KMS 暗号化トラストストア ファイルの Cloud Storage 内の場所。 | 
| dataproc | pip.packages | Pip パッケージ | このプロパティには、 baseConda 環境に特定のバージョンがインストールされる Pip パッケージのカンマ区切りリストを指定します。詳細については、Pip 関連のクラスタ プロパティの使用をご覧ください。(デフォルト:empty) | 
| dataproc | ranger.kms.key.uri | KMS key URI | Ranger 管理者のユーザー パスワードの復号に使用される KMS 鍵の URI。たとえば、 projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key(鍵のリソース ID をご覧ください)。 | 
| dataproc | ranger.admin.password.uri | gs://<dir-path> | Ranger 管理者の KMS 暗号化パスワードが存在する Cloud Storage 内の場所。 | 
| dataproc | ranger.db.admin.password.uri | gs://<dir-path> | Ranger データベース管理者の KMS 暗号化パスワードが存在する Cloud Storage 内の場所。 | 
| dataproc | ranger.cloud-sql.instance.connection.name | cloud sql instance connection name | Cloud SQL インスタンスの接続名(例: project-id:region:name.) | 
| dataproc | ranger.cloud-sql.root.password.uri | gs://<dir-path> | Cloud SQL インスタンスの root ユーザーの KMS 暗号化パスワードが存在する Cloud Storage 内の場所。 | 
| dataproc | ranger.cloud-sql.use-private-ip | trueまたはfalse | クラスタ インスタンスと Cloud SQL インスタンス間の通信にプライベート IP を使用するかどうか(デフォルト値は false)。 | 
| dataproc | solr.gcs.path | gs://<dir-path> | Solr のホーム ディレクトリとして機能する Cloud Storage パス。 | 
| dataproc | startup.component.service-binding-timeout.hadoop-hdfs-namenode | seconds | hadoop-hdfs-namenode がポートにバインドされ、起動が成功したと判断できるまで、Dataproc 起動スクリプトが待機する時間。認識される最大値は 1,800 秒(30 分)です。 | 
| dataproc | startup.component.service-binding-timeout.hive-metastore | seconds | hive-metastore service がポートにバインドされ、起動が成功したと判断できるまで、Dataproc 起動スクリプトが待機する時間。認識される最大値は 1,800 秒(30 分)です。 | 
| dataproc | startup.component.service-binding-timeout.hive-server2 | seconds | hive-server2 がポートにバインドされ、起動が成功したと判断できるまで、Dataproc 起動スクリプトが待機する時間。認識される最大値は 1,800 秒(30 分)です。 | 
| dataproc | user-attribution.enabled | trueまたはfalse | このプロパティを trueに設定すると、Dataproc ジョブは送信したユーザーの ID に帰属します(デフォルト値はfalse)。 | 
| dataproc | yarn.docker.enable | trueまたはfalse | Dataproc の機能 Docker on YARN を有効にするには、 trueに設定します(デフォルト値はfalse)。 | 
| dataproc | yarn.docker.image | docker image | Dataproc Docker on YARN 機能( dataproc:yarn.docker.enable=true)を有効にする場合は、このオプションのプロパティを使用して Docker イメージ(dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1など)を指定できます。指定すると、クラスタの作成時にクラスタのすべてのノードにイメージがダウンロードされ、キャッシュに保存されます。 | 
| dataproc | yarn.log-aggregation.enabled | trueまたはfalse | クラスタの temp bucketに対する YARN ログ集計の有効化を許可(true)します。バケット名の形式はdataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>です。(イメージ バージョン 1.5 以降の場合のデフォルト:true)。注: クラスタを削除しても、クラスタの一時バケットは削除されません。また、yarn.nodemanager.remote-app-log-dirYARN プロパティを上書きすることで、集計された YARN ログの場所を設定することもできます。 | 
| knox | gateway.host | ip address | セキュリティで保護されていないノートブック サーバー API を介したリモートコード実行のリスクを軽減するため、イメージ バージョン 1.3 以降のデフォルト設定は 127.0.0.1となっています。この設定は、コンポーネント ゲートウェイが有効となっているときに、localhostへの接続を制限します。デフォルトの設定は、たとえばこのプロパティを0.0.0.0に設定してすべての接続を許可することで、オーバーライドできます。 | 
| zeppelin | zeppelin.notebook.gcs.dir | gs://<dir-path> | Zeppelin ノートブックを保存する Cloud Storage 内の場所。 | 
| zeppelin | zeppelin.server.addr | ip address | セキュリティで保護されていないノートブック サーバー API を介したリモートコード実行のリスクを軽減するため、イメージ バージョン 1.3 以降のデフォルト設定は 127.0.0.1となっています。この設定は、コンポーネント ゲートウェイが有効となっているときに、localhostへの接続を制限します。デフォルトの設定は、たとえばこのプロパティを0.0.0.0に設定してすべての接続を許可することで、オーバーライドできます。 | 
1 キーストア ファイル: キーストア ファイルには SSL 証明書が含まれています。ファイルの形式は Java KeyStore(JKS)です。VM にコピーされるときに、このファイルの名前は keystore.jks に変更されます。SSL 証明書は、クラスタ内の各ノードに適用されるワイルドカード証明書です。
2 トラストストア ファイル: トラストストア ファイルの形式は Java KeyStore(JKS)です。VM にコピーされるときに、このファイルの名前は truststore.jks に変更されます。