Spark プロパティ

Dataproc サーバーレスは、Spark プロパティを使用して、バッチワークロードに割り当てるコンピューティングリソース、メモリリソース、ディスクリソースを決定します。これらのプロパティ設定は、ワークロードの割り当ての使用量と費用に影響する可能性があります（詳しくは、Dataproc サーバーレスの割り当てと Dataproc サーバーレスの料金をご覧ください）。

Spark バッチワークロードのプロパティの設定

Google Cloud コンソール、gcloud CLI、または Dataproc API を使用して Dataproc サーバーレス Spark バッチワークロードを送信するときに、Spark プロパティを指定できます。

Console

Google Cloud コンソールで Dataproc の [バッチ作成] ページに移動します。
[プロパティ] セクションで [プロパティを追加] をクリックし、サポートされている Spark プロパティの Key（名前）と Value を入力します。

gcloud

gcloud CLI バッチ送信の例:

gcloud dataproc batches submit spark
    --properties=spark.checkpoint.compress=true \
    --region=region \
    other args ...

API

サポートされる Spark プロパティで、RuntimeConfig.properties をbatches.create リクエストの一部として設定します。

サポートされる Spark プロパティ

Dataproc Serverless for Spark　では、ほとんどの Spark プロパティをサポートしていますが、YARN やシャッフル関連の Spark プロパティ（spark.master=yarn や spark.shuffle.service.enabled など）はサポートしていません。Spark アプリケーションコードで YARN またはシャッフルのプロパティが設定されている場合、アプリケーションは失敗します。

ランタイム環境プロパティ

Dataproc Serverless for Spark では、ランタイム環境を構成するために、次のカスタム Spark プロパティがサポートされています。

プロパティ	説明
`spark.dataproc.driverEnv.EnvironmentVariableName`	ドライバプロセスに `EnvironmentVariableName` を追加します。複数の環境変数を指定できます。

リソース割り当てプロパティ

Dataproc Serverless for Spark では、リソース割り当てを構成するために、次の Spark プロパティがサポートされています。

プロパティ	説明	デフォルト	例
`spark.driver.cores`	Spark ドライバに割り当てるコア（vCPU）の数。有効な値: `4`、`8`、`16`。	`4`
`spark.driver.memory`	Spark ドライバプロセスに割り当てるメモリの量。サイズ単位の接尾辞（「m」、「g」または「t」）を付けた JVM メモリ文字列形式で指定されます。ドライバのコアごとのドライバの合計メモリ（ドライバメモリのオーバーヘッドを含む）。これは、スタンダードコンピューティング階層の場合は `1024m`～`7424m` にする必要があります（プレミアムコンピューティング階層の場合は `24576m`）。たとえば、`spark.driver.cores = 4` の場合は `4096m <= spark.driver.memory + spark.driver.memoryOverhead <= 29696m` です。		`512m`、`2g`
`spark.driver.memoryOverhead`	Spark ドライバプロセスに割り当てる追加の JVM メモリの量。サイズ単位の接尾辞（「m」、「g」または「t」）を付けた JVM メモリ文字列形式で指定されます。これは、JVM オーバーヘッド、内部文字列、その他のネイティブオーバーヘッドに関連するヒープ以外のメモリであり、PySpark ドライバプロセスやコンテナで実行される他のドライバ以外のプロセスで使用されるメモリなど、他のドライバ・プロセスによって使用されるメモリを含みます。ドライバを実行するコンテナの最大メモリサイズは、`spark.driver.memoryOverhead` と `spark.driver.memory` の合計によって決まります。ドライバのコアごとのドライバの合計メモリ（ドライバメモリのオーバーヘッドを含む）は、スタンダードコンピューティング階層の場合は `1024m`～`7424m` にする必要があります（プレミアムコンピューティング階層の場合は `24576m`）。たとえば、`spark.driver.cores = 4` の場合は `4096m <= spark.driver.memory + spark.driver.memoryOverhead <= 29696m` です。	10% のドライバメモリです。ただし、PySpark バッチワークロードは除きます。これはデフォルトではドライバメモリの 40% になります。	`512m`、`2g`
`spark.dataproc.driver.compute.tier`	ドライバで使用するコンピューティング階層。プレミアムコンピューティング階層では、コアごとのパフォーマンスは上がりますが、課金レートは高くなります。	標準	スタンダード、プレミアム
`spark.dataproc.driver.disk.size`	サイズ単位の接尾辞（「k」、「m」、「g」、「t」）で指定されたドライバに割り当てられるディスク容量。 `250GiB` 以上の値を指定してください。ドライバでプレミアムディスク階層が選択されている場合、有効なサイズは 375g、750g、1500g、3000g、6000g、9000g です。プレミアムディスク階層と 16 個のドライバコアを選択した場合、最小ディスクサイズは 750g です。	コア当たりの`100GiB`	`1024g`、`2t`
`spark.dataproc.driver.disk.tier`	ドライバのローカルストレージとシャッフルストレージに使用するディスク階層。プレミアムディスク階層では、IOPS とスループットのパフォーマンスは上がりますが、課金レートは高くなります。ドライバでプレミアムディスク階層を選択した場合は、`spark.dataproc.driver.compute.tier=premium` を使用してプレミアムコンピューティング階層も選択する必要があります。また、`spark.dataproc.executor.disk.size` を使用してディスク容量を指定する必要があります。プレミアムディスク階層が選択されている場合、ドライバはシステムストレージ用に 50 GiB のディスク容量を割り当てます。これはユーザーアプリケーションで使用できません。	標準	スタンダード、プレミアム
`spark.executor.cores`	各 Spark エグゼキュータに割り当てるコア（vCPU）の数。有効な値: `4`、`8`、`16`。	`4`
`spark.executor.memory`	各 Spark エグゼキュータプロセスに割り当てるメモリ量。サイズ単位の接尾辞（「m」、「g」、「t」）を有するJVM メモリ文字列形式で指定されます。エグゼキュータのコアごとのエグゼキュータのメモリの合計（エグゼキュータ・メモリのオーバーヘッドを含む）は、スタンダードコンピューティング階層の場合は `1024m`～`7424m` にする必要があります（プレミアムコンピューティング階層の場合は `24576m`）。たとえば、`spark.executor.cores = 4` の場合は `4096m <= spark.executor.memory + spark.executor.memoryOverhead <= 29696m` です。		`512m`、`2g`
`spark.executor.memoryOverhead`	Spark エグゼキュータプロセスに割り当てる追加の JVM メモリの量。サイズ単位の接尾辞（「m」、「g」または「t」）を付けた JVM メモリ文字列形式で指定されます。これは、JVM オーバーヘッド、内部文字列、その他のネイティブオーバーヘッドに使用されるヒープ以外のメモリであり、PySpark エグゼキュータのメモリと、コンテナ内で実行される他のエグゼキュータ以外のプロセスで使用されるメモリが含まれます。エグゼキュータを実行するコンテナの最大メモリサイズは、`spark.executor.memoryOverhead` と `spark.executor.memory` の合計によって決まります。エグゼキュータのコアごとのエグゼキュータのメモリの合計（エグゼキュータ・メモリのオーバーヘッドを含む）は、スタンダードコンピューティング階層の場合は `1024m`～`7424m` にする必要があります（プレミアムコンピューティング階層の場合は `24576m`）。たとえば、`spark.executor.cores = 4` の場合は `4096m <= spark.executor.memory + spark.executor.memoryOverhead <= 29696m` です。	10% のエグゼキュータメモリです。ただし、PySpark バッチワークロードは除きます。これはデフォルトではエグゼキュータメモリの 40% になります。	`512m`、`2g`
`spark.dataproc.executor.compute.tier`	エグゼキュータで使用するコンピューティング階層。プレミアムコンピューティング階層では、コアごとのパフォーマンスは上がりますが、課金レートは高くなります。	標準	スタンダード、プレミアム
`spark.dataproc.executor.disk.size`	サイズ単位の接尾辞（「k」、「m」、「g」、「t」）で指定された各エグゼキュータに割り当てられるディスク容量。エグゼキュータのディスク容量は、シャッフルデータや依存関係のステージングに使用される可能性があります。`250GiB` 以上の値を指定してください。エグゼキュータでプレミアムディスク階層が選択されている場合、有効なサイズは 375g、750g、1500g、3000g、6000g、9000g です。プレミアムディスク階層と 16 個のエグゼキュータコアを選択した場合、最小ディスクサイズは 750g です。	コア当たりの`100GiB`	`1024g`、`2t`
`spark.dataproc.executor.disk.tier`	エグゼキュータのローカルストレージとシャッフルストレージに使用するディスク階層。プレミアムディスク階層では、IOPS とスループットのパフォーマンスは上がりますが、課金レートは高くなります。エグゼキュータでプレミアムディスク階層を選択した場合は、`spark.dataproc.executor.compute.tier=premium` を使用してプレミアムコンピューティング階層も選択する必要があります。また、`spark.dataproc.executor.disk.size` を使用してディスク容量を指定する必要があります。プレミアムディスク階層が選択されている場合、各エグゼキュータにはシステムストレージ用に 50 GiB のディスク容量が割り当てられます。これはユーザーアプリケーションで使用できません。	標準	スタンダード、プレミアム
`spark.executor.instances`	割り当てるエグゼキュータの初期数。バッチワークロードが開始されると、自動スケーリングはアクティブなエグゼキュータの数を変更する可能性があります。`2`～`2000` にする必要があります。

自動スケーリングのプロパティ

Dataproc サーバーレス自動スケーリングの構成に使用できる Spark プロパティのリストについては、Spark の動的割り当てのプロパティをご覧ください。

ロギングのプロパティ

プロパティ	説明	デフォルト	例
`spark.log.level`	設定すると、ユーザー定義のログ設定を Spark の起動時に `SparkContext.setLogLevel()` の呼び出しの効果でオーバーライドします。有効なログレベルは、`ALL`、`DEBUG`、`ERROR`、`FATAL`、`INFO`、`OFF`、`TRACE`、`WARN` です。		`INFO`、`DEBUG`
`spark.executor.syncLogLevel.enabled`	`true` に設定すると、`SparkContext.setLogLevel()` メソッドを通じて適用されるログレベルがすべてのエグゼキュータに伝播されます。	`false`	`true`、`false`
`spark.log.level.PackageName`	設定すると、ユーザー定義のログ設定を Spark の起動時に `SparkContext.setLogLevel(PackageName, level)` の呼び出しの効果でオーバーライドします。有効なログレベルは次のとおりです。`ALL` 、`DEBUG` 、 `ERROR` 、`FATAL` 、`INFO` 、`OFF` 、 `TRACE` 、`WARN` ] をタップします。		`spark.log.level.org.apache.spark=error`

スケジュールのプロパティ

プロパティ	説明	デフォルト	例
`spark.scheduler.excludeShuffleSkewExecutors`	スケジューリング時にシャッフルマップに偏ったエグゼキュータを除外します。これにより、シャッフルの書き込みスキューによって生じるシャッフルフェッチの待機時間が短縮されます。	`false`	`true`
`spark.scheduler.shuffleSkew.minFinishedTasks`	スキューとして扱うエグゼキュータで完了したシャッフルマップタスクの最小数。	`10`	`100`
`spark.scheduler.shuffleSkew.maxExecutorsNumber`	スキューとして扱うエグゼキュータの最大数。スキューされたエグゼキュータは、現在のスケジューリングラウンドから除外されます。	5	`10`
`spark.scheduler.shuffleSkew.maxExecutorsRatio`	スキューとして扱うエグゼキュータの合計数の最大比率。スキューされたエグゼキュータはスケジューリングから除外されます。	0.05	`0.1`
`spark.scheduler.shuffleSkew.ratio`	スキューとして扱うエグゼキュータで、完了したシャッフルマップタスクの平均値の倍数。	1.5	`2.0`

その他のプロパティ

プロパティ	説明
`dataproc.diagnostics.enabled`	このプロパティを有効にして、バッチワークロードの失敗またはキャンセル時に診断を実行します。診断が有効になっている場合、ワークロードの完了後に診断が完了するまで、バッチワークロードではコンピューティングリソースが引き続き使用されます。診断用 tarball の場所を指す URI が Batch.RuntimeInfo.diagnosticOutputUri API フィールドに表示されます。
`dataproc.gcsConnector.version`	このプロパティを使用して、Cloud Storage コネクタのバージョンにアップグレードします。このバージョンは、バッチワークロードのランタイムバージョンとともにインストールされるバージョンとは異なります。
`dataproc.sparkBqConnector.version`	このプロパティを使用して、Spark BigQuery コネクタのバージョンにアップグレードします。このバージョンは、バッチワークロードのランタイムバージョンとともにインストールされるバージョンとは異なります（BigQuery コネクタを Dataproc Serverless for Spark とともに使用するを参照）。
`dataproc.profiling.enabled`	このプロパティを `true` に設定すると、Dataproc Serverless ワークロードのプロファイリングが有効になります。
`dataproc.profiling.name`	このプロパティを使用して、Profiler サービスでプロファイルを作成するために使用する名前を設定します。