English
Deutsch
Español – América Latina
Français
Indonesia
Italiano
Português – Brasil
中文 – 简体
日本語
한국어

お問い合わせ無料で利用開始

DataprocFileOutputCommitter を使用して Spark ジョブを実行する

DataprocFileOutputCommitter 機能は、オープンソース FileOutputCommitter の拡張バージョンです。これにより、Apache Spark ジョブによる出力場所への同時書き込みが可能になります。

制限事項

DataprocFileOutputCommitter 機能は、次のイメージバージョンで作成された Dataproc Compute Engine クラスタで実行される Spark ジョブをサポートしています。

2.1 イメージバージョン 2.1.10 以降
2.0 イメージバージョン 2.0.62 以降

`DataprocFileOutputCommitter` を使用する

この機能を使用するには:

イメージバージョン 2.1.10 または 2.0.62 以降を使用して Compute Engine クラスタ上に Dataproc を作成します。
クラスタに Spark ジョブを送信するときに、spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory と spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false をジョブプロパティとして設定します。
- Google Cloud CLI の例:
```
gcloud dataproc jobs submit spark \
    --properties=spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory,spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false \
    --region=REGION \
    other args ...
```
- サンプルコード:
```
sc.hadoopConfiguration.set("spark.hadoop.mapreduce.outputcommitter.factory.class","org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory")
sc.hadoopConfiguration.set("spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs","false")
```
Dataproc ファイル出力コミッタは、同時書き込み中に作成された成功マーカーファイル間の競合を回避するために、spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false を設定する必要があります。このプロパティは spark-defaults.conf で設定することもできます。

特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。

最終更新日 2023-12-12 UTC。