Halaman ini diterjemahkan oleh Cloud Translation API.

Menjalankan tugas Spark dengan DataprocFileOutputCommitter

Fitur DataprocFileOutputCommitter adalah versi FileOutputCommitter open source yang ditingkatkan. Hal ini memungkinkan penulisan serentak oleh tugas Apache Spark ke lokasi output.

Batasan

Fitur DataprocFileOutputCommitter mendukung tugas Spark yang dijalankan di cluster Dataproc Compute Engine yang dibuat dengan versi image berikut:

Image 2.1 versi 2.1.10 dan yang lebih tinggi
Versi image 2.0 2.0.62 dan yang lebih tinggi

Gunakan `DataprocFileOutputCommitter`

Untuk menggunakan fitur ini:

Buat cluster Dataproc di Compute Engine menggunakan versi image 2.1.10 atau 2.0.62 atau yang lebih tinggi.
Tetapkan spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory dan spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false sebagai properti tugas saat Anda mengirim tugas Spark ke cluster.
- Contoh Google Cloud CLI:
```
gcloud dataproc jobs submit spark \
    --properties=spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory,spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false \
    --region=REGION \
    other args ...
```
- Contoh kode:
```
sc.hadoopConfiguration.set("spark.hadoop.mapreduce.outputcommitter.factory.class","org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory")
sc.hadoopConfiguration.set("spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs","false")
```
Penanda commit output file Dataproc harus menetapkan spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false untuk menghindari konflik antara file penanda keberhasilan yang dibuat selama penulisan serentak. Anda juga dapat menetapkan properti ini di spark-defaults.conf.

Menjalankan tugas Spark dengan DataprocFileOutputCommitter

Batasan

Gunakan DataprocFileOutputCommitter

Gunakan `DataprocFileOutputCommitter`