Diese Seite wurde von der Cloud Translation API übersetzt.

Spark-Jobs mit DataprocFileOutputCommitter ausführen

Die Funktion DataprocFileOutputCommitter ist eine erweiterte Version von FileOutputCommitter. Sie ermöglicht gleichzeitige Schreibvorgänge von Apache Spark-Jobs an einen Ausgabespeicherort.

Beschränkungen

Die DataprocFileOutputCommitter-Funktion unterstützt Spark-Jobs, die in Dataproc Compute Engine-Clustern ausgeführt werden, die mit den folgenden Image-Versionen erstellt wurden:

2.1 Image-Versionen 2.1.10 und höher
2.0-Image-Versionen 2.0.62 und höher

`DataprocFileOutputCommitter` verwenden

So verwenden Sie dieses Feature:

Dataproc in Compute Engine-Cluster erstellen mit den Image-Versionen 2.1.10 oder 2.0.62 oder höher.
Legen Sie spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory und spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false als Jobattribut fest, wenn Sie einen Spark-Job an den Cluster senden.
- Beispiel für Google Cloud CLI:
```
gcloud dataproc jobs submit spark \
    --properties=spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory,spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false \
    --region=REGION \
    other args ...
```
- Codebeispiel:
```
sc.hadoopConfiguration.set("spark.hadoop.mapreduce.outputcommitter.factory.class","org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory")
sc.hadoopConfiguration.set("spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs","false")
```
Der Dataproc-Dateiausgabe-Committer muss spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false festlegen, um Konflikte zwischen Erfolgsmarkierungsdateien zu vermeiden, die bei gleichzeitigen Schreibvorgängen erstellt werden. Sie können dieses Attribut auch in spark-defaults.conf
festlegen.

Spark-Jobs mit DataprocFileOutputCommitter ausführen

Beschränkungen

DataprocFileOutputCommitter verwenden

`DataprocFileOutputCommitter` verwenden