Questa pagina è stata tradotta dall'API Cloud Translation.

Esegui job Spark con DataprocFileOutputCommitter

La funzionalità DataprocFileOutputCommitter è una versione migliorata di FileOutputCommitter open source. Consente scritture simultanee da parte dei job Apache Spark in una posizione di output.

Limitazioni

La funzionalità DataprocFileOutputCommitter supporta i job Spark eseguiti su cluster Dataproc Compute Engine creati con le seguenti versioni immagine:

2.1 versioni immagine 2.1.10 e successive
Versioni immagine 2.0.62 e successive

Utilizza `DataprocFileOutputCommitter`

Per utilizzare questa funzionalità:

Crea un cluster Dataproc su Compute Engine utilizzando le versioni delle immagini 2.1.10 o 2.0.62 o successive.
Imposta spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory e spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false come proprietà del job quando invii un job Spark al cluster.
- Esempio di Google Cloud CLI:
```
gcloud dataproc jobs submit spark \
    --properties=spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory,spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false \
    --region=REGION \
    other args ...
```
- Codice di esempio:
```
sc.hadoopConfiguration.set("spark.hadoop.mapreduce.outputcommitter.factory.class","org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory")
sc.hadoopConfiguration.set("spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs","false")
```
Il committer di output dei file Dataproc deve impostare spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false per evitare conflitti tra i file marker di successo creati durante le scritture simultanee. Puoi impostare questa proprietà anche in spark-defaults.conf.

Esegui job Spark con DataprocFileOutputCommitter

Limitazioni

Utilizza DataprocFileOutputCommitter

Utilizza `DataprocFileOutputCommitter`