Cette page a été traduite par l'API Cloud Translation.

Exécuter des tâches Spark avec DataprocFileOutputCommitter

La fonctionnalité DataprocFileOutputCommitter est une version améliorée de FileOutputCommitter Open Source. Il permet les écritures simultanées par les tâches Apache Spark vers un emplacement de sortie.

Limites

La fonctionnalité DataprocFileOutputCommitter est compatible avec les tâches Spark exécutées sur des clusters Dataproc Compute Engine créés avec les versions d'image suivantes:

Versions d'image 2.1 2.1.10 et ultérieures
Versions d'image 2.0 2.0.62 et ultérieures

Utiliser `DataprocFileOutputCommitter`

Pour utiliser cette fonction :

Créez un cluster Dataproc sur Compute Engine à l'aide des versions d'images 2.1.10, 2.0.62 ou ultérieures.
Définissez spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory et spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false comme propriété de tâche lorsque vous envoyez une tâche Spark au cluster.
- Exemple de Google Cloud CLI:
```
gcloud dataproc jobs submit spark \
    --properties=spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory,spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false \
    --region=REGION \
    other args ...
```
- Exemple de code:
```
sc.hadoopConfiguration.set("spark.hadoop.mapreduce.outputcommitter.factory.class","org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory")
sc.hadoopConfiguration.set("spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs","false")
```
L'outil de validation de la sortie de fichier Dataproc doit définir spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false pour éviter les conflits entre les fichiers de repère de succès créés lors d'écritures simultanées. Vous pouvez également définir cette propriété dans spark-defaults.conf.

Exécuter des tâches Spark avec DataprocFileOutputCommitter

Limites

Utiliser DataprocFileOutputCommitter

Utiliser `DataprocFileOutputCommitter`