Ejecuta trabajos de Spark con DataprocFileOutputCommitter

La característica DataprocFileOutputCommitter es una versión mejorada de FileOutputCommitter de código abierto. Permite operaciones de escritura simultáneas de trabajos de Apache Spark en una ubicación de salida.

Limitaciones

La función DataprocFileOutputCommitter admite trabajos de Spark que se ejecutan en clústeres de Compute Engine de Dataproc creados con las siguientes versiones de imagen:

  • Versiones de la imagen 2.1.10 y posteriores

  • Versiones de la imagen 2.0.62 y posteriores

Usa DataprocFileOutputCommitter

Para usar esta función, sigue estos pasos:

  1. Crea un clúster de Dataproc en Compute Engine con las versiones de imágenes 2.1.10 o 2.0.62, o posteriores.

  2. Configura spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory y spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false como una propiedad de trabajo cuando envíes un trabajo de Spark al clúster.

    • Ejemplo de Google Cloud CLI:
    gcloud dataproc jobs submit spark \
        --properties=spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory,spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false \
        --region=REGION \
        other args ...
    
    • Ejemplo de código:
    sc.hadoopConfiguration.set("spark.hadoop.mapreduce.outputcommitter.factory.class","org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory")
    sc.hadoopConfiguration.set("spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs","false")