English
Deutsch
Español – América Latina
Français
Indonesia
Italiano
Português – Brasil
中文 – 简体
日本語
한국어

문의하기 무료로 시작하기

DataprocFileOutputCommitter로 Spark 작업 실행

DataprocFileOutputCommitter 기능은 오픈소스 FileOutputCommitter의 고급 버전입니다. 출력 위치에 대한 Apache Spark 작업의 동시 쓰기를 사용 설정합니다.

제한사항

DataprocFileOutputCommitter 기능은 다음 이미지 버전으로 생성된 Dataproc Compute Engine 클러스터에서 실행되는 Spark 작업을 지원합니다.

2.1 이미지 버전 2.1.10 이상
2.0 이미지 버전 2.0.62 이상

`DataprocFileOutputCommitter` 사용

이 기능을 사용하려면 다음 안내를 따르세요.

2.1.10 또는 2.0.62 이상의 이미지 버전을 사용하여 Compute Engine 클러스터에 Dataproc를 만듭니다.
클러스터에 Spark 작업을 제출할 때 spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory 및 spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false를 작업 속성으로 설정합니다.
- Google Cloud CLI 예시:
```
gcloud dataproc jobs submit spark \
    --properties=spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory,spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false \
    --region=REGION \
    other args ...
```
- 코드 예시:
```
sc.hadoopConfiguration.set("spark.hadoop.mapreduce.outputcommitter.factory.class","org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory")
sc.hadoopConfiguration.set("spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs","false")
```
Dataproc 파일 출력을 커밋한 사용자는 동시 쓰기 중에 생성된 성공 마커 파일 간의 충돌을 방지하기 위해 spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false를 설정해야 합니다. 또한 spark-defaults.conf에서 이 속성을 설정할 수 있습니다.

달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.

최종 업데이트: 2023-12-12(UTC)