이 페이지는 Cloud Translation API를 통해 번역되었습니다.

Spark 속성

이 문서에서는 Spark 속성과 이를 설정하는 방법을 설명합니다. Serverless for Apache Spark는 Spark 속성을 사용하여 일괄 워크로드에 할당할 컴퓨팅, 메모리, 디스크 리소스를 결정합니다. 이러한 속성 설정은 워크로드 할당량 소비와 비용에 영향을 미칠 수 있습니다. 자세한 내용은 Apache Spark용 서버리스 할당량 및 Apache Spark용 서버리스 가격 책정을 참고하세요.

Spark 일괄 워크로드 속성 설정

Google Cloud 콘솔, gcloud CLI 또는 Dataproc API를 사용하여 Apache Spark용 서버리스 Spark 일괄 워크로드를 제출할 때 Spark 속성을 지정할 수 있습니다.

콘솔

Google Cloud 콘솔에서 Dataproc 일괄 생성 페이지로 이동합니다.

Dataproc 배치 만들기 페이지로 이동
속성 섹션에서 속성 추가를 클릭합니다.
지원되는 Spark 속성의 Key (이름) 및 Value를 입력합니다.

gcloud

gcloud CLI 일괄 제출 예시:

gcloud dataproc batches submit spark
    --properties=spark.checkpoint.compress=true \
    --region=region \
    other args ...

API

batches.create 요청의 일부로 지원되는 Spark 속성을 사용하여 RuntimeConfig.properties를 설정합니다.

지원되는 Spark 속성

Apache Spark용 서버리스는 대부분의 Spark 속성을 지원하지만 spark.master=yarn 및 spark.shuffle.service.enabled와 같은 YARN 관련 및 셔플 관련 Spark 속성은 지원하지 않습니다. Spark 애플리케이션 코드가 YARN 또는 셔플 속성을 설정하면 애플리케이션에 오류가 발생합니다.

런타임 환경 속성

Apache Spark용 서버리스는 런타임 환경 구성을 위해 다음과 같은 커스텀 Spark 속성을 지원합니다.

속성	설명
`spark.dataproc.driverEnv.ENVIRONMENT_VARIABLE_NAME`	드라이버 프로세스에 `ENVIRONMENT_VARIABLE_NAME` 추가 환경 변수 여러 개를 지정할 수 있습니다.
`spark.executorEnv.ENVIRONMENT_VARIABLE_NAME`	실행기 프로세스에 `ENVIRONMENT_VARIABLE_NAME` 추가 환경 변수 여러 개를 지정할 수 있습니다.

등급 속성

속성	설명	기본값
`dataproc.tier`	일괄 워크로드가 실행되는 계층입니다 (Google Cloud Apache Spark용 서버리스 계층 참고). `standard` 또는 `premium`입니다. 대화형 세션은 항상 프리미엄 `dataproc.tier`에서 실행됩니다. 이 배치 계층 속성을 `standard`로 설정하면 Dataproc 런타임 및 리소스 계층 속성이 `standard` 계층으로 설정됩니다 (리소스 할당 속성 참고). 이 배치 등급 속성을 `premium`로 설정하면 `spark.dataproc.engine`이 `lightningEngine`로 설정되고 `spark.dataproc.driver.compute.tier` 및 `spark.dataproc.executor.compute.tier`이 `premium`로 설정됩니다. 자동으로 설정된 대부분의 배치 계층 설정을 재정의할 수 있지만 `3.0` 이전의 런타임을 사용하는 배치에 대해서는 자동으로 설정된 컴퓨팅 계층 설정을 재정의할 수 없습니다 (리소스 할당 속성 참고).	`standard`

엔진 및 런타임 속성

속성	설명	기본값
`spark.dataproc.engine`	일괄 워크로드 또는 대화형 세션을 실행하는 데 사용할 엔진입니다. `lightningEngine`(Lightning 엔진 참고) 또는 `default` 엔진입니다. 일괄 워크로드: 워크로드에 표준 `dataproc.tier` 속성을 선택하면 이 속성이 자동으로 `default`으로 설정되며 재정의할 수 없습니다. 워크로드에 `premium` `dataproc.tier`을 선택하면 이 속성이 자동으로 `lightningEngine`로 설정되지만 필요한 경우 설정을 `default`로 변경할 수 있습니다. 대화형 세션: 이 설정은 자동으로 `default`로 설정되지만 `lightningEngine`로 변경할 수 있습니다. 대화형 세션은 항상 `premium` 등급으로 실행됩니다.	배치 (표준 등급): `default` 배치 (프리미엄 등급): `lightningEngine` 세션: `default`
`spark.dataproc.lightningEngine.runtime`	일괄 워크로드 또는 대화형 세션에 Lightning 엔진을 선택할 때 사용할 런타임: `default` 또는 `native` (네이티브 쿼리 실행)	`default`

리소스 할당 속성

Apache Spark용 서버리스는 리소스 할당 구성을 위해 다음과 같은 Spark 속성을 지원합니다.

속성	설명	기본값	예시
`spark.driver.cores`	Spark 드라이버에 할당할 코어(vCPU) 수입니다. 유효한 값: `4`, `8`, `16`.	`4`
`spark.driver.memory`	Spark 드라이버 프로세스에 할당할 메모리 크기이며 크기 단위 서픽스('m', 'g', 또는 't')가 포함된 JVM 메모리 문자열 형식으로 지정됩니다. 드라이버 메모리 오버헤드를 포함하여 드라이버 코어당 총 드라이버 메모리로, 표준 컴퓨팅 등급의 경우 `1024m`에서 `7424m` 사이여야 합니다(프리미엄 컴퓨팅 등급의 경우 `24576m`). 예를 들어 `spark.driver.cores = 4`이면 `4096m <= spark.driver.memory + spark.driver.memoryOverhead <= 29696m`입니다.		`512m`, `2g`
`spark.driver.memoryOverhead`	Spark 드라이버 프로세스에 할당할 추가 JVM 메모리 크기이며 크기 단위 서픽스('m', 'g' 또는 't')가 포함된 JVM 메모리 문자열 형식으로 지정됩니다. 이 메모리는 JVM 오버헤드, 내부 문자열, 기타 기본 오버헤드와 관련된 힙이 아닌 메모리이며 여기에는 PySpark 드라이버 프로세스와 같은 다른 드라이버 프로세스에서 사용하는 메모리와 컨테이너에서 실행되는 비드라이버 프로세스에서 사용하는 메모리가 포함됩니다. 드라이버가 실행되는 컨테이너의 최대 메모리 크기는 `spark.driver.memoryOverhead` 및 `spark.driver.memory`의 합계에 따라 결정됩니다. 드라이버 메모리 오버헤드를 포함하여 드라이버 코어당 총 드라이버 메모리는 표준 컴퓨팅 등급의 경우 `1024m`에서 `7424m` 사이여야 합니다(프리미엄 컴퓨팅 등급의 경우 `24576m`). 예를 들어 `spark.driver.cores = 4`이면 `4096m <= spark.driver.memory + spark.driver.memoryOverhead <= 29696m`입니다.	드라이버 메모리의 10%(드라이버 메모리의 40%로 기본 지정되는 PySpark 일괄 워크로드는 제외)	`512m`, `2g`
`spark.dataproc.driver.compute.tier`	드라이버에 사용할 컴퓨팅 등급입니다. 프리미엄 컴퓨팅 등급은 더 높은 코어별 성능을 제공하지만 높은 요율로 청구됩니다.	표준	표준, 프리미엄
`spark.dataproc.driver.disk.size`	드라이버에 할당된 디스크 공간의 크기로, 크기 단위 서픽스('k', 'm', 'g' 또는 't')로 지정됩니다. `250GiB` 이상이어야 합니다. 프리미엄 디스크 등급을 드라이버에서 선택한 경우 적합한 크기는 375g, 750g, 1500g, 3000g, 6000g, 9000g입니다. 프리미엄 디스크 등급과 드라이버 코어 16개를 선택한 경우 최소 디스크 크기는 750g입니다.	코어당 `100GiB`	`1024g`, `2t`
`spark.dataproc.driver.disk.tier`	드라이버의 로컬 및 셔플 스토리지에 사용할 디스크 등급입니다. 프리미엄 디스크 등급은 IOPS 및 처리량 측면에서 더 나은 성능을 제공하지만 더 높은 요율로 청구됩니다. 프리미엄 디스크 등급을 드라이버에서 선택한 경우 `spark.dataproc.driver.compute.tier=premium`을 사용해서 프리미엄 컴퓨팅 등급을 선택하고 `spark.dataproc.executor.disk.size`를 사용해서 디스크 공간 크기를 지정해야 합니다. 프리미엄 디스크 등급을 선택하면 드라이버가 시스템 스토리지에 50GiB의 디스크 공간을 추가로 할당하며, 사용자 애플리케이션은 이 공간을 사용할 수 없습니다.	표준	표준, 프리미엄
`spark.executor.cores`	각 Spark 실행자에 할당할 코어(vCPU) 수입니다. 유효한 값: `4`, `8`, `16`.	`4`
`spark.executor.memory`	각 Spark 실행자 프로세스에 할당할 메모리 크기이며 크기 단위 서픽스('m', 'g', 또는 't')가 포함된 JVM 메모리 문자열 형식으로 지정됩니다. 실행자 메모리 오버헤드를 포함한 실행자 코어당 총 실행자 메모리는 표준 컴퓨팅 등급의 경우 `1024m`에서 `7424m` 사이여야 합니다(프리미엄 컴퓨팅 등급의 경우 `24576m`). 예를 들어 `spark.executor.cores = 4`이면 `4096m <= spark.executor.memory + spark.executor.memoryOverhead <= 29696m`입니다.		`512m`, `2g`
`spark.executor.memoryOverhead`	Spark 실행자 프로세스에 할당할 추가 JVM 메모리 크기이며 크기 단위 서픽스('m', 'g' 또는 't')가 포함된 JVM 메모리 문자열 형식으로 지정됩니다. 이 메모리는 JVM 오버헤드, 내부 문자열, 기타 기본 오버헤드에 사용되는 힙이 아닌 메모리이며 여기에는 컨테이너에서 실행되는 다른 비실행자 프로세스에서 사용하는 메모리와 PySpark 실행자 메모리가 포함됩니다. 실행자가 실행되는 컨테이너의 최대 메모리 크기는 `spark.executor.memoryOverhead` 및 `spark.executor.memory`의 합계에 따라 결정됩니다. 실행자 메모리 오버헤드를 포함한 실행자 코어당 총 실행자 메모리는 표준 컴퓨팅 등급의 경우 `1024m`에서 `7424m` 사이여야 합니다(프리미엄 컴퓨팅 등급의 경우 `24576m`). 예를 들어 `spark.executor.cores = 4`이면 `4096m <= spark.executor.memory + spark.executor.memoryOverhead <= 29696m`입니다.	실행자 메모리의 10%(실행자 메모리의 40%로 기본 지정되는 PySpark 일괄 워크로드 제외)	`512m`, `2g`
`spark.dataproc.executor.compute.tier`	실행자에 사용할 컴퓨팅 등급입니다. 프리미엄 컴퓨팅 등급은 더 높은 코어별 성능을 제공하지만 높은 요율로 청구됩니다.	표준	표준, 프리미엄
`spark.dataproc.executor.disk.size`	각 실행자에 할당된 디스크 공간의 크기로, 크기 단위 서픽스('k', 'm', 'g' 또는 't')로 지정됩니다. 실행자 디스크 공간은 데이터를 셔플하고 종속 항목을 스테이징하는 데 사용될 수 있습니다. `250GiB` 이상이어야 합니다. 실행자에서 프리미엄 디스크 등급을 선택한 경우 적합한 크기는 375g, 750g, 1500g, 3000g, 6000g, 9000g입니다. 프리미엄 디스크 등급과 실행자 코어 16개를 선택한 경우 최소 디스크 크기는 750g입니다.	코어당 `100GiB`	`1024g`, `2t`
`spark.dataproc.executor.disk.tier`	실행자의 로컬 및 셔플 스토리지에 사용할 디스크 등급입니다. 프리미엄 디스크 등급은 IOPS 및 처리량 측면에서 더 나은 성능을 제공하지만 더 높은 요율로 청구됩니다. 실행자에서 프리미엄 디스크 등급을 선택한 경우 `spark.dataproc.executor.compute.tier=premium`을 사용하여 프리미엄 컴퓨팅 등급을 선택하고 `spark.dataproc.executor.disk.size`를 사용하여 디스크 공간 크기를 지정해야 합니다. 프리미엄 디스크 등급을 선택하면 각 실행자에게 시스템 스토리지용으로 50GiB의 디스크 공간이 추가로 할당되며, 사용자 애플리케이션은 이 공간을 사용할 수 없습니다.	표준	표준, 프리미엄
`spark.executor.instances`	할당할 초기 실행자 수입니다. 일괄 워크로드가 시작되면 자동 확장으로 인해 활성 실행자 수가 변경될 수 있습니다. 최소 `2`부터 최대 `2000` 사이여야 합니다.

자동 확장 속성

Apache Spark용 서버리스 자동 확장을 구성하는 데 사용할 수 있는 Spark 속성 목록은 Spark 동적 할당 속성을 참고하세요.

로깅 속성

속성	설명	기본값	예시
`spark.log.level`	설정되면 Spark 시작 시 `SparkContext.setLogLevel()` 호출의 효과로 사용자 정의 로그 설정을 재정의합니다. 유효한 로그 수준에는 `ALL`, `DEBUG`, `ERROR`, `FATAL`, `INFO`, `OFF`, `TRACE`, `WARN`이 포함됩니다.		`INFO`, `DEBUG`
`spark.executor.syncLogLevel.enabled`	`true`로 설정하면 `SparkContext.setLogLevel()` 메서드를 통해 적용된 로그 수준이 모든 실행자에게 전파됩니다.	`false`	`true`, `false`
`spark.log.level.PackageName`	설정되면 Spark 시작 시 `SparkContext.setLogLevel(PackageName, level)` 호출의 효과로 사용자 정의 로그 설정을 재정의합니다. 유효한 로그 수준에는 `ALL`, `DEBUG`, `ERROR`, `FATAL`, `INFO`, `OFF`, `TRACE`, `WARN`이 포함됩니다.		`spark.log.level.org.apache.spark=error`

예약 속성

속성	설명	기본값	예시
`spark.scheduler.excludeShuffleSkewExecutors`	예약 시 셔플 맵 편향 실행자를 제외하면 셔플 쓰기 편향으로 인한 긴 셔플 가져오기 대기 시간을 줄일 수 있습니다.	`false`	`true`
`spark.scheduler.shuffleSkew.minFinishedTasks`	편향으로 취급할 실행자에서 완료된 셔플 맵 태스크의 최소 개수입니다.	`10`	`100`
`spark.scheduler.shuffleSkew.maxExecutorsNumber`	편향으로 취급할 최대 실행자 수입니다. 편향된 실행자는 현재 예약 라운드에서 제외됩니다.	5	`10`
`spark.scheduler.shuffleSkew.maxExecutorsRatio`	편향으로 처리할 총 실행자의 최대 비율입니다. 편향된 실행자는 예약에서 제외됩니다.	0.05	`0.1`
`spark.scheduler.shuffleSkew.ratio`	편향으로 처리할 실행기에서 완료된 평균 셔플 매핑 태스크의 배수입니다.	1.5	`2.0`

기타 속성

속성	설명
`dataproc.diagnostics.enabled`	일괄 워크로드 실패 또는 취소에 대한 진단을 실행하려면 이 속성을 활성화합니다. 진단이 사용 설정된 경우 워크로드가 완료된 후 일괄 워크로드는 진단이 완료될 때까지 컴퓨팅 리소스를 계속 사용합니다. 진단 tar 파일의 위치를 가리키는 URI는 Batch.RuntimeInfo.diagnosticOutputUri API 필드에 나열됩니다.
`dataproc.gcsConnector.version`	이 속성을 사용하여 일괄 워크로드의 런타임 버전과 함께 설치된 버전과 다른 Cloud Storage 커넥터 버전으로 업그레이드합니다.
`dataproc.sparkBqConnector.version`	이 속성을 사용하여 배치 워크로드의 런타임 버전으로 설치된 버전과 다른 Spark BigQuery 커넥터 버전으로 업그레이드하세요 (Apache Spark용 서버리스로 BigQuery 커넥터 사용 참조).
`dataproc.profiling.enabled`	이 속성을 `true`로 설정하여 Apache Spark용 서버리스 워크로드의 프로파일링을 사용 설정합니다.
`dataproc.profiling.name`	이 속성을 사용하여 프로파일러 서비스에서 프로필을 만드는 데 사용되는 이름을 설정합니다.
`spark.jars`	이 속성을 사용하여 드라이버 및 실행기 클래스 경로에 포함할 jar의 쉼표로 구분된 목록을 설정합니다.
`spark.archives`	이 속성을 사용하여 각 실행자의 작업 디렉터리로 추출할 보관 파일의 쉼표로 구분된 목록을 설정합니다. .jar, .tar.gz, .tgz, .zip이 지원됩니다. 서버리스 대화형 세션의 경우 대화형 세션/템플릿을 만들 때 이 속성을 추가합니다.