클러스터 속성

Apache Hadoop YARN, HDFS, Spark, 관련 속성

Dataproc 클러스터에 설치된 오픈소스 구성요소에는 많은 구성 파일이 포함되어 있습니다. 예를 들어 Apache Spark와 Apache Hadoop에는 XML 및 일반 텍스트 구성 파일이 여러 개 있습니다. gcloud dataproc clusters create 명령어의 ‑‑properties 플래그를 사용하면 클러스터를 만들 때 여러 일반 구성 파일을 수정할 수 있습니다.

서식 지정

gcloud dataproc clusters create --properties 플래그는 다음 문자열 형식을 허용합니다.

file_prefix1:property1=value1,file_prefix2:property2=value2,...

file_prefix는 아래 표에 나와 있는 사전 정의된 구성 파일에 매핑되고 property는 파일 내의 속성에 매핑됩니다.
여러 클러스터 속성을 구분하는 데 사용되는 기본 구분 기호는 쉼표(,)입니다. 그러나 속성 값에 쉼표가 포함된 경우 속성 목록 시작 부분에 '^delimiter^'를 지정하여 구분 기호를 변경해야 합니다(자세한 내용은 gcloud 주제 이스케이프 참조).
- "#" 구분 기호를 사용하는 예시:
```
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
```

예시

gcloud 명령어

spark-defaults.conf 파일의 spark.master 설정을 변경하려면 다음 gcloud dataproc clusters create --properties 플래그를 추가합니다.

--properties 'spark:spark.master=spark://example.com'

구성 파일이 하나 이상인 경우 쉼표 구분자를 사용하면 여러 속성을 한 번에 변경할 수 있습니다. 각 속성은 file_prefix:property=value 형식으로 지정해야 합니다. 예를 들어 spark-defaults.conf 파일에서 spark.master 설정을 변경하고 hdfs-site.xml 파일에서 dfs.hosts 설정을 변경하려면 클러스터를 만들 때 다음 --properties 플래그를 사용합니다.

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

REST API

spark.executor.memory를 10g로 설정하려면 clusters.create 요청의 SoftwareConfig 섹션에 다음 properties 설정을 삽입하세요.

"properties": {
  "spark:spark.executor.memory": "10g"
}

Dataproc API 클러스터 REST 요청의 JSON 본문 구성 방법을 확인하는 쉬운 방법은 --log-http 플래그를 사용하여 동등한 gcloud 명령어를 시작하는 것입니다. 다음은 --properties spark:spark.executor.memory=10g 플래그로 클러스터 속성을 설정하는 gcloud dataproc clusters create 명령어의 예시입니다. stdout 로그에 해당 REST 요청 본문이 표시됩니다. properties 스니펫은 아래에 나와 있습니다.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

출력:

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

...
== body end ==
...

명령어를 적용하지 않으려면 JSON 본문이 출력에 표시된 후 명령어를 취소해야 합니다.

콘솔

spark-defaults.conf 파일에서 spark.master 설정을 변경하려면 다음 안내를 따르세요.

Google Cloud 콘솔에서 Dataproc 클러스터 만들기 페이지를 엽니다. 클러스터 맞춤설정 패널을 클릭한 다음 클러스터 속성 섹션으로 스크롤합니다.
+ 속성 추가를 클릭합니다. 프리픽스 목록에서 spark를 선택한 다음 키 필드에 'spark.master', 값 필드에 설정을 추가합니다.

클러스터와 작업 속성 비교

클러스터를 만들 때 Apache Hadoop YARN, HDFS, Spark, 기타 파일 프리픽스가 붙은 속성은 클러스터 수준에서 적용됩니다. 클러스터를 만든 후에는 이러한 속성을 클러스터에 적용할 수 없습니다. 하지만 이러한 속성 중 다수는 특정 작업에 적용될 수도 있습니다. 작업에 속성을 적용할 때 파일 프리픽스는 사용되지 않습니다.

다음 예시에서는 Spark 작업의 Spark 실행자 메모리를 4g로 설정합니다(spark: 프리픽스 생략).

gcloud dataproc jobs submit spark \
    --region=REGION \
    --properties=spark.executor.memory=4g \
    other args ...

gcloud dataproc jobs submit job-type --properties-file 플래그를 사용하여 작업 속성을 파일에 제출할 수 있습니다(Hadoop 작업 제출은 --properties-file 설명 참조).

gcloud dataproc jobs submit JOB_TYPE \
    --region=REGION \
    --properties-file=PROPERTIES_FILE \
    other args ...

PROPERTIES_FILE은 줄로 구분된 key=value 쌍 집합입니다. 설정할 속성은 key이며 속성을 설정할 값은 value입니다. 속성 파일 형식에 대한 자세한 설명은 java.util.Properties 클래스를 참조하세요.

다음은 Dataproc 작업을 제출할 때 --properties-file 플래그에 전달할 수 있는 속성 파일의 예시입니다.

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

파일 프리픽스가 있는 속성 표

파일 프리픽스	파일	파일 용도
capacity-scheduler	capacity-scheduler.xml	Hadoop YARN 커패시티 스케줄러 구성
core	core-site.xml	Hadoop 일반 구성
distcp	distcp-default.xml	Hadoop Distributed Copy 구성
flink	flink-conf.yaml	Flink 구성
flink-log4j	log4j.properties	Log4j 설정 파일
hadoop-env	hadoop-env.sh	Hadoop 관련 환경 변수
hadoop-log4j	log4j.properties	Log4j 설정 파일
hbase	hbase-site.xml	HBase 구성
hbase-log4j	log4j.properties	Log4j 설정 파일
hdfs	hdfs-site.xml	Hadoop HDFS 구성
hive	hive-site.xml	Hive 구성
hive-log4j2	hive-log4j2.properties	Log4j 설정 파일
hudi	hudi-default.conf	Hudi 구성
mapred	mapred-site.xml	Hadoop 맵리듀스 구성
mapred-env	mapred-env.sh	Hadoop 맵리듀스 관련 환경 변수
돼지	pig.properties	Pig 구성
pig-log4j	log4j.properties	Log4j 설정 파일
presto	config.properties	Presto 구성
presto-jvm	jvm.config	Presto 관련 JVM 구성
spark	spark-defaults.conf	Spark 구성
spark-env	spark-env.sh	Spark 관련 환경 변수
spark-log4j	log4j.properties	Log4j 설정 파일
tez	tez-site.xml	Tez 구성
webcat-log4j	webhcat-log4j2.properties	Log4j 설정 파일
yarn	yarn-site.xml	Hadoop YARN 구성
yarn-env	yarn-env.sh	Hadoop YARN 관련 환경 변수
zeppelin	zeppelin-site.xml	Zeppelin 구성
zeppelin-env	zeppelin-env.sh	Zeppelin 관련 환경 변수(선택사항 구성요소만 해당)
zeppelin-log4j	log4j.properties	Log4j 설정 파일
zookeeper	zoo.cfg	Zookeeper 구성
zookeeper-log4j	log4j.properties	Log4j 설정 파일

참고

일부 속성은 예약되어 있으며 Dataproc 클러스터의 기능에 영향을 주므로 재정의할 수 없습니다. 예약된 속성을 변경하려는 경우 클러스터를 만들 때 오류 메시지가 표시됩니다.
변경사항이 여러 개인 경우 쉼표를 사용하여 구분합니다.
--properties 플래그는 위에 표시되지 않은 구성 파일을 수정할 수 없습니다.
속성 변경사항은 클러스터에서 데몬이 시작되기 전에 적용됩니다.
지정된 속성이 있는 경우에는 업데이트되고, 지정된 속성이 없으면 구성 파일에 추가됩니다.

Dataproc 서비스 속성

이 섹션에 나와 있는 속성은 Dataproc에만 해당합니다. 이러한 속성은 Dataproc 클러스터의 기능을 추가적으로 구성하는 데 사용할 수 있습니다.

서식 지정

gcloud dataproc clusters create --properties 플래그는 다음 문자열 형식을 허용합니다.

property_prefix1:property1=value1,property_prefix2:property2=value2,...

여러 클러스터 속성을 구분하는 데 사용되는 기본 구분 기호는 쉼표(,)입니다. 그러나 속성 값에 쉼표가 포함된 경우 속성 목록 시작 부분에 '^delimiter^'를 지정하여 구분 기호를 변경해야 합니다(자세한 내용은 gcloud 주제 이스케이프 참조).
- "#" 구분 기호를 사용하는 예시:
```
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
```

예시:

클러스터를 만들고 향상된 유연성 모드를 Spark 기본 작업자 셔플로 설정합니다.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    other args ...

Dataproc 서비스 속성 표

속성 프리픽스	속성	값	설명
dataproc	agent.process.threads.job.min	`number`	Dataproc은 스레드 풀에서 사용자 작업 드라이버를 동시에 실행합니다. 이 속성은 실행 중인 작업이 없을 때도 빠른 시작을 위해 스레드 풀의 최소 스레드 수를 제어합니다(기본값: 10).
dataproc	agent.process.threads.job.max	`number`	Dataproc은 스레드 풀에서 사용자 작업 드라이버를 동시에 실행합니다. 이 속성은 스레드 풀의 최대 스레드 수를 제어하므로 사용자 작업의 최대 동시 실행을 제한합니다. 동시 실행 값을 높이려면 이 값을 늘립니다(기본값: 100).
dataproc	am.primary_only	`true` 또는 `false`	이 속성을 `true`로 설정하여 Dataproc 클러스터 선점형 작업자에서 애플리케이션 마스터가 실행되지 못하게 합니다. 참고: 이 기능은 Dataproc 1.2 이상에서만 사용이 가능하며, 기본값은 `false`입니다.
dataproc	conda.env.config.uri	`gs://<path>`	Conda 환경 구성 파일의 Cloud Storage 내 위치입니다. 이 파일에 따라 새로운 Conda 환경이 생성되고 활성화됩니다. 자세한 내용은 Conda 관련 클러스터 속성 사용을 참조하세요. (기본값: `empty`).
dataproc	conda.packages	Conda 패키지	이 속성은 `base` Conda 환경에 설치될 특정 버전의 쉼표로 구분된 Conda 패키지 목록을 가져옵니다. 자세한 내용은 Conda 관련 클러스터 속성 사용을 참조하세요. (기본값: `empty`).
dataproc	dataproc.allow.zero.workers	`true` 또는 `false`	Dataproc `clusters.create` API 요청에서 이 SoftwareConfig 속성을 `true`로 설정하여 단일 노드 클러스터를 만듭니다. 이렇게 하면 기본 작업자 수가 2에서 0으로 변경되고 마스터 호스트에 작업자 구성요소가 배치됩니다. 단일 노드 클러스터는 작업자 수를 `0`으로 설정하여 Google Cloud 콘솔에서 만들거나 Google Cloud CLI로도 만들 수 있습니다.
dataproc	dataproc.alpha.master.nvdimm.size.gb	1500-6500	값을 설정하면 Intel Optane DC 영구 메모리를 사용하는 Dataproc 마스터가 생성됩니다. 참고: Optane VM은 `us-central1-f` 영역에서 허용된 프로젝트 아래에 `n1-highmem-96-aep` 머신 유형으로만 생성됩니다.
dataproc:	dataproc.alpha.worker.nvdimm.size.gb	1500-6500	값을 설정하면 Intel Optane DC 영구 메모리를 사용하는 Dataproc 작업자가 생성됩니다. 참고: Optane VM은 `us-central1-f` 영역에서 허용된 프로젝트 아래에 `n1-highmem-96-aep` 머신 유형으로만 생성됩니다.
dataproc:	dataproc.await-new-workers-service-registration	`true` 또는 `false`	이 속성은 이미지 2.0.49 이상에서 사용할 수 있습니다. 기본값은 `false`입니다. 이 속성을 `true`로 설정하면 클러스터를 만들거나 클러스터를 확장하는 동안 새로운 기본 작업자가 HDFS NameNode 및 YARN ResourceManager와 같은 서비스 리더를 등록할 때까지 기다립니다(HDFS 및 YARN 서비스만 모니터링됩니다). `true`로 설정하면 새 작업자가 서비스 등록을 실패할 때 작업자에게 `FAILED` 상태가 할당됩니다. 클러스터가 수직 확장되는 경우 실패한 작업자가 삭제됩니다. 클러스터를 만드는 중에 실패한 작업자는 `gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE` 플래그 또는 API `actionOnFailedPrimaryWorkers=DELETE` 필드가 `gcloud` 명령어 또는 API 클러스터 만들기 요청의 일부로 지정된 경우 삭제됩니다.
dataproc:	dataproc.beta.secure.multi-tenancy.user.mapping	`user-to-service account mappings`	이 속성은 사용자와 서비스 간 계정 매핑 목록을 사용합니다. 매핑된 사용자는 격리된 사용자 ID를 사용하여 클러스터에 대화형 워크로드를 제출할 수 있습니다(Dataproc 서비스 계정 기반 보안 멀티테넌시 참조).
dataproc:	dataproc.cluster.caching.enabled	`true` 또는 `false`	클러스터 캐싱을 사용 설정하면 클러스터가 Spark 작업에서 액세스하는 Cloud Storage 데이터를 캐시하여 일관성 저하 없이 작업 성능을 높입니다. (기본값: `false`).
dataproc	dataproc.cluster-ttl.consider-yarn-activity	`true` 또는 `false`	`true`로 설정하면 클러스터 예약 삭제 시 클러스터 유휴 시간을 계산할 때 YARN 및 Dataproc Jobs API를 모두 고려합니다. `false`로 설정하면 Dataproc Jobs API 활동만 고려됩니다. (기본값: `true`). 자세한 내용은 클러스터 유휴 시간 계산을 참조하세요.
dataproc	dataproc.conscrypt.provider.enable	`true` 또는 `false`	Conscrypt를 기본 Java 보안 공급업체로 사용 설정(`true`)하거나 사용 중지(`false`)합니다. 참고: Conscrypt는 Dataproc 1.2 이상에서는 기본적으로 사용 설정되어 있지만 1.0/1.1에서는 사용 중지되어 있습니다.
dataproc	dataproc.cooperative.multi-tenancy.user.mapping	`user-to-service account mappings`	이 속성은 쉼표로 구분된 사용자와 서비스 간 계정 매핑 목록을 사용합니다. 이 속성 세트로 클러스터를 만든 경우 사용자가 작업을 제출하면 클러스터는 Cloud Storage 커넥터를 통해 Cloud Storage에 액세스할 때 해당 서비스 계정을 가장하려고 시도합니다. 이 기능을 사용하려면 Cloud Storage 커넥터 버전 `2.1.4` 이상이 필요합니다. 자세한 내용은 Dataproc 협력 멀티 테넌시를 참조하세요. (기본값: `empty`).
dataproc	dataproc.control.max.assigned.job.tasks	`100`	이 속성은 클러스터 마스터 노드에서 동시에 실행할 수 있는 태스크 수를 제한합니다. 활성 태스크 수가 태스크 한도를 초과하면 실행 중인 작업이 완료되고 리소스가 확보되어 새 태스크를 예약할 수 있을 때까지 새 작업이 큐에 추가됩니다. 참고: 기본 태스크 한도를 `100`(기본값)을 초과하여 설정하지 않으면 마스터 노드에서 메모리 부족 조건이 발생할 수 있으므로 권장되지 않습니다.
dataproc	dataproc:hudi.version	Hudi 버전	선택적 Dataproc Hudi 구성요소와 함께 사용되는 Hudi 버전을 설정합니다. 참고: 이 버전은 Dataproc이 클러스터 이미지 버전과 호환되도록 설정합니다. 사용자가 설정한 경우 지정된 버전이 클러스터 이미지와 호환되지 않으면 클러스터 만들기가 실패할 수 있습니다.
dataproc	dataproc.lineage.enabled	`true`	Spark 작업을 위해 Dataproc 클러스터에서 데이터 계보를 사용 설정합니다.
dataproc	dataproc.localssd.mount.enable	`true` 또는 `false`	로컬 SSD를 Hadoop/Spark 임시 디렉터리 및 HDFS 데이터 디렉터리(기본값: `true`)로 마운트하거나 마운트하지 않습니다.
dataproc	dataproc.logging.extended.enabled	`true` 또는 `false`	`knox`, `zeppelin`, `ranger-usersync`, `jupyter_notebook`, `jupyter_kernel_gateway`, `spark-history-server`에 대해 Cloud Logging에서 로그를 사용 설정(`true`) 또는 사용 중지(`false`)합니다(기본값: `false`). 자세한 내용은 Logging의 Dataproc 클러스터 로그를 참고하세요.
dataproc	dataproc.logging.stackdriver.enable	`true` 또는 `false`	Cloud Logging을 사용 설정(`true`) 또는 사용 중지(`false`)합니다(기본값: `true`). 관련 요금은 Cloud Logging 가격 책정을 참조하세요.
dataproc	dataproc.logging.stackdriver.job.driver.enable	`true` 또는 `false`	Cloud Logging에서 Dataproc 작업 드라이버 로그를 사용 설정(`true`)하거나 사용 중지(`false`)합니다. Dataproc 작업 출력 및 로그를 참조하세요(기본값: `false`).
dataproc	dataproc.logging.stackdriver.job.yarn.container.enable	`true` 또는 `false`	Cloud Logging에서 YARN 컨테이너 로그를 사용 설정(`true`)하거나 사용 중지(`false`)합니다. Spark 작업 출력 옵션을 참조하세요. (기본값: `false`).
dataproc	dataproc.logging.syslog.enabled	`true` 또는 `false`	Cloud Logging에서 VM syslog를 사용 설정(`true`) 또는 사용 중지(`false`)합니다(기본값: `false`).
dataproc	dataproc.master.custom.init.actions.mode	`RUN_BEFORE_SERVICES` 또는 `RUN_AFTER_SERVICES`	2.0 이상의 이미지 클러스터의 경우 `RUN_AFTER_SERVICES`로 설정하면 마스터의 초기화 작업이 HDFS 및 HDFS에 의존하는 모든 서비스가 초기화된 후에 실행됩니다. HDFS 종속 서비스의 예시로는 HBase, Hive Server2, Ranger, Solr, Spark 및 맵리듀스 기록 서버가 있습니다. (기본값: `RUN_BEFORE_SERVICES`).
dataproc	dataproc.monitoring.stackdriver.enable	`true` 또는 `false`	Monitoring 에이전트를 사용 설정(`true`) 또는 사용 중지(`false`)합니다(기본값: `false`). 이 속성은 지원 중단되었습니다. Monitoring에서 Dataproc OSS 측정항목 수집을 사용 설정하려면 커스텀 측정항목 수집 사용 설정을 참조하세요.
dataproc	dataproc.scheduler.driver-size-mb	`number`	클러스터가 실행할 최대 동시 작업 수를 결정하는 평균 드라이버 메모리 공간. 기본값은 `1` GB입니다. Spark 작업에는 더 작은 값(예를 들어 `256`)이 적합할 수 있습니다.
dataproc	dataproc.scheduler.job-submission-rate	`number`	이 속도를 초과하면 작업이 제한됩니다. 기본 속도는 `1.0`QPS입니다.
dataproc	dataproc.scheduler.max-concurrent-jobs	`number`	최대 동시 작업 수. 클러스터를 만들 때 이 값을 설정하지 않으면 동시 작업 상한이 `max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5)`로 계산됩니다. `masterMemoryMb`는 마스터 VM의 머신 유형에 따라 결정됩니다. `masterMemoryMbPerJob`은 기본적으로 `1024`이지만 클러스터 생성 시 `dataproc:dataproc.scheduler.driver-size-mb` 클러스터 속성을 사용하여 구성할 수 있습니다.
dataproc	dataproc.scheduler.max-memory-used	`number`	사용할 수 있는 최대 RAM 크기입니다. 현재 사용량이 이 기준점을 초과하면 새 작업을 예약할 수 없습니다. 기본값은 `0.9`(90%)입니다. `1.0`으로 설정하면 master-memory-utilization 작업 제한이 중지됩니다.
dataproc	dataproc.scheduler.min-free-memory.mb	`number`	Dataproc 작업 드라이버가 클러스터에서 다른 작업을 예약하는 데 필요한 최소 여유 메모리 용량(MB)입니다. 기본값은 `256`MB입니다.
dataproc	dataproc.snap.enabled	`true` 또는 `false`	Ubuntu Snap 데몬을 사용 설정 또는 중지합니다. 기본값은 `true`입니다. `false`로 설정하면 이미지에 사전 설치된 Snap 패키지가 영향을 받지 않지만 자동 새로고침이 사용 중지됩니다. 1.4.71, 1.5.46, 2.0.20 이상의 Ubuntu 이미지에 적용됩니다.
dataproc	dataproc.worker.custom.init.actions.mode	`RUN_BEFORE_SERVICES`	2.0 이전의 이미지 클러스터의 경우 RUN_BEFORE_SERVICES가 설정되지 않지만 클러스터를 만들 때 사용자가 설정할 수 있습니다. 2.0 이상 이미지 클러스터의 경우 RUN_BEFORE_SERVICES가 설정되고 속성을 클러스터에 전달할 수 없습니다(속성을 사용자가 변경할 수 없음). 이 설정의 영향에 대한 자세한 내용은 중요 고려사항 및 가이드라인 - 초기화 처리를 참조하세요.
dataproc	dataproc.yarn.orphaned-app-termination.enable	`true` 또는 `false`	기본값은 `true`입니다. Dataproc이 '분리된' YARN 앱을 종료하지 못하도록 하려면 `false`로 설정합니다. Dataproc은 YARN 앱을 제출한 작업 드라이버가 종료된 경우 YARN 앱이 분리된 것으로 간주합니다. 경고: Spark 클러스터 모드(`spark.submit.deployMode=cluster`)를 사용하고 `spark.yarn.submit.waitAppCompletion=false`로 설정하면 Spark 드라이버가 YARN 앱이 완료되기를 기다리지 않고 종료합니다. 이 경우 `dataproc:dataproc.yarn.orphaned-app-termination.enable=false`를 설정합니다. 또한 Hive 작업을 제출하는 경우 이 속성을 `false`로 설정합니다.
dataproc	diagnostic.capture.enabled	`true` 또는 `false`	클러스터의 체크포인트 진단 데이터 수집을 사용 설정합니다. (기본값: `false`).
dataproc	diagnostic.capture.access	`GOOGLE_DATAPROC_DIAGNOSE`	`GOOGLE_DATAPROC_DIAGNOSE`로 설정하면 Cloud Storage에 저장되는 클러스터 체크포인트 진단 데이터가 Dataproc 지원팀에 공유됩니다. (기본값: 설정되지 않음).
dataproc	efm.spark.shuffle	`primary-worker`	`primary-worker`로 설정하면 Spark 셔플 데이터가 기본 작업자에 기록됩니다. 자세한 내용은 Dataproc 향상된 유연성 모드를 참조하세요.
dataproc	job.history.to-gcs.enabled	`true` 또는 `false`	Dataproc 임시 버킷에 대해 영구적인 맵리듀스 및 Spark 기록 파일을 허용합니다(기본값: 이미지 버전 1.5+의 경우 `true`). 사용자는 `mapreduce.jobhistory.done-dir`, `mapreduce.jobhistory.intermediate-done-dir`, `spark.eventLog.dir`, `spark.history.fs.logDirectory` 속성을 통해 작업 기록 파일 영구 위치를 덮어쓸 수 있습니다. 이러한 속성 및 Dataproc 작업 기록 및 이벤트 파일과 연관된 기타 클러스터 속성에 대한 자세한 내용은 Dataproc 영구 기록 서버를 참조하세요.
dataproc	jobs.file-backed-output.enable	`true` 또는 `false`	출력을 `/var/log/google-dataproc-job` 디렉터리에 있는 임시 파일로 보내도록 Dataproc 작업을 구성합니다. Cloud Logging에서 작업 드라이버 로깅을 사용 설정하려면 `true`로 설정해야 합니다. 기본값은 `true`입니다.
dataproc	jupyter.listen.all.interfaces	`true` 또는 `false`	보안되지 않은 노트북 서버 API에 대한 원격 코드 실행 위험을 줄이려면 이미지 버전 1.3+인 경우 기본 설정은 `false`로, 구성요소 게이트웨이가 사용 설정된 경우 `localhost`(`127.0.0.1`)로 연결을 제한합니다(2.0+ 이미지의 경우 구성요소 게이트웨이 활성화가 필요하지 않음). 이 속성을 `true`로 설정하면 모든 연결을 허용하도록 이 기본값 설정을 재정의할 수 있습니다.
dataproc	jupyter.notebook.gcs.dir	`gs://<dir-path>`	Cloud Storage 내에서 Jupyter 노트북을 저장할 위치입니다.
dataproc	kerberos.beta.automatic-config.enable	`true` 또는 `false`	`true`로 설정하면 사용자는 `--kerberos-root-principal-password` 및 `--kerberos-kms-key-uri` 플래그로 Kerberos 루트 주 구성원 비밀번호를 지정할 수 없습니다(기본값: `false`). 자세한 내용은 Kerberos를 통한 Hadoop 보안 모드 사용 설정을 참조하세요.
dataproc	kerberos.cross-realm-trust.admin-server	`hostname/address`	원격 관리 서버의 호스트 이름/주소입니다(종종 KDC 서버와 동일).
dataproc	kerberos.cross-realm-trust.kdc	`hostname/address`	원격 KDC의 호스트 이름/주소입니다.
dataproc	kerberos.cross-realm-trust.realm	`realm name`	영역 이름은 대문자 ASCII 문자열로 구성될 수 있습니다. 일반적으로 영역 이름은 DNS 도메인 이름과 동일합니다(대문자). 예를 들어 머신 이름이 '`machine-id`.example.west-coast.mycompany.com'인 경우 연결된 렐름을 'EXAMPLE.WEST-COAST.MYCOMPANY.COM'으로 지정할 수 있습니다.
dataproc	kerberos.cross-realm-trust.shared-password.uri	`gs://<dir-path>`	Cloud Storage 내에서 KMS로 암호화된 공유 비밀번호의 위치입니다.
dataproc	kerberos.kdc.db.key.uri	`gs://<dir-path>`	Cloud Storage 내에서 KDC 데이터베이스 마스터 키가 포함된 KMS로 암호화된 파일의 위치입니다.
dataproc	kerberos.key.password.uri	`gs://<dir-path>`	Cloud Storage 내에서 keystore 파일에 있는 키의 비밀번호가 포함된 KMS로 암호화된 파일의 위치입니다.
dataproc	kerberos.keystore.password.uri	`gs://<dir-path>`	Cloud Storage 내에서 keystore 비밀번호가 포함된 KMS로 암호화된 파일의 위치입니다.
dataproc	kerberos.keystore.uri¹	`gs://<dir-path>`	Cloud Storage 내에서 와일드카드 인증서와 클러스터 노드에서 사용하는 비공개 키가 포함된 keystore 파일의 위치입니다.
dataproc	kerberos.kms.key.uri	`KMS key URI`	루트 비밀번호를 복호화하는 데 사용되는 KMS 키의 URI입니다. 예를 들면 `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key`입니다(키 리소스 ID 참조).
dataproc	kerberos.root.principal.password.uri	`gs://<dir-path>`	Cloud Storage 내에서 Kerberos 루트 주 구성원에 대해 KMS로 암호화된 비밀번호의 위치입니다.
dataproc	kerberos.tgt.lifetime.hours	`hours`	티켓 증명 티켓의 최대 수명입니다.
dataproc	kerberos.truststore.password.uri	`gs://<dir-path>`	Cloud Storage 내에서 truststore 파일에 대한 비밀번호가 포함된 KMS로 암호화된 파일의 위치입니다.
dataproc	kerberos.truststore.uri²	`gs://<dir-path>`	Cloud Storage 내에서 트러스트 인증서가 포함된 KMS로 암호화된 트러스트 저장소 파일의 위치입니다.
dataproc	pip.packages	Pip 패키지	이 속성은 `base` Conda 환경에 설치될 특정 버전의 쉼표로 구분된 Pip 패키지 목록을 가져옵니다. 자세한 내용은 Conda 관련 클러스터 속성을 참조하세요. (기본값: `empty`).
dataproc	ranger.kms.key.uri	`KMS key URI`	Ranger 관리자 사용자 암호를 복호화하는 데 사용되는 KMS 키의 URI입니다. 예를 들면 `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key`입니다(키 리소스 ID 참조).
dataproc	ranger.admin.password.uri	`gs://<dir-path>`	Cloud Storage에서 Ranger 관리자 사용자의 KMS로 암호화된 암호의 위치입니다.
dataproc	ranger.db.admin.password.uri	`gs://<dir-path>`	Cloud Storage에서 Ranger 데이터베이스 관리자 사용자에 대한 KMS로 암호화된 암호의 위치입니다.
dataproc	ranger.cloud-sql.instance.connection.name	`cloud sql instance connection name`	Cloud SQL 인스턴스의 연결 이름입니다(예시: `project-id:region:name.`).
dataproc	ranger.cloud-sql.root.password.uri	`gs://<dir-path>`	Cloud Storage에서 Cloud SQL 인스턴스의 루트 사용자에 대해 KMS로 암호화된 암호의 위치입니다.
dataproc	ranger.cloud-sql.use-private-ip	`true` 또는 `false`	클러스터 인스턴스와 Cloud SQL 인스턴스 사이의 커뮤니케이션에 비공개 IP를 사용해야 하는지 여부입니다(기본값은 `false`).
dataproc	solr.gcs.path	`gs://<dir-path>`	Solr 홈 디렉터리로 사용되는 Cloud Storage 경로입니다.
dataproc	startup.component.service-binding-timeout.hadoop-hdfs-namenode	`seconds`	Dataproc 시작 스크립트의 시작 성공 여부를 결정하기 전에 hadoop-hdfs-namenode가 포트에 바인딩될 때까지 대기하는 시간입니다. 최대 인식 값은 1800초(30분)입니다.
dataproc	startup.component.service-binding-timeout.hive-metastore	`seconds`	Dataproc 시작 스크립트의 시작 성공 여부를 결정하기 전에 hive-metastore 서비스가 포트에 바인딩될 때까지 대기하는 시간입니다. 최대 인식 값은 1800초(30분)입니다.
dataproc	startup.component.service-binding-timeout.hive-server2	`seconds`	Dataproc 시작 스크립트의 시작 성공 여부를 결정하기 전에 hive-server2가 포트에 바인딩될 때까지 대기하는 시간입니다. 최대 인식 값은 1800초(30분)입니다.
dataproc	user-attribution.enabled	`true` 또는 `false`	이 속성을 `true`로 설정하여 이를 제출한 사용자의 ID로 Dataproc 작업을 설정합니다(기본값은 `false`).
dataproc	yarn.docker.enable	`true` 또는 `false`	`true`로 설정하여 YARN 기반 Dataproc Docker 기능을 사용 설정합니다(기본값은 `false`).
dataproc	yarn.docker.image	`docker image`	YARN 기능으로 Dataproc Docker(`dataproc:yarn.docker.enable=true`)를 사용 설정할 때 이 선택적 속성을 사용하여 Docker 이미지를 지정할 수 있습니다(예: `dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1`). 지정된 경우 이미지가 클러스터 생성 중 클러스터의 모든 노드에 다운로드되어 캐시됩니다.
dataproc	yarn.log-aggregation.enabled	`true` 또는 `false`	클러스터의 `temp bucket`에 YARN 로그 집계 켜기를 허용(`true`)합니다. 버킷 이름은 `dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>` 형식입니다. (기본값: 이미지 버전 1.5+의 경우 `true`). 참고: 클러스터가 삭제될 때 클러스터의 임시 버킷은 삭제되지 않습니다. 사용자는 또한 `yarn.nodemanager.remote-app-log-dir` YARN 속성 덮어쓰기로 집계된 YARN 로그 위치를 설정할 수 있습니다.
knox	gateway.host	`ip address`	보안되지 않은 노트북 서버 API에 대한 원격 코드 실행 위험을 줄이려면 이미지 버전 1.3 이상인 경우 기본 설정은 `127.0.0.1`로, 구성요소 게이트웨이가 사용 설정된 경우 `localhost`으로 연결을 제한합니다. 예를 들어 이 속성을 `0.0.0.0`로 설정하면 모든 연결을 허용하도록 이 기본값 설정을 재정의할 수 있습니다.
zeppelin	zeppelin.notebook.gcs.dir	`gs://<dir-path>`	Cloud Storage 내에서 Zeppelin 노트북을 저장할 위치입니다.
zeppelin	zeppelin.server.addr	`ip address`	보안되지 않은 노트북 서버 API에 대한 원격 코드 실행 위험을 줄이려면 이미지 버전 1.3 이상인 경우 기본 설정은 `127.0.0.1`로, 구성요소 게이트웨이가 사용 설정된 경우 `localhost`으로 연결을 제한합니다. 예를 들어 이 속성을 `0.0.0.0`로 설정하면 모든 연결을 허용하도록 이 기본값 설정을 재정의할 수 있습니다.

¹키 저장소 파일: 키 저장소 파일에는 SSL 인증서가 있습니다. 이는 Java KeyStore(JKS) 형식이어야 합니다. VM에 복사하면 이름이 keystore.jks로 변경됩니다. SSL 인증서는 클러스터의 각 노드에 적용되는 와일드카드 인증서여야 합니다.

²Truststore 파일: truststore 파일은 Java KeyStore(JKS) 형식이어야 합니다. VM에 복사하면 이름이 truststore.jks로 변경됩니다.

클러스터 속성 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

Apache Hadoop YARN, HDFS, Spark, 관련 속성

서식 지정

예시

gcloud 명령어

REST API

콘솔

클러스터와 작업 속성 비교

파일 프리픽스가 있는 속성 표

Dataproc 서비스 속성

서식 지정

Dataproc 서비스 속성 표

클러스터 속성