Apache Hadoop YARN, HDFS, Spark, 관련 속성
Dataproc 클러스터에 설치된 오픈소스 구성요소에는 많은 구성 파일이 포함되어 있습니다. 예를 들어 Apache Spark와 Apache Hadoop에는 XML 및 일반 텍스트 구성 파일이 여러 개 있습니다. gcloud dataproc clusters create 명령어의 ‑‑properties
플래그를 사용하면 클러스터를 만들 때 여러 일반 구성 파일을 수정할 수 있습니다.
서식 지정
gcloud dataproc clusters create --properties
플래그는 다음 문자열 형식을 허용합니다.
file_prefix1:property1=value1,file_prefix2:property2=value2,...
file_prefix는 아래 표에 나와 있는 사전 정의된 구성 파일에 매핑되고 property는 파일 내의 속성에 매핑됩니다.
여러 클러스터 속성을 구분하는 데 사용되는 기본 구분 기호는 쉼표(,)입니다. 그러나 속성 값에 쉼표가 포함된 경우 속성 목록 시작 부분에 '^delimiter^'를 지정하여 구분 기호를 변경해야 합니다(자세한 내용은 gcloud 주제 이스케이프 참조).
- "#" 구분 기호를 사용하는 예시:
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
- "#" 구분 기호를 사용하는 예시:
예시
gcloud 명령어
spark-defaults.conf
파일의 spark.master
설정을 변경하려면 다음 gcloud dataproc clusters create --properties
플래그를 추가합니다.
--properties 'spark:spark.master=spark://example.com'
구성 파일이 하나 이상인 경우 쉼표 구분자를 사용하면 여러 속성을 한 번에 변경할 수 있습니다. 각 속성은 file_prefix:property=value
형식으로 지정해야 합니다. 예를 들어 spark-defaults.conf
파일에서 spark.master
설정을 변경하고 hdfs-site.xml
파일에서 dfs.hosts
설정을 변경하려면 클러스터를 만들 때 다음 --properties
플래그를 사용합니다.
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'
REST API
spark.executor.memory
를 10g
로 설정하려면 clusters.create 요청의 SoftwareConfig 섹션에 다음 properties
설정을 삽입하세요.
"properties": { "spark:spark.executor.memory": "10g" }
Dataproc API 클러스터 REST 요청의 JSON 본문 구성 방법을 확인하는 쉬운 방법은 --log-http
플래그를 사용하여 동등한 gcloud
명령어를 시작하는 것입니다.
다음은 --properties spark:spark.executor.memory=10g
플래그로 클러스터 속성을 설정하는 gcloud dataproc clusters create
명령어의 예시입니다.
stdout 로그에 해당 REST 요청 본문이 표시됩니다. properties
스니펫은 아래에 나와 있습니다.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=spark:spark.executor.memory=10g \ --log-http \ other args ...
출력:
... == body start == {"clusterName": "my-cluster", "config": {"gceClusterConfig": ... "masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},
... == body end == ...
명령어를 적용하지 않으려면 JSON 본문이 출력에 표시된 후 명령어를 취소해야 합니다.
Console
spark-defaults.conf
파일에서 spark.master
설정을 변경하려면 다음 안내를 따르세요.
- Google Cloud 콘솔에서 Dataproc 클러스터 만들기 페이지를 엽니다. 클러스터 맞춤설정 패널을 클릭한 다음 클러스터 속성 섹션으로 스크롤합니다.
- + 속성 추가를 클릭합니다. 프리픽스 목록에서 spark를 선택한 다음 키 필드에 'spark.master', 값 필드에 설정을 추가합니다.
클러스터와 작업 속성 비교
클러스터를 만들 때 Apache Hadoop YARN, HDFS, Spark, 기타 파일 프리픽스가 붙은 속성은 클러스터 수준에서 적용됩니다. 클러스터를 만든 후에는 이러한 속성을 클러스터에 적용할 수 없습니다. 하지만 이러한 속성 중 다수는 특정 작업에 적용될 수도 있습니다. 작업에 속성을 적용할 때 파일 프리픽스는 사용되지 않습니다.
다음 예시에서는 Spark 작업의 Spark 실행자 메모리를 4g로 설정합니다(spark:
프리픽스 생략).
gcloud dataproc jobs submit spark \ --region=REGION \ --properties=spark.executor.memory=4g \ other args ...
gcloud dataproc jobs submit job-type --properties-file
플래그를 사용하여 작업 속성을 파일에 제출할 수 있습니다(Hadoop 작업 제출은 --properties-file 설명 참조).
gcloud dataproc jobs submit JOB_TYPE \ --region=REGION \ --properties-file=PROPERTIES_FILE \ other args ...
PROPERTIES_FILE
은 줄로 구분된 key
=value
쌍 집합입니다. 설정할 속성은 key
이며 속성을 설정할 값은 value
입니다. 속성 파일 형식에 대한 자세한 설명은 java.util.Properties 클래스를 참조하세요.
다음은 Dataproc 작업을 제출할 때 --properties-file
플래그에 전달할 수 있는 속성 파일의 예시입니다.
dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml spark:spark.history.fs.logDirectory=gs://some-bucket spark:spark.eventLog.dir=gs://some-bucket capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5
파일 프리픽스가 있는 속성 표
파일 프리픽스 | 파일 | 파일 용도 |
---|---|---|
capacity-scheduler | capacity-scheduler.xml | Hadoop YARN 커패시티 스케줄러 구성 |
core | core-site.xml | Hadoop 일반 구성 |
distcp | distcp-default.xml | Hadoop Distributed Copy 구성 |
flink | flink-conf.yaml | Flink 구성 |
flink-log4j | log4j.properties | Log4j 설정 파일 |
hadoop-env | hadoop-env.sh | Hadoop 관련 환경 변수 |
hadoop-log4j | log4j.properties | Log4j 설정 파일 |
hbase | hbase-site.xml | HBase 구성 |
hbase-log4j | log4j.properties | Log4j 설정 파일 |
hdfs | hdfs-site.xml | Hadoop HDFS 구성 |
hive | hive-site.xml | Hive 구성 |
hive-log4j2 | hive-log4j2.properties | Log4j 설정 파일 |
hudi | hudi-default.conf | Hudi 구성 |
mapred | mapred-site.xml | Hadoop 맵리듀스 구성 |
mapred-env | mapred-env.sh | Hadoop 맵리듀스 관련 환경 변수 |
돼지 | pig.properties | Pig 구성 |
pig-log4j | log4j.properties | Log4j 설정 파일 |
presto | config.properties | Presto 구성 |
presto-jvm | jvm.config | Presto 관련 JVM 구성 |
spark | spark-defaults.conf | Spark 구성 |
spark-env | spark-env.sh | Spark 관련 환경 변수 |
spark-log4j | log4j.properties | Log4j 설정 파일 |
tez | tez-site.xml | Tez 구성 |
webcat-log4j | webhcat-log4j2.properties | Log4j 설정 파일 |
yarn | yarn-site.xml | Hadoop YARN 구성 |
yarn-env | yarn-env.sh | Hadoop YARN 관련 환경 변수 |
zeppelin | zeppelin-site.xml | Zeppelin 구성 |
zeppelin-env | zeppelin-env.sh | Zeppelin 관련 환경 변수(선택사항 구성요소만 해당) |
zeppelin-log4j | log4j.properties | Log4j 설정 파일 |
zookeeper | zoo.cfg | Zookeeper 구성 |
zookeeper-log4j | log4j.properties | Log4j 설정 파일 |
참고
- 일부 속성은 예약되어 있으며 Dataproc 클러스터의 기능에 영향을 주므로 재정의할 수 없습니다. 예약된 속성을 변경하려는 경우 클러스터를 만들 때 오류 메시지가 표시됩니다.
- 변경사항이 여러 개인 경우 쉼표를 사용하여 구분합니다.
--properties
플래그는 위에 표시되지 않은 구성 파일을 수정할 수 없습니다.- 속성 변경사항은 클러스터에서 데몬이 시작되기 전에 적용됩니다.
- 지정된 속성이 있는 경우에는 업데이트되고, 지정된 속성이 없으면 구성 파일에 추가됩니다.
Dataproc 서비스 속성
이 섹션에 나와 있는 속성은 Dataproc에만 해당합니다. 이러한 속성은 Dataproc 클러스터의 기능을 추가적으로 구성하는 데 사용할 수 있습니다.
서식 지정
gcloud dataproc clusters create --properties
플래그는 다음 문자열 형식을 허용합니다.
property_prefix1:property1=value1,property_prefix2:property2=value2,...
여러 클러스터 속성을 구분하는 데 사용되는 기본 구분 기호는 쉼표(,)입니다. 그러나 속성 값에 쉼표가 포함된 경우 속성 목록 시작 부분에 '^delimiter^'를 지정하여 구분 기호를 변경해야 합니다(자세한 내용은 gcloud 주제 이스케이프 참조).
- "#" 구분 기호를 사용하는 예시:
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
- "#" 구분 기호를 사용하는 예시:
예시:
클러스터를 만들고 향상된 유연성 모드를 Spark 기본 작업자 셔플로 설정합니다.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=dataproc:efm.spark.shuffle=primary-worker \ other args ...
Dataproc 서비스 속성 표
속성 프리픽스 | 속성 | 값 | 설명 |
---|---|---|---|
dataproc | agent.process.threads.job.min | number |
Dataproc은 스레드 풀에서 사용자 작업 드라이버를 동시에 실행합니다. 이 속성은 실행 중인 작업이 없을 때도 빠른 시작을 위해 스레드 풀의 최소 스레드 수를 제어합니다(기본값: 10). |
dataproc | agent.process.threads.job.max | number |
Dataproc은 스레드 풀에서 사용자 작업 드라이버를 동시에 실행합니다. 이 속성은 스레드 풀의 최대 스레드 수를 제어하므로 사용자 작업의 최대 동시 실행을 제한합니다. 동시 실행 값을 높이려면 이 값을 늘립니다(기본값: 100). |
dataproc | am.primary_only | true 또는 false |
이 속성을 true 로 설정하여 Dataproc 클러스터 선점형 작업자에서 애플리케이션 마스터가 실행되지 못하게 합니다. 참고: 이 기능은 Dataproc 1.2 이상에서만 사용이 가능하며, 기본값은 false 입니다. |
dataproc | conda.env.config.uri | gs://<path> |
Conda 환경 구성 파일의 Cloud Storage 내 위치입니다. 이 파일에 따라 새로운 Conda 환경이 생성되고 활성화됩니다. 자세한 내용은 Conda 관련 클러스터 속성 사용을 참조하세요. (기본값: empty ). |
dataproc | conda.packages | Conda 패키지 | 이 속성은 base Conda 환경에 설치될 특정 버전의 쉼표로 구분된 Conda 패키지 목록을 가져옵니다. 자세한 내용은 Conda 관련 클러스터 속성 사용을 참조하세요. (기본값: empty ). |
dataproc | dataproc.allow.zero.workers | true 또는 false |
Dataproc clusters.create API 요청에서 이 SoftwareConfig 속성을 true 로 설정하여 단일 노드 클러스터를 만듭니다. 이렇게 하면 기본 작업자 수가 2에서 0으로 변경되고 마스터 호스트에 작업자 구성요소가 배치됩니다. 작업자 수를 0 으로 설정하여 Google Cloud 콘솔에서 또는 Google Cloud CLI를 사용하여 단일 노드 클러스터를 만들 수 있습니다. |
dataproc | dataproc.alpha.master.nvdimm.size.gb | 1500-6500 | 값을 설정하면 Intel Optane DC 영구 메모리를 사용하는 Dataproc 마스터가 생성됩니다. 참고: Optane VM은 us-central1-f 영역에서 허용된 프로젝트 아래에 n1-highmem-96-aep 머신 유형으로만 생성됩니다. |
dataproc: | dataproc.alpha.worker.nvdimm.size.gb | 1500-6500 | 값을 설정하면 Intel Optane DC 영구 메모리를 사용하는 Dataproc 작업자가 생성됩니다. 참고: Optane VM은 us-central1-f 영역에서 허용된 프로젝트 아래에 n1-highmem-96-aep 머신 유형으로만 생성됩니다. |
dataproc: | dataproc.await-new-workers-service-registration | true 또는 false |
이 속성은 이미지 2.0.49 이상에서 사용할 수 있습니다. 기본값은 false 입니다. 이 속성을 true 로 설정하면 클러스터를 만들거나 클러스터를 확장하는 동안 새로운 기본 작업자가 HDFS NameNode 및 YARN ResourceManager와 같은 서비스 리더를 등록할 때까지 기다립니다(HDFS 및 YARN 서비스만 모니터링됩니다). true 로 설정하면 새 작업자가 서비스에 등록되지 않을 경우 작업자에 FAILED 상태가 할당됩니다. 실패한 작업자는 클러스터가 확장되면 삭제됩니다. 클러스터를 만드는 중에 실패한 작업자는 gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE 플래그 또는 API actionOnFailedPrimaryWorkers=DELETE 필드가 gcloud 명령어 또는 API 클러스터 만들기 요청의 일부로 지정된 경우 삭제됩니다. |
dataproc: | dataproc.beta.secure.multi-tenancy.user.mapping | user-to-service account mappings |
이 속성은 사용자와 서비스 간 계정 매핑 목록을 사용합니다. 매핑된 사용자는 격리된 사용자 ID를 사용하여 클러스터에 대화형 워크로드를 제출할 수 있습니다(Dataproc 서비스 계정 기반 보안 멀티테넌시 참조). |
dataproc: | dataproc.cluster.caching.enabled | true 또는 false |
클러스터 캐싱을 사용 설정하면 클러스터가 Spark 작업에서 액세스하는 Cloud Storage 데이터를 캐시하여 일관성 저하 없이 작업 성능을 높입니다. (기본값: false ). |
dataproc | dataproc.cluster-ttl.consider-yarn-activity | true 또는 false |
true 로 설정하면 클러스터 유휴 시간을 계산할 때 클러스터 예약 삭제가 YARN 및 Dataproc Jobs API 활동을 모두 고려합니다. false 로 설정하면 Dataproc Jobs API 활동만 고려됩니다. 기본값은 true 입니다. 자세한 내용은 클러스터 유휴 시간 계산을 참조하세요. |
dataproc | dataproc.conscrypt.provider.enable | true 또는 false |
Conscrypt를 기본 Java 보안 공급업체로 사용 설정(true )하거나 사용 중지(false )합니다. 참고: Conscrypt는 Dataproc 1.2 이상에서는 기본적으로 사용 설정되어 있지만 1.0/1.1에서는 사용 중지되어 있습니다. |
dataproc | dataproc.cooperative.multi-tenancy.user.mapping | user-to-service account mappings |
이 속성은 쉼표로 구분된 사용자와 서비스 간 계정 매핑 목록을 사용합니다. 이 속성 세트로 클러스터를 만든 경우 사용자가 작업을 제출하면 클러스터는 Cloud Storage 커넥터를 통해 Cloud Storage에 액세스할 때 해당 서비스 계정을 가장하려고 시도합니다. 이 기능을 사용하려면 Cloud Storage 커넥터 버전 2.1.4 이상이 필요합니다. 자세한 내용은 Dataproc 협력 멀티 테넌시를 참조하세요. (기본값: empty ). |
dataproc | dataproc.control.max.assigned.job.tasks | 100 |
이 속성은 클러스터 마스터 노드에서 동시에 실행할 수 있는 태스크 수를 제한합니다. 활성 태스크 수가 태스크 한도를 초과하면 실행 중인 작업이 완료되고 리소스가 확보되어 새 태스크를 예약할 수 있을 때까지 새 작업이 큐에 추가됩니다. 참고: 기본 태스크 한도를 100 (기본값)을 초과하여 설정하지 않으면 마스터 노드에서 메모리 부족 조건이 발생할 수 있으므로 권장되지 않습니다. |
dataproc | dataproc:hudi.version | Hudi 버전 | 선택적 Dataproc Hudi 구성요소와 함께 사용되는 Hudi 버전을 설정합니다. 참고: 이 버전은 Dataproc이 클러스터 이미지 버전과 호환되도록 설정합니다. 사용자가 설정한 경우 지정된 버전이 클러스터 이미지와 호환되지 않으면 클러스터 만들기가 실패할 수 있습니다. |
dataproc | dataproc.lineage.enabled | true |
Spark 작업을 위해 Dataproc 클러스터에서 데이터 계보를 사용 설정합니다. |
dataproc | dataproc.localssd.mount.enable | true 또는 false |
로컬 SSD를 Hadoop/Spark 임시 디렉터리 및 HDFS 데이터 디렉터리(기본값: true )로 마운트하거나 마운트하지 않습니다. |
dataproc | dataproc.logging.stackdriver.enable | true 또는 false |
Cloud Logging을 사용 설정(true ) 또는 사용 중지(false )합니다(기본값: true ). 관련 요금은 Cloud Logging 가격 책정을 참조하세요. |
dataproc | dataproc.logging.stackdriver.job.driver.enable | true 또는 false |
Cloud Logging에서 Dataproc 작업 드라이버 로그를 사용 설정(true )하거나 사용 중지(false )합니다. Dataproc 작업 출력 및 로그를 참조하세요(기본값: false ). |
dataproc | dataproc.logging.stackdriver.job.yarn.container.enable | true 또는 false |
Cloud Logging에서 YARN 컨테이너 로그를 사용 설정(true )하거나 사용 중지(false )합니다. Spark 작업 출력 옵션을 참조하세요. 기본값은 false 입니다. |
dataproc | dataproc.master.custom.init.actions.mode | RUN_BEFORE_SERVICES 또는 RUN_AFTER_SERVICES |
2.0 이상의 이미지 클러스터의 경우 RUN_AFTER_SERVICES 로 설정하면 마스터의 초기화 작업이 HDFS 및 HDFS에 의존하는 모든 서비스가 초기화된 후에 실행됩니다. HDFS 종속 서비스의 예시로는 HBase, Hive Server2, Ranger, Solr, Spark 및 맵리듀스 기록 서버가 있습니다. (기본값: RUN_BEFORE_SERVICES ). |
dataproc | dataproc.monitoring.stackdriver.enable | true 또는 false |
Monitoring 에이전트를 사용 설정(true ) 또는 사용 중지(false )합니다(기본값: false ). 이 속성은 지원 중단되었습니다. Monitoring에서 Dataproc OSS 측정항목 수집을 사용 설정하려면 커스텀 측정항목 수집 사용 설정을 참조하세요. |
dataproc | dataproc.scheduler.driver-size-mb | number |
클러스터가 실행할 최대 동시 작업 수를 결정하는 평균 드라이버 메모리 공간. 기본값은 1 GB입니다. Spark 작업에는 더 작은 값(예를 들어 256 )이 적합할 수 있습니다. |
dataproc | dataproc.scheduler.job-submission-rate | number |
이 속도를 초과하면 작업이 제한됩니다. 기본 속도는 1.0 QPS입니다. |
dataproc | dataproc.scheduler.max-concurrent-jobs | number |
최대 동시 작업 수. 클러스터를 만들 때 이 값을 설정하지 않으면 동시 작업 상한이 max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5) 로 계산됩니다. masterMemoryMb 는 마스터 VM의 머신 유형에 따라 결정됩니다. masterMemoryMbPerJob 은 기본적으로 1024 이지만 클러스터 생성 시 dataproc:dataproc.scheduler.driver-size-mb 클러스터 속성을 사용하여 구성할 수 있습니다. |
dataproc | dataproc.scheduler.max-memory-used | number |
사용할 수 있는 최대 RAM 크기입니다. 현재 사용량이 이 기준점을 초과하면 새 작업을 예약할 수 없습니다. 기본값은 0.9 (90%)입니다. 1.0 으로 설정하면 master-memory-utilization 작업 제한이 중지됩니다. |
dataproc | dataproc.scheduler.min-free-memory.mb | number |
Dataproc 작업 드라이버가 클러스터에서 다른 작업을 예약하는 데 필요한 최소 여유 메모리 용량(MB)입니다. 기본값은 256 MB입니다. |
dataproc | dataproc.snap.enabled | true 또는 false |
Ubuntu Snap 데몬을 사용 설정 또는 중지합니다. 기본값은 true 입니다. false 로 설정하면 이미지에 사전 설치된 Snap 패키지가 영향을 받지 않지만 자동 새로고침이 사용 중지됩니다. 1.4.71, 1.5.46, 2.0.20 이상의 Ubuntu 이미지에 적용됩니다. |
dataproc | dataproc.worker.custom.init.actions.mode | RUN_BEFORE_SERVICES |
2.0 이전의 이미지 클러스터의 경우 RUN_BEFORE_SERVICES가 설정되지 않지만 클러스터를 만들 때 사용자가 설정할 수 있습니다. 2.0 이상 이미지 클러스터의 경우 RUN_BEFORE_SERVICES가 설정되고 속성을 클러스터에 전달할 수 없습니다(속성을 사용자가 변경할 수 없음). 이 설정의 영향에 대한 자세한 내용은 중요 고려사항 및 가이드라인 - 초기화 처리를 참조하세요. |
dataproc | dataproc.yarn.orphaned-app-termination.enable | true 또는 false |
기본값은 true 입니다. Dataproc이 '분리된' YARN 앱을 종료하지 못하도록 하려면 false 로 설정합니다. Dataproc은 YARN 앱을 제출한 작업 드라이버가 종료된 경우 YARN 앱이 분리된 것으로 간주합니다. 경고: Spark 클러스터 모드(spark.submit.deployMode=cluster )를 사용하고 spark.yarn.submit.waitAppCompletion=false 로 설정하면 Spark 드라이버가 YARN 앱이 완료되기를 기다리지 않고 종료합니다. 이 경우 dataproc:dataproc.yarn.orphaned-app-termination.enable=false 를 설정합니다. 또한 Hive 작업을 제출하는 경우 이 속성을 false 로 설정합니다. |
dataproc | efm.spark.shuffle | primary-worker |
primary-worker 로 설정하면 Spark 셔플 데이터가 기본 작업자에 기록됩니다. 자세한 내용은 Dataproc 향상된 유연성 모드를 참조하세요. |
dataproc | job.history.to-gcs.enabled | true 또는 false |
Dataproc 임시 버킷에 대해 영구적인 맵리듀스 및 Spark 기록 파일을 허용합니다(기본값: 이미지 버전 1.5+의 경우 true ). 사용자는 mapreduce.jobhistory.done-dir , mapreduce.jobhistory.intermediate-done-dir , spark.eventLog.dir , spark.history.fs.logDirectory 속성을 통해 작업 기록 파일 영구 위치를 덮어쓸 수 있습니다. 이러한 속성 및 Dataproc 작업 기록 및 이벤트 파일과 연관된 기타 클러스터 속성에 대한 자세한 내용은 Dataproc 영구 기록 서버를 참조하세요. |
dataproc | jobs.file-backed-output.enable | true 또는 false |
출력을 /var/log/google-dataproc-job 디렉터리에 있는 임시 파일로 보내도록 Dataproc 작업을 구성합니다. Cloud Logging에서 작업 드라이버 로깅을 사용 설정하려면 true 로 설정해야 합니다. 기본값은 true 입니다. |
dataproc | jupyter.listen.all.interfaces | true 또는 false |
보안되지 않은 노트북 서버 API에 대한 원격 코드 실행 위험을 줄이려면 이미지 버전 1.3+인 경우 기본 설정은 false 로, 구성요소 게이트웨이가 사용 설정된 경우 localhost (127.0.0.1 )로 연결을 제한합니다(2.0+ 이미지의 경우 구성요소 게이트웨이 활성화가 필요하지 않음). 이 속성을 true 로 설정하면 모든 연결을 허용하도록 이 기본값 설정을 재정의할 수 있습니다. |
dataproc | jupyter.notebook.gcs.dir | gs://<dir-path> |
Cloud Storage 내에서 Jupyter 노트북을 저장할 위치입니다. |
dataproc | kerberos.beta.automatic-config.enable | true 또는 false |
true 로 설정하면 사용자는 --kerberos-root-principal-password 및 --kerberos-kms-key-uri 플래그로 Kerberos 루트 주 구성원 비밀번호를 지정할 수 없습니다(기본값: false ). 자세한 내용은 Kerberos를 통한 Hadoop 보안 모드 사용 설정을 참조하세요. |
dataproc | kerberos.cross-realm-trust.admin-server | hostname/address |
원격 관리 서버의 호스트 이름/주소입니다(종종 KDC 서버와 동일). |
dataproc | kerberos.cross-realm-trust.kdc | hostname/address |
원격 KDC의 호스트 이름/주소입니다. |
dataproc | kerberos.cross-realm-trust.realm | realm name |
영역 이름은 대문자 ASCII 문자열로 구성될 수 있습니다. 일반적으로 영역 이름은 DNS 도메인 이름과 동일합니다(대문자). 예를 들어 머신 이름이 'machine-id.example.west-coast.mycompany.com'인 경우 연결된 렐름을 'EXAMPLE.WEST-COAST.MYCOMPANY.COM'으로 지정할 수 있습니다. |
dataproc | kerberos.cross-realm-trust.shared-password.uri | gs://<dir-path> |
Cloud Storage 내에서 KMS로 암호화된 공유 비밀번호의 위치입니다. |
dataproc | kerberos.kdc.db.key.uri | gs://<dir-path> |
Cloud Storage 내에서 KDC 데이터베이스 마스터 키가 포함된 KMS로 암호화된 파일의 위치입니다. |
dataproc | kerberos.key.password.uri | gs://<dir-path> |
Cloud Storage 내에서 keystore 파일에 있는 키의 비밀번호가 포함된 KMS로 암호화된 파일의 위치입니다. |
dataproc | kerberos.keystore.password.uri | gs://<dir-path> |
Cloud Storage 내에서 keystore 비밀번호가 포함된 KMS로 암호화된 파일의 위치입니다. |
dataproc | kerberos.keystore.uri1 | gs://<dir-path> |
Cloud Storage 내에서 와일드카드 인증서와 클러스터 노드에서 사용하는 비공개 키가 포함된 keystore 파일의 위치입니다. |
dataproc | kerberos.kms.key.uri | KMS key URI |
루트 비밀번호를 복호화하는 데 사용되는 KMS 키의 URI입니다. 예를 들면 projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key 입니다(키 리소스 ID 참조). |
dataproc | kerberos.root.principal.password.uri | gs://<dir-path> |
Cloud Storage 내에서 Kerberos 루트 주 구성원에 대해 KMS로 암호화된 비밀번호의 위치입니다. |
dataproc | kerberos.tgt.lifetime.hours | hours |
티켓 증명 티켓의 최대 수명입니다. |
dataproc | kerberos.truststore.password.uri | gs://<dir-path> |
Cloud Storage 내에서 truststore 파일에 대한 비밀번호가 포함된 KMS로 암호화된 파일의 위치입니다. |
dataproc | kerberos.truststore.uri2 | gs://<dir-path> |
Cloud Storage 내에서 트러스트 인증서가 포함된 KMS로 암호화된 트러스트 저장소 파일의 위치입니다. |
dataproc | pip.packages | Pip 패키지 | 이 속성은 base Conda 환경에 설치될 특정 버전의 쉼표로 구분된 Pip 패키지 목록을 가져옵니다. 자세한 내용은 Conda 관련 클러스터 속성을 참조하세요. (기본값: empty ). |
dataproc | ranger.kms.key.uri | KMS key URI |
Ranger 관리자 사용자 암호를 복호화하는 데 사용되는 KMS 키의 URI입니다. 예를 들면 projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key 입니다(키 리소스 ID 참조). |
dataproc | ranger.admin.password.uri | gs://<dir-path> |
Cloud Storage에서 Ranger 관리자 사용자의 KMS로 암호화된 암호의 위치입니다. |
dataproc | ranger.db.admin.password.uri | gs://<dir-path> |
Cloud Storage에서 Ranger 데이터베이스 관리자 사용자에 대한 KMS로 암호화된 암호의 위치입니다. |
dataproc | ranger.cloud-sql.instance.connection.name | cloud sql instance connection name |
Cloud SQL 인스턴스의 연결 이름입니다(예시: project-id:region:name. ). |
dataproc | ranger.cloud-sql.root.password.uri | gs://<dir-path> |
Cloud Storage에서 Cloud SQL 인스턴스의 루트 사용자에 대해 KMS로 암호화된 암호의 위치입니다. |
dataproc | ranger.cloud-sql.use-private-ip | true 또는 false |
클러스터 인스턴스와 Cloud SQL 인스턴스 사이의 커뮤니케이션에 비공개 IP를 사용해야 하는지 여부입니다(기본값은 false ). |
dataproc | solr.gcs.path | gs://<dir-path> |
Solr 홈 디렉터리로 사용되는 Cloud Storage 경로입니다. |
dataproc | startup.component.service-binding-timeout.hadoop-hdfs-namenode | seconds |
Dataproc 시작 스크립트의 시작 성공 여부를 결정하기 전에 hadoop-hdfs-namenode가 포트에 바인딩될 때까지 대기하는 시간입니다. 최대 인식 값은 1800초(30분)입니다. |
dataproc | startup.component.service-binding-timeout.hive-metastore | seconds |
Dataproc 시작 스크립트의 시작 성공 여부를 결정하기 전에 hive-metastore 서비스가 포트에 바인딩될 때까지 대기하는 시간입니다. 최대 인식 값은 1800초(30분)입니다. |
dataproc | startup.component.service-binding-timeout.hive-server2 | seconds |
Dataproc 시작 스크립트의 시작 성공 여부를 결정하기 전에 hive-server2가 포트에 바인딩될 때까지 대기하는 시간입니다. 최대 인식 값은 1800초(30분)입니다. |
dataproc | user-attribution.enabled | true 또는 false |
이 속성을 true 로 설정하여 이를 제출한 사용자의 ID로 Dataproc 작업을 설정합니다(기본값은 false ). |
dataproc | yarn.docker.enable | true 또는 false |
true 로 설정하여 YARN 기반 Dataproc Docker 기능을 사용 설정합니다(기본값은 false ). |
dataproc | yarn.docker.image | docker image |
YARN 기능으로 Dataproc Docker(dataproc:yarn.docker.enable=true )를 사용 설정할 때 이 선택적 속성을 사용하여 Docker 이미지를 지정할 수 있습니다(예: dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1 ). 지정된 경우 이미지가 클러스터 생성 중 클러스터의 모든 노드에 다운로드되어 캐시됩니다. |
dataproc | yarn.log-aggregation.enabled | true 또는 false |
클러스터의 temp bucket 에 YARN 로그 집계 켜기를 허용(true )합니다. 버킷 이름은 dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING> 형식입니다. (기본값: 이미지 버전 1.5+의 경우 true ). 참고: 클러스터가 삭제될 때 클러스터의 임시 버킷은 삭제되지 않습니다. 사용자는 또한 yarn.nodemanager.remote-app-log-dir YARN 속성 덮어쓰기로 집계된 YARN 로그 위치를 설정할 수 있습니다. |
knox | gateway.host | ip address |
보안되지 않은 노트북 서버 API에 대한 원격 코드 실행 위험을 줄이려면 이미지 버전 1.3 이상인 경우 기본 설정은 127.0.0.1 로, 구성요소 게이트웨이가 사용 설정된 경우 localhost 으로 연결을 제한합니다. 예를 들어 이 속성을 0.0.0.0 로 설정하면 모든 연결을 허용하도록 이 기본값 설정을 재정의할 수 있습니다. |
zeppelin | zeppelin.notebook.gcs.dir | gs://<dir-path> |
Cloud Storage 내에서 Zeppelin 노트북을 저장할 위치입니다. |
zeppelin | zeppelin.server.addr | ip address |
보안되지 않은 노트북 서버 API에 대한 원격 코드 실행 위험을 줄이려면 이미지 버전 1.3 이상인 경우 기본 설정은 127.0.0.1 로, 구성요소 게이트웨이가 사용 설정된 경우 localhost 으로 연결을 제한합니다. 예를 들어 이 속성을 0.0.0.0 로 설정하면 모든 연결을 허용하도록 이 기본값 설정을 재정의할 수 있습니다. |
1키 저장소 파일: 키 저장소 파일에는 SSL 인증서가 있습니다. 이는 Java KeyStore(JKS) 형식이어야 합니다. VM에 복사하면 이름이 keystore.jks
로 변경됩니다.
SSL 인증서는 클러스터의 각 노드에 적용되는 와일드카드 인증서여야 합니다.
2Truststore 파일: truststore 파일은 Java KeyStore(JKS) 형식이어야 합니다. VM에 복사하면 이름이 truststore.jks
로 변경됩니다.