Dataproc 프로비저닝 도구 속성

Cloud Data Fusion의 Dataproc 프로비저닝 도구는 Dataproc API를 호출하여 Google Cloud 프로젝트에 클러스터를 만들고 삭제합니다. 프로비저닝 도구 설정에서 클러스터를 구성할 수 있습니다.

Cloud Data Fusion 버전과 Dataproc 버전 간의 호환성에 대한 자세한 내용은 버전 호환성을 참조하세요.

속성

속성 설명
프로젝트 ID Dataproc 클러스터가 생성되는 Google Cloud 프로젝트입니다. 프로젝트에 Dataproc API가 사용 설정되어 있어야 합니다.
크리에이터 서비스 계정 키

프로비저닝 도구에 제공된 서비스 계정 키에는 Dataproc 및 Compute Engine API에 액세스할 수 있는 권한이 있어야 합니다. 계정 키는 민감하므로 보안 스토리지를 사용하여 계정 키를 제공하는 것이 좋습니다.

보안 키를 만든 후에 네임스페이스나 시스템 컴퓨팅 프로필에 추가할 수 있습니다. 네임스페이스 컴퓨팅 프로필의 경우 방패를 클릭하고 보안 키를 선택합니다. 시스템 컴퓨팅 프로필의 경우 보안 계정 키 필드에 키 이름을 입력합니다.

리전 Dataproc 클러스터의 컴퓨팅 노드와 같이 리소스를 호스팅할 수 있는 지리적 위치입니다.
영역 리전 내에 격리된 배포 영역입니다.
네트워크 Dataproc 클러스터를 만들 때 사용되는 Google Cloud 프로젝트의 VPC 네트워크입니다.
네트워크 호스트 프로젝트 ID 네트워크가 다른 Google Cloud 프로젝트에 있으면 해당 프로젝트의 ID를 입력합니다. 공유 VPC의 경우 네트워크가 있는 호스트 프로젝트 ID를 입력합니다.
서브넷 클러스터를 만들 때 사용할 서브넷입니다. 지정된 네트워크 내에 그리고 영역이 있는 리전에 있어야 합니다. 비워두면 네트워크와 영역을 기반으로 서브넷이 선택됩니다.
실행자 서비스 계정 프로그램 실행에 사용되는 Dataproc 가상 머신(VM)의 서비스 계정 이름입니다. 비워두면 기본 Compute Engine 서비스 계정이 사용됩니다.
마스터 수

클러스터의 마스터 노드 수입니다. 이러한 노드에는 YARN Resource Manager, HDFS NameNode, 모든 드라이버가 포함됩니다. 1 또는 3으로 설정해야 합니다.

기본값은 1입니다.

마스터 머신 유형

사용할 마스터 머신 유형입니다. 다음 머신 유형 중 하나를 선택합니다.

  • n1
  • n2
  • n2d
  • e2

Cloud Data Fusion 버전 6.7.2 이상에서는 기본값이 e2입니다.

버전 6.7.1에서는 기본값이 n2입니다.

버전 6.7.0 이하에서는 기본값이 n1입니다.

마스터 코어

마스터 노드에 할당된 가상 코어 수입니다.

기본값은 2입니다.

마스터 메모리(GB)

마스터 노드에 할당된 메모리 양(GB)입니다.

기본값은 8GB입니다.

마스터 디스크 크기(GB)

마스터 노드에 할당된 디스크 크기(GB)입니다.

기본값은 1,000GB입니다.

마스터 디스크 유형

마스터 노드의 부팅 디스크 유형입니다.

  • 표준 영구 디스크
  • SSD 영구 디스크

기본값은 표준 영구 디스크입니다.

작업자 머신 유형

사용할 작업자 머신 유형입니다. 다음 머신 유형 중 하나를 선택합니다.

  • n1
  • n2
  • n2d
  • e2

Cloud Data Fusion 버전 6.7.2 이상에서는 기본값이 e2입니다.

버전 6.7.1에서는 기본값이 n2입니다.

버전 6.7.0 이하에서는 기본값이 n1입니다.

작업자 코어

워커 노드에 할당된 가상 코어 수입니다.

기본값은 2입니다.

작업자 메모리(GB)

워커 노드에 할당된 메모리 양(GB)입니다.

기본값은 8GB입니다.

작업자 디스크 크기(GB)

워커 노드에 할당된 디스크 크기(GB)입니다.

기본값은 1,000GB입니다.

작업자 디스크 유형

워커 노드의 부팅 디스크 유형입니다.

  • 표준 영구 디스크
  • SSD 영구 디스크

기본값은 표준 영구 디스크입니다.

사전 정의된 자동 확장 사용 사전 정의된 Dataproc 자동 확장을 사용 설정합니다.
기본 작업자 수

워커 노드에는 YARN NodeManager와 HDFS DataNode가 포함됩니다.

기본값은 2입니다.

보조 작업자 수 보조 워커 노드에는 YARN NodeManager가 포함되지만 HDFS DataNode는 포함되지 않습니다. 자동 확장 정책에서 더 높은 값을 요구하지 않는 한 일반적으로 0으로 설정합니다.
자동 확장 정책

자동 확장 정책 ID 또는 리소스 URI의 경로입니다.

Dataproc 자동 확장을 구성하고 사용하여 워크로드 요구사항이 충족되도록 클러스터 크기를 자동 및 동적으로 조정하는 방법에 대한 자세한 내용은 자동 확장 사용 시기Dataproc 클러스터 자동 확장을 참조하세요.

메타데이터 클러스터에서 실행되는 인스턴스에 대한 추가 메타데이터입니다. 일반적으로 결제와 지불 거절 추적에 사용할 수 있습니다. 자세한 내용은 클러스터 메타데이터를 참조하세요.
네트워크 태그 네트워크 태그를 할당하여 방화벽 정책을 클러스터의 특정 노드에 적용합니다. 네트워크 태그는 소문자로 시작해야 하며 소문자, 숫자, 하이픈을 포함할 수 있습니다. 태그는 소문자나 숫자로 끝나야 합니다.
안전한 부팅 사용 설정

Dataproc VM에서 보안 부팅을 사용 설정합니다.

기본값은 False입니다.

vTPM 사용 설정

Dataproc VM에서 가상 신뢰 플랫폼 모듈(vTPM)을 사용 설정합니다.

기본값은 False입니다.

무결성 모니터링 사용 설정

Dataproc VM에서 가상 무결성 모니터링을 사용 설정합니다.

기본값은 False입니다.

이미지 버전 Dataproc 이미지 버전입니다. 비워두면 하나가 자동으로 선택됩니다. 커스텀 이미지 URI 속성이 비어 있으면 이 속성은 무시됩니다.
커스텀 이미지 URI Dataproc 이미지 URI입니다. 비워두면 이미지 버전 속성에서 추론됩니다.
스테이징 버킷 Dataproc에서 파이프라인을 실행할 수 있도록 작업 종속 항목과 구성 파일을 스테이징하는 데 사용되는 Cloud Storage 버킷입니다.
임시 버킷

임시 클러스터와 작업 데이터(예: Dataproc의 Spark 기록 파일)를 저장하는 데 사용되는 Cloud Storage 버킷입니다.

이 속성은 Cloud Data Fusion 버전 6.9.2에서 도입되었습니다.

암호화 키 이름 Dataproc에서 사용하는 고객 관리 암호화 키(CMEK)입니다.
OAuth 범위

필요한 액세스 수준에 따라 Google API에 액세스하려면 요청해야 할 수 있는 OAuth 2.0 범위입니다. Google Cloud Platform 범위는 항상 포함됩니다.

이 속성은 Cloud Data Fusion 버전 6.9.2에서 도입되었습니다.

초기화 작업 클러스터 초기화 중에 실행할 스크립트의 목록입니다. 초기화 작업은 Cloud Storage에 배치되어야 합니다.
클러스터 속성 Hadoop 서비스의 기본 구성 속성을 재정의하는 클러스터 속성입니다. 관련 키-값 쌍에 대한 자세한 내용은 클러스터 속성을 참조하세요.
일반적인 라벨

생성 중인 Dataproc 클러스터와 작업을 구성하는 라벨입니다.

리소스마다 라벨을 지정한 후 라벨을 기준으로 리소스를 필터링할 수 있습니다. 라벨에 대한 정보는 결제 시스템으로 전달되므로 고객은 라벨을 기준으로 청구 요금 상세 내역을 확인할 수 있습니다.

최대 유휴 시간

지정된 시간(분)보다 클러스터가 더 오래 유휴 상태인 경우 클러스터가 삭제되도록 Dataproc을 구성합니다. 클러스터는 일반적으로 실행이 종료된 직후에 삭제되지만 드물게 삭제가 실패할 수 있습니다. 자세한 내용은 클러스터 삭제 문제 해결을 참조하세요.

기본값은 30분입니다.

클러스터 삭제 건너뛰기

실행 종료 시 클러스터 삭제를 건너뛸지 여부입니다. 클러스터를 수동으로 삭제해야 합니다. 실패한 실행을 디버그하는 경우에만 사용해야 합니다.

기본값은 False입니다.

Stackdriver Logging 통합 사용 설정

Stackdriver Logging 통합을 사용 설정합니다.

기본값은 True입니다.

Stackdriver Monitoring 통합 사용 설정

Stackdriver Monitoring 통합을 사용 설정합니다.

기본값은 True입니다.

구성요소 게이트웨이 사용 설정

구성요소 게이트웨이에서 YARN ResourceManager 및 Spark HistoryServer와 같은 클러스터 인터페이스에 액세스하도록 사용 설정합니다.

기본값은 False입니다.

외부 IP 우선

시스템이 클러스터와 동일한 네트워크의 Google Cloud에서 실행되는 경우 일반적으로 클러스터와 통신할 때 내부 IP 주소를 사용합니다. 항상 외부 IP 주소를 사용하려면 이 값을 True로 설정합니다.

기본값은 False입니다.

폴 지연 만들기

클러스터가 생성되었는지 확인하기 위한 폴링이 시작되도록 클러스터를 만든 후 기다리는 시간(초)입니다.

기본값은 60초입니다.

폴링 설정은 클러스터를 만들고 삭제할 때 클러스터 상태를 폴링하는 빈도를 제어합니다. 동시에 실행되도록 예약된 파이프라인이 많은 경우 이러한 설정을 변경할 수도 있습니다.

폴 지터 만들기

클러스터를 만들 때 지연 시간에 추가할 최대 무작위 지터 양(초)입니다. 이 속성을 사용하면 정확히 동시에 실행되도록 예약된 파이프라인이 많은 경우 Google Cloud에서 여러 API가 동시에 호출되는 것을 방지할 수 있습니다.

기본값은 20초입니다.

폴링 지연 삭제

클러스터가 삭제되었는지 확인하기 위한 폴링이 시작되도록 클러스터를 삭제한 후에 기다리는 시간(초)입니다.

기본값은 30초입니다.

폴링 간격

클러스터 상태 폴링 간의 대기 시간(초)입니다.

기본값은 2입니다.

JSON 속성에 매핑된 Dataproc 프로필 웹 인터페이스 속성

Dataproc 프로필 UI 속성 이름 Dataproc 프로필 JSON 속성 이름
프로필 라벨 name
프로필 이름 label
설명 description
프로젝트 ID projectId
크리에이터 서비스 계정 키 accountKey
리전 region
영역 zone
네트워크 network
네트워크 호스트 프로젝트 ID networkHostProjectId
서브넷 subnet
실행자 서비스 계정 serviceAccount
마스터 수 masterNumNodes
마스터 머신 유형 masterMachineType
마스터 코어 masterCPUs
마스터 메모리(GB) masterMemoryMB
마스터 디스크 크기(GB) masterDiskGB
마스터 디스크 유형 masterDiskType
기본 작업자 수 workerNumNodes
보조 작업자 수 secondaryWorkerNumNodes
작업자 머신 유형 workerMachineType
작업자 코어 workerCPUs
작업자 메모리(GB) workerMemoryMB
작업자 디스크 크기(GB) workerDiskGB
작업자 디스크 유형 workerDiskType
메타데이터 clusterMetaData
네트워크 태그 networkTags
안전한 부팅 사용 설정 secureBootEnabled
vTPM 사용 설정 vTpmEnabled
무결성 모니터링 사용 설정 integrityMonitoringEnabled
이미지 버전 imageVersion
커스텀 이미지 URI customImageUri
Cloud Storage 버킷 gcsBucket
암호화 키 이름 encryptionKeyName
자동 확장 정책 autoScalingPolicy
초기화 작업 initActions
클러스터 속성 clusterProperties
라벨 clusterLabels
최대 유휴 시간 idleTTL
클러스터 삭제 건너뛰기 skipDelete
Stackdriver Logging 통합 사용 설정 stackdriverLoggingEnabled
Stackdriver Monitoring 통합 사용 설정 stackdriverMonitoringEnabled
구성요소 게이트웨이 사용 설정 componentGatewayEnabled
외부 IP 우선 preferExternalIP
폴 지연 만들기 pollCreateDelay
폴 지터 만들기 pollCreateJitter
폴링 지연 삭제 pollDeleteDelay
폴링 간격 pollInterval

권장사항

파이프라인의 정적 클러스터를 만들 때 클러스터 구성 권장사항을 참조하세요.

다음 단계