Cloud Data Fusion의 Dataproc 프로비저닝 도구는 Dataproc API를 호출하여 Google Cloud 프로젝트에 클러스터를 만들고 삭제합니다. 프로비저닝 도구 설정에서 클러스터를 구성할 수 있습니다.
Cloud Data Fusion 버전과 Dataproc 버전 간의 호환성에 대한 자세한 내용은 버전 호환성을 참조하세요.
속성
속성 | 설명 |
---|---|
프로젝트 ID | Dataproc 클러스터가 생성되는 Google Cloud 프로젝트입니다. 프로젝트에 Dataproc API가 사용 설정되어 있어야 합니다. |
크리에이터 서비스 계정 키 | 프로비저닝 도구에 제공된 서비스 계정 키에는 Dataproc 및 Compute Engine API에 액세스할 수 있는 권한이 있어야 합니다. 계정 키는 민감하므로 보안 스토리지를 사용하여 계정 키를 제공하는 것이 좋습니다. 보안 키를 만든 후에 네임스페이스나 시스템 컴퓨팅 프로필에 추가할 수 있습니다. 네임스페이스 컴퓨팅 프로필의 경우 방패를 클릭하고 보안 키를 선택합니다. 시스템 컴퓨팅 프로필의 경우 보안 계정 키 필드에 키 이름을 입력합니다. |
리전 | Dataproc 클러스터의 컴퓨팅 노드와 같이 리소스를 호스팅할 수 있는 지리적 위치입니다. |
영역 | 리전 내에 격리된 배포 영역입니다. |
네트워크 | Dataproc 클러스터를 만들 때 사용되는 Google Cloud 프로젝트의 VPC 네트워크입니다. |
네트워크 호스트 프로젝트 ID | 네트워크가 다른 Google Cloud 프로젝트에 있으면 해당 프로젝트의 ID를 입력합니다. 공유 VPC의 경우 네트워크가 있는 호스트 프로젝트 ID를 입력합니다. |
서브넷 | 클러스터를 만들 때 사용할 서브넷입니다. 지정된 네트워크 내에 그리고 영역이 있는 리전에 있어야 합니다. 비워두면 네트워크와 영역을 기반으로 서브넷이 선택됩니다. |
실행자 서비스 계정 | 프로그램 실행에 사용되는 Dataproc 가상 머신(VM)의 서비스 계정 이름입니다. 비워두면 기본 Compute Engine 서비스 계정이 사용됩니다. |
마스터 수 | 클러스터의 마스터 노드 수입니다. 이러한 노드에는 YARN Resource Manager, HDFS NameNode, 모든 드라이버가 포함됩니다. 1 또는 3으로 설정해야 합니다. 기본값은 1입니다. |
마스터 머신 유형 | 사용할 마스터 머신 유형입니다. 다음 머신 유형 중 하나를 선택합니다.
Cloud Data Fusion 버전 6.7.2 이상에서는 기본값이 e2입니다. 버전 6.7.1에서는 기본값이 n2입니다. 버전 6.7.0 이하에서는 기본값이 n1입니다. |
마스터 코어 | 마스터 노드에 할당된 가상 코어 수입니다. 기본값은 2입니다. |
마스터 메모리(GB) | 마스터 노드에 할당된 메모리 양(GB)입니다. 기본값은 8GB입니다. |
마스터 디스크 크기(GB) | 마스터 노드에 할당된 디스크 크기(GB)입니다. 기본값은 1,000GB입니다. |
마스터 디스크 유형 | 마스터 노드의 부팅 디스크 유형입니다.
기본값은 표준 영구 디스크입니다. |
작업자 머신 유형 | 사용할 작업자 머신 유형입니다. 다음 머신 유형 중 하나를 선택합니다.
Cloud Data Fusion 버전 6.7.2 이상에서는 기본값이 e2입니다. 버전 6.7.1에서는 기본값이 n2입니다. 버전 6.7.0 이하에서는 기본값이 n1입니다. |
작업자 코어 | 워커 노드에 할당된 가상 코어 수입니다. 기본값은 2입니다. |
작업자 메모리(GB) | 워커 노드에 할당된 메모리 양(GB)입니다. 기본값은 8GB입니다. |
작업자 디스크 크기(GB) | 워커 노드에 할당된 디스크 크기(GB)입니다. 기본값은 1,000GB입니다. |
작업자 디스크 유형 | 워커 노드의 부팅 디스크 유형입니다.
기본값은 표준 영구 디스크입니다. |
사전 정의된 자동 확장 사용 | 사전 정의된 Dataproc 자동 확장을 사용 설정합니다. |
기본 작업자 수 | 워커 노드에는 YARN NodeManager와 HDFS DataNode가 포함됩니다. 기본값은 2입니다. |
보조 작업자 수 | 보조 워커 노드에는 YARN NodeManager가 포함되지만 HDFS DataNode는 포함되지 않습니다. 자동 확장 정책에서 더 높은 값을 요구하지 않는 한 일반적으로 0으로 설정합니다. |
자동 확장 정책 | 자동 확장 정책 ID 또는 리소스 URI의 경로입니다. Dataproc 자동 확장을 구성하고 사용하여 워크로드 요구사항이 충족되도록 클러스터 크기를 자동 및 동적으로 조정하는 방법에 대한 자세한 내용은 자동 확장 사용 시기 및 Dataproc 클러스터 자동 확장을 참조하세요. |
메타데이터 | 클러스터에서 실행되는 인스턴스에 대한 추가 메타데이터입니다. 일반적으로 결제와 지불 거절 추적에 사용할 수 있습니다. 자세한 내용은 클러스터 메타데이터를 참조하세요. |
네트워크 태그 | 네트워크 태그를 할당하여 방화벽 정책을 클러스터의 특정 노드에 적용합니다. 네트워크 태그는 소문자로 시작해야 하며 소문자, 숫자, 하이픈을 포함할 수 있습니다. 태그는 소문자나 숫자로 끝나야 합니다. |
안전한 부팅 사용 설정 | Dataproc VM에서 보안 부팅을 사용 설정합니다. 기본값은 False입니다. |
vTPM 사용 설정 | Dataproc VM에서 가상 신뢰 플랫폼 모듈(vTPM)을 사용 설정합니다. 기본값은 False입니다. |
무결성 모니터링 사용 설정 | Dataproc VM에서 가상 무결성 모니터링을 사용 설정합니다. 기본값은 False입니다. |
이미지 버전 | Dataproc 이미지 버전입니다. 비워두면 하나가 자동으로 선택됩니다. 커스텀 이미지 URI 속성이 비어 있으면 이 속성은 무시됩니다. |
커스텀 이미지 URI | Dataproc 이미지 URI입니다. 비워두면 이미지 버전 속성에서 추론됩니다. |
스테이징 버킷 | Dataproc에서 파이프라인을 실행할 수 있도록 작업 종속 항목과 구성 파일을 스테이징하는 데 사용되는 Cloud Storage 버킷입니다. |
임시 버킷 | 임시 클러스터와 작업 데이터(예: Dataproc의 Spark 기록 파일)를 저장하는 데 사용되는 Cloud Storage 버킷입니다. 이 속성은 Cloud Data Fusion 버전 6.9.2에서 도입되었습니다. |
암호화 키 이름 | Dataproc에서 사용하는 고객 관리 암호화 키(CMEK)입니다. |
OAuth 범위 | 필요한 액세스 수준에 따라 Google API에 액세스하려면 요청해야 할 수 있는 OAuth 2.0 범위입니다. Google Cloud Platform 범위는 항상 포함됩니다. 이 속성은 Cloud Data Fusion 버전 6.9.2에서 도입되었습니다. |
초기화 작업 | 클러스터 초기화 중에 실행할 스크립트의 목록입니다. 초기화 작업은 Cloud Storage에 배치되어야 합니다. |
클러스터 속성 | Hadoop 서비스의 기본 구성 속성을 재정의하는 클러스터 속성입니다. 관련 키-값 쌍에 대한 자세한 내용은 클러스터 속성을 참조하세요. |
일반적인 라벨 | 생성 중인 Dataproc 클러스터와 작업을 구성하는 라벨입니다. 리소스마다 라벨을 지정한 후 라벨을 기준으로 리소스를 필터링할 수 있습니다. 라벨에 대한 정보는 결제 시스템으로 전달되므로 고객은 라벨을 기준으로 청구 요금 상세 내역을 확인할 수 있습니다. |
최대 유휴 시간 | 지정된 시간(분)보다 클러스터가 더 오래 유휴 상태인 경우 클러스터가 삭제되도록 Dataproc을 구성합니다. 클러스터는 일반적으로 실행이 종료된 직후에 삭제되지만 드물게 삭제가 실패할 수 있습니다. 자세한 내용은 클러스터 삭제 문제 해결을 참조하세요. 기본값은 30분입니다. |
클러스터 삭제 건너뛰기 | 실행 종료 시 클러스터 삭제를 건너뛸지 여부입니다. 클러스터를 수동으로 삭제해야 합니다. 실패한 실행을 디버그하는 경우에만 사용해야 합니다. 기본값은 False입니다. |
Stackdriver Logging 통합 사용 설정 | Stackdriver Logging 통합을 사용 설정합니다. 기본값은 True입니다. |
Stackdriver Monitoring 통합 사용 설정 | Stackdriver Monitoring 통합을 사용 설정합니다. 기본값은 True입니다. |
구성요소 게이트웨이 사용 설정 | 구성요소 게이트웨이에서 YARN ResourceManager 및 Spark HistoryServer와 같은 클러스터 인터페이스에 액세스하도록 사용 설정합니다. 기본값은 False입니다. |
외부 IP 우선 | 시스템이 클러스터와 동일한 네트워크의 Google Cloud에서 실행되는 경우 일반적으로 클러스터와 통신할 때 내부 IP 주소를 사용합니다. 항상 외부 IP 주소를 사용하려면 이 값을 True로 설정합니다. 기본값은 False입니다. |
폴 지연 만들기 | 클러스터가 생성되었는지 확인하기 위한 폴링이 시작되도록 클러스터를 만든 후 기다리는 시간(초)입니다. 기본값은 60초입니다. 폴링 설정은 클러스터를 만들고 삭제할 때 클러스터 상태를 폴링하는 빈도를 제어합니다. 동시에 실행되도록 예약된 파이프라인이 많은 경우 이러한 설정을 변경할 수도 있습니다. |
폴 지터 만들기 | 클러스터를 만들 때 지연 시간에 추가할 최대 무작위 지터 양(초)입니다. 이 속성을 사용하면 정확히 동시에 실행되도록 예약된 파이프라인이 많은 경우 Google Cloud에서 여러 API가 동시에 호출되는 것을 방지할 수 있습니다. 기본값은 20초입니다. |
폴링 지연 삭제 | 클러스터가 삭제되었는지 확인하기 위한 폴링이 시작되도록 클러스터를 삭제한 후에 기다리는 시간(초)입니다. 기본값은 30초입니다. |
폴링 간격 | 클러스터 상태 폴링 간의 대기 시간(초)입니다. 기본값은 2입니다. |
JSON 속성에 매핑된 Dataproc 프로필 웹 인터페이스 속성
Dataproc 프로필 UI 속성 이름 | Dataproc 프로필 JSON 속성 이름 |
---|---|
프로필 라벨 | name |
프로필 이름 | label |
설명 | description |
프로젝트 ID | projectId |
크리에이터 서비스 계정 키 | accountKey |
리전 | region |
영역 | zone |
네트워크 | network |
네트워크 호스트 프로젝트 ID | networkHostProjectId |
서브넷 | subnet |
실행자 서비스 계정 | serviceAccount |
마스터 수 | masterNumNodes |
마스터 머신 유형 | masterMachineType |
마스터 코어 | masterCPUs |
마스터 메모리(GB) | masterMemoryMB |
마스터 디스크 크기(GB) | masterDiskGB |
마스터 디스크 유형 | masterDiskType |
기본 작업자 수 | workerNumNodes |
보조 작업자 수 | secondaryWorkerNumNodes |
작업자 머신 유형 | workerMachineType |
작업자 코어 | workerCPUs |
작업자 메모리(GB) | workerMemoryMB |
작업자 디스크 크기(GB) | workerDiskGB |
작업자 디스크 유형 | workerDiskType |
메타데이터 | clusterMetaData |
네트워크 태그 | networkTags |
안전한 부팅 사용 설정 | secureBootEnabled |
vTPM 사용 설정 | vTpmEnabled |
무결성 모니터링 사용 설정 | integrityMonitoringEnabled |
이미지 버전 | imageVersion |
커스텀 이미지 URI | customImageUri |
Cloud Storage 버킷 | gcsBucket |
암호화 키 이름 | encryptionKeyName |
자동 확장 정책 | autoScalingPolicy |
초기화 작업 | initActions |
클러스터 속성 | clusterProperties |
라벨 | clusterLabels |
최대 유휴 시간 | idleTTL |
클러스터 삭제 건너뛰기 | skipDelete |
Stackdriver Logging 통합 사용 설정 | stackdriverLoggingEnabled |
Stackdriver Monitoring 통합 사용 설정 | stackdriverMonitoringEnabled |
구성요소 게이트웨이 사용 설정 | componentGatewayEnabled |
외부 IP 우선 | preferExternalIP |
폴 지연 만들기 | pollCreateDelay |
폴 지터 만들기 | pollCreateJitter |
폴링 지연 삭제 | pollDeleteDelay |
폴링 간격 | pollInterval |
권장사항
파이프라인의 정적 클러스터를 만들 때 클러스터 구성 권장사항을 참조하세요.
다음 단계
- 컴퓨팅 프로필 관리 자세히 알아보기