이 문서에서는 Dataproc 제로 스케일 클러스터를 만드는 방법을 설명합니다.
Dataproc 제로 스케일 클러스터는 Dataproc 클러스터를 비용 효율적으로 사용할 수 있는 방법을 제공합니다. 기본 작업자가 2개 이상 필요한 표준 Dataproc 클러스터와 달리 Dataproc 제로 스케일 클러스터는 0으로 축소할 수 있는 보조 작업자만 사용합니다.
Dataproc 0 규모 클러스터는 Jupiter 노트북을 호스팅하는 클러스터와 같이 유휴 기간이 있는 장기 실행 클러스터로 사용하기에 적합합니다. 이러한 노드는 0 규모 자동 확장 정책을 사용하여 리소스 사용률을 개선합니다.
특성 및 제한사항
Dataproc 제로 스케일 클러스터는 표준 클러스터와 유사하지만 다음과 같은 고유한 특징과 제한사항이 있습니다.
- 이미지 버전
2.2.53
이상이 필요합니다. - 기본 작업자가 아닌 보조 작업자만 지원합니다.
YARN과 같은 서비스가 포함되지만 HDFS 파일 시스템은 지원하지 않습니다.
- Cloud Storage를 기본 파일 시스템으로 사용하려면
core:fs.defaultFS
클러스터 속성을 Cloud Storage 버킷 위치(gs://BUCKET_NAME
)로 설정합니다. - 클러스터를 만드는 동안 구성요소를 사용 중지하는 경우 HDFS도 사용 중지하세요.
- Cloud Storage를 기본 파일 시스템으로 사용하려면
Standard 클러스터로 변환하거나 Standard 클러스터에서 변환할 수 없습니다.
ZERO_SCALE
클러스터 유형에 자동 확장 정책이 필요합니다.머신 유형으로 유연한 VM을 선택해야 합니다.
Oozie 구성요소를 지원하지 않습니다.
Google Cloud 콘솔에서 만들 수 없습니다.
선택사항: 자동 확장 정책 구성
자동 확장 정책을 구성하여 0 확장 클러스터의 보조 작업자 확장을 정의할 수 있습니다. 이때 다음 사항에 유의하세요.
- 클러스터 유형을
ZERO_SCALE
로 설정합니다. - 보조 작업자 구성에만 자동 확장 정책을 구성합니다.
자세한 내용은 자동 확장 정책 만들기를 참고하세요.
Dataproc 제로 스케일 클러스터 만들기
gcloud CLI 또는 Dataproc API를 사용하여 0으로 확장되는 클러스터를 만듭니다.
gcloud
터미널 창 또는 Cloud Shell에서 로컬로 gcloud dataproc clusters create
명령어를 실행합니다.
gcloud dataproc clusters create CLUSTER_NAME \
--region=REGION \
--cluster-type=zero-scale \
--autoscaling-policy=AUTOSCALING_POLICY \
--properties=core:fs.defaultFS=gs://BUCKET_NAME \
--secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
...other args
다음을 바꿉니다.
- CLUSTER_NAME: Dataproc 제로 스케일 클러스터의 이름입니다.
- REGION: 사용 가능한 Compute Engine 리전입니다.
- AUTOSCALING_POLICY: 자동 확장 정책의 ID 또는 리소스 URI입니다.
- BUCKET_NAME: Cloud Storage 버킷의 이름입니다.
- MACHINE_TYPE: 특정 Compute Engine 머신 유형(예:
n1-standard-4
,e2-standard-8
) - RANK: 머신 유형 목록의 우선순위를 정의합니다.
REST
Dataproc REST API cluster.create 요청을 사용하여 0으로 확장되는 클러스터를 만듭니다.
secondaryWorkerConfig
~ZERO_SCALE
의ClusterConfig.ClusterType
을 설정합니다.ZERO_SCALE
자동 확장 정책 ID를 사용하여AutoscalingConfig.policyUri
를 설정합니다.core:fs.defaultFS:gs://BUCKET_NAME
SoftwareConfig.property를 추가합니다. BUCKET_NAME을 Cloud Storage 버킷 이름으로 바꿉니다.
다음 단계
- Dataproc 자동 확장에 대해 자세히 알아보세요.