Dataproc 제로 스케일 클러스터 만들기

이 문서에서는 Dataproc 제로 스케일 클러스터를 만드는 방법을 설명합니다.

Dataproc 제로 스케일 클러스터는 Dataproc 클러스터를 비용 효율적으로 사용할 수 있는 방법을 제공합니다. 기본 작업자가 2개 이상 필요한 표준 Dataproc 클러스터와 달리 Dataproc 제로 스케일 클러스터는 0으로 축소할 수 있는 보조 작업자만 사용합니다.

Dataproc 0 규모 클러스터는 Jupiter 노트북을 호스팅하는 클러스터와 같이 유휴 기간이 있는 장기 실행 클러스터로 사용하기에 적합합니다. 이러한 노드는 0 규모 자동 확장 정책을 사용하여 리소스 사용률을 개선합니다.

특성 및 제한사항

Dataproc 제로 스케일 클러스터는 표준 클러스터와 유사하지만 다음과 같은 고유한 특징과 제한사항이 있습니다.

  • 이미지 버전 2.2.53 이상이 필요합니다.
  • 기본 작업자가 아닌 보조 작업자만 지원합니다.
  • YARN과 같은 서비스가 포함되지만 HDFS 파일 시스템은 지원하지 않습니다.

    • Cloud Storage를 기본 파일 시스템으로 사용하려면 core:fs.defaultFS 클러스터 속성을 Cloud Storage 버킷 위치(gs://BUCKET_NAME)로 설정합니다.
    • 클러스터를 만드는 동안 구성요소를 사용 중지하는 경우 HDFS도 사용 중지하세요.
  • Standard 클러스터로 변환하거나 Standard 클러스터에서 변환할 수 없습니다.

  • ZERO_SCALE 클러스터 유형에 자동 확장 정책이 필요합니다.

  • 머신 유형으로 유연한 VM을 선택해야 합니다.

  • Oozie 구성요소를 지원하지 않습니다.

  • Google Cloud 콘솔에서 만들 수 없습니다.

선택사항: 자동 확장 정책 구성

자동 확장 정책을 구성하여 0 확장 클러스터의 보조 작업자 확장을 정의할 수 있습니다. 이때 다음 사항에 유의하세요.

  • 클러스터 유형을 ZERO_SCALE로 설정합니다.
  • 보조 작업자 구성에만 자동 확장 정책을 구성합니다.

자세한 내용은 자동 확장 정책 만들기를 참고하세요.

Dataproc 제로 스케일 클러스터 만들기

gcloud CLI 또는 Dataproc API를 사용하여 0으로 확장되는 클러스터를 만듭니다.

gcloud

터미널 창 또는 Cloud Shell에서 로컬로 gcloud dataproc clusters create 명령어를 실행합니다.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --cluster-type=zero-scale \
    --autoscaling-policy=AUTOSCALING_POLICY \
    --properties=core:fs.defaultFS=gs://BUCKET_NAME \
    --secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
    ...other args

다음을 바꿉니다.

  • CLUSTER_NAME: Dataproc 제로 스케일 클러스터의 이름입니다.
  • REGION: 사용 가능한 Compute Engine 리전입니다.
  • AUTOSCALING_POLICY: 자동 확장 정책의 ID 또는 리소스 URI입니다.
  • BUCKET_NAME: Cloud Storage 버킷의 이름입니다.
  • MACHINE_TYPE: 특정 Compute Engine 머신 유형(예: n1-standard-4, e2-standard-8)
  • RANK: 머신 유형 목록의 우선순위를 정의합니다.

REST

Dataproc REST API cluster.create 요청을 사용하여 0으로 확장되는 클러스터를 만듭니다.

다음 단계