GKE 기반 Dataproc 노드 풀

GKE 기반 Dataproc 가상 클러스터를 만들거나 업데이트할 때 가상 클러스터에서 작업 실행을 위해 사용할 하나 이상의 노드 풀을 지정합니다(이 클러스터를 지정된 노드 풀에서 '사용'하거나 '연결'된 클러스터라고 함). 지정된 노드 풀이 GKE 클러스터에 없으면 GKE 기반 Dataproc에서 사용자가 지정한 설정으로 GKE 클러스터에 노드 풀을 만듭니다. 노드 풀이 있고 Dataproc로 생성된 경우 검사를 통해 해당 설정이 지정된 설정과 일치하는지 확인합니다.

GKE 기반 Dataproc 노드 풀 설정

GKE 기반 Dataproc 가상 클러스터에서 사용하는 노드 풀에 다음 설정을 지정할 수 있습니다(이 설정은 GKE 노드 풀 설정의 하위 집합임).

accelerators
acceleratorCount
acceleratorType
gpuPartitionSize*
localSsdCount
machineType
minCpuPlatform
minNodeCount
maxNodeCount
preemptible
spot*

참고:

gpuPartitionSize는 Dataproc API GkeNodePoolAcceleratorConfig에서 설정할 수 있습니다.
spot은 Dataproc API GkeNodeConfig에서 설정할 수 있습니다.

노드 풀 삭제

GKE 기반 Dataproc 클러스터를 삭제해도 클러스터에서 사용하는 노드 풀은 삭제되지 않습니다. GKE 기반 Dataproc 클러스터에서 더 이상 사용하지 않는 노드 풀을 삭제하려면 노드 풀 삭제를 참조하세요.

노드 풀 위치

가상 클러스터를 만들거나 업데이트할 때 GKE 기반 Dataproc 가상 클러스터와 연결된 노드 풀의 영역 위치를 지정할 수 있습니다. 노드 풀 영역이 연결된 가상 클러스터의 리전에 있어야 합니다.

노드 풀 역할 매핑

노드 풀 역할은 Spark 드라이버와 실행자 작업에 대해 정의되며 기본 역할은 노드 풀의 모든 작업 유형에 대해 정의됩니다. GKE 기반 Dataproc 클러스터에는 default 역할이 할당된 노드 풀이 최소 하나 이상 있어야 합니다. 다른 역할 할당은 선택사항입니다.

권장사항: 역할 요구사항에 따른 노드 유형 및 크기를 사용하여 역할 유형마다 별도의 노드 풀을 만드세요.

gcloud CLI 가상 클러스터 만들기 예시:

gcloud dataproc clusters gke create "${DP_CLUSTER}" \
  --region=${REGION} \
  --gke-cluster=${GKE_CLUSTER} \
  --spark-engine-version=latest \
  --staging-bucket=${BUCKET} \
  --pools="name=${DP_POOLNAME},roles=default \
  --setup-workload-identity
  --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
  --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
  --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"

GKE 기반 Dataproc 노드 풀 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.