GKE 기반 Dataproc 클러스터 확장

GKE 기반 Dataproc 클러스터를 확장하려면 Spark 드라이버 또는 Spark 실행자 역할과 연결된 노드 풀의 자동 확장 처리 구성을 업데이트합니다. GKE 기반 Dataproc 클러스터를 만들 때 GKE 기반 Dataproc 노드 풀 및 관련 역할을 지정합니다.

노드 풀 자동 확장 설정

GKE 기반 Dataproc 가상 클러스터를 만들 때 GKE 기반 Dataproc 노드 풀 자동 확장의 경계를 설정할 수 있습니다. 지정하지 않을 경우 GKE 기반 Dataproc 노드 풀이 기본값(GKE 기반 Dataproc 정식 버전의 기본값은 최소 = 1 및 최대 = 10이며 변경될 수 있음)으로 자동 확장됩니다. 특정한 최소 및 최대 노드 풀 자동 확장 값을 얻으려면 GKE 기반 Dataproc 가상 클러스터를 만들 때 해당 값을 설정합니다.

노드 풀 자동 확장 업데이트

다음 GKE gcloud container node-pools update 명령어를 사용하여 GKE 기반 Dataproc 노드 풀의 자동 확장 구성을 변경합니다.

gcloud container node-pools update NODE_POOL_NAME \
    --cluster=GKE_CLUSTER_NAME \
    --region=region \
    --enable-autoscaling \
    --min-nodes=min nodes (must be <= max-nodes) \
    --max-nodes=max nodes (must be >= min-nodes) \

Spark 자동 확장 작동 방식

  1. 작업이 제출되면 드라이버 포드가 Spark 드라이버 역할과 연결된 노드 풀에서 실행되도록 예약됩니다.
  2. 드라이버 포드가 GKE 스케줄러를 호출하여 실행자 포드를 만듭니다.
  3. 실행자 포드는 Spark 실행자 역할과 연결된 노드 풀에 예약됩니다.
  4. 노드 풀에 포드를 위한 용량이 있으면 즉시 포드가 실행되기 시작합니다. 용량이 부족하면 GKE 클러스터 자동 확장 처리에서 노드 풀을 확장하여 요청된 리소스를 사용자가 지정한 한도까지 제공합니다. 노드 풀의 용량이 초과되면 GKE 클러스터 자동 확장 처리에서 노드 풀을 사용자가 지정한 한도까지 축소합니다.