Dataproc 가변형 VM

가변형 VM은 Dataproc 클러스터를 만들 때 Dataproc 보조 작업자의 우선순위가 지정된 VM 유형 목록을 지정할 수 있는 Dataproc 기능입니다.

가변형 VM을 사용하는 이유

이전에는 클러스터 생성 요청을 제출할 때 VM 유형을 사용할 수 없는 경우 요청이 실패했으며 요청, 스크립트 또는 코드를 업데이트하여 '다음으로 좋은' VM 유형을 지정해야 했습니다. 이 재요청 프로세스는 사용 가능한 VM 유형을 지정할 때까지 여러 번 반복될 수 있습니다.

Dataproc 가변형 VM 기능은 순위가 지정된 VM 목록에서 보조 작업자 VM 유형을 선택한 다음 나열된 VM 유형을 사용할 수 있는 지정된 클러스터 리전 내에서 영역을 검색하여 클러스터 생성 요청이 성공하도록 도와줍니다.

용어

  • VM 유형: VM 인스턴스의 계열, 메모리 용량, CPU 코어 수입니다. Dataproc에서는 사전 정의된 커스텀 VM 유형을 사용할 수 있습니다.

  • 보조 작업자: 보조 작업자는 데이터를 저장하지 않습니다. 처리 노드 기능만 수행합니다. 따라서 보조 작업자를 사용하면 스토리지를 확장하지 않고도 컴퓨팅을 확장할 수 있습니다.

제한사항 및 고려사항

  • 가변형 VM은 Compute Engine 기반 Dataproc 2.0.74+, 2.1.22+ 이상 Compute Engine 기반 Dataproc 이미지 버전에서 사용할 수 있습니다.

  • 미리보기 출시 중:

    • 보조 작업자에만 가변형 VM을 지정할 수 있습니다.
    • 클러스터 만들기 요청에서 스팟 또는 비선점형 보조 작업자 유형을 가변형 VM으로 지정할 수 있지만 둘 다 지정할 수는 없습니다. 보조 작업자 유형을 지정하지 않으면 Dataproc은 선점형인 스팟 VM을 사용합니다.
  • 목록에 VM 유형을 최대 10개까지 포함하여 최대 5개의 순위 지정 VM 유형 목록을 지정할 수 있습니다. 자세한 내용은 가변형 VM 요청 방법을 참조하세요.

  • 가변형 VM이 있는 클러스터를 만들려면 Dataproc 자동 영역 배치를 사용해야 하므로 Dataproc은 VM 유형 요청을 처리할 용량이 있는 영역을 선택할 수 있습니다.

  • 클러스터 생성 요청에 자동 확장 정책이 포함된 경우 가변형 VM이 다른 VM 제품군에 속할 수 있지만 메모리 및 코어 수가 동일해야 합니다.

  • 가변형 VM을 프로비저닝할 때 Dataproc은 사용 가능한 예약 중 '일치하는' 예약은 사용하지만 '특정' 예약은 사용하지 않습니다(예약 인스턴스 사용 참조). 예약과 일치하는 머신 유형이 먼저 순위에서 선택되고 CPU 수가 가장 많은 VM 유형이 선택됩니다.

  • Dataproc은 가변형 VM 프로비저닝에 Google Cloud 할당량을 적용합니다.

  • 클러스터의 기본 및 보조 작업자 V 유형에 서로 다른 CPU 대 메모리 비율을 지정할 수 있지만, 가장 작은 CPU 대 메모리 비율이 가장 작은 컨테이너 단위로 사용되기 때문에 성능이 저하될 수 있습니다.

  • 가변형 VM을 사용하여 생성된 클러스터를 업데이트할 경우, Dataproc은 클러스터를 만들 때 제공된 가변형 VM 목록에서 작업자를 선택하고 추가합니다.

가변형 VM 요청 방법

Google Cloud 콘솔, Google Cloud CLI 또는 Dataproc API를 사용하여 Dataproc 클러스터를 만들 때 가변형 VM을 지정할 수 있습니다.

  • 목록에 VM 유형을 최대 10개까지 포함하여 최대 5개의 순위 지정 VM 유형 목록을 지정할 수 있습니다. 순위가 가장 낮은 목록은 우선순위가 가장 높습니다. 기본적으로 가변형 VM 목록의 순위는 0입니다. 목록 내에서 Dataproc은 사용되지 않은 예약이 있는 VM 유형을 우선하고 그 다음으로 가장 큰 VM 크기에 우선순위를 둡니다. 목록 내에서 CPU 수가 동일한 VM 유형은 동일하게 취급됩니다.

콘솔

보조 작업자 가변형 VM으로 클러스터를 만들려면 다음 안내를 따르세요.

  1. Google Cloud 콘솔에서 Dataproc Compute Engine에서 클러스터 만들기 페이지를 엽니다.

  2. 클러스터 설정 패널은 기본값으로 채워진 필드로 선택됩니다. 권장 이름과 클러스터 리전을 변경하고 다른 변경사항을 적용할 수 있습니다. Dataproc 자동 영역 배치가 가변형 VM 목록에 지정된 VM 유형에 가장 적합한 가용성을 제공하는 영역을 선택하도록 클러스터 영역으로 모두를 선택했는지 확인합니다.

  3. 노드 구성 패널을 선택합니다. 보조 작업자 노드 섹션에서 보조 작업자의 수와 선점을 지정합니다.

    • 각 보조 작업자 순위로 보조 작업자 추가를 클릭하여 각 순위에 포함할 머신 유형을 한 개 이상 지정합니다.
  4. 클러스터 만들기 패널에서 클러스터 세부정보를 확인하고 지정한 후 만들기를 클릭합니다.

gcloud

gcloud dataproc clusters create 명령어로 여러 secondary-worker-machine-types 플래그를 추가하여 Dataproc 보조 작업자에 대해 순위가 지정된 가변형 VM 목록을 지정합니다. 기본 가변형 VM 보조 작업자 유형은 선점형 유형인 스팟입니다.

다음 gcloud CLI 예시에서 Dataproc은 먼저 n2-standard-8 VM(0순위)으로 보조 작업자를 프로비저닝하려고 시도합니다. n2-standard-8 머신을 사용할 수 없는 경우 Dataproc은 e2-standard-8 또는 t2d-standard-8 VM(1순위)으로 보조 작업자를 프로비저닝하려고 시도합니다.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --zone="" \
    --master-machine-type=n1-standard-8 \
    --worker-machine-type=n1-standard-8 \
    --num-workers=4 \
    --num-secondary-workers=4 \
    --secondary-worker-type=non-preemptible \
    --secondary-worker-machine-types="type=n2-standard-8,rank=0" \
    --secondary-worker-machine-types="type=e2-standard-8,type=t2d-standard-8,rank=1"

참고:

  • --zone="": 가변형 VM 기능을 사용하려면 Dataproc이 VM 유형을 사용할 수 있는 영역을 선택할 수 있도록 Dataproc 자동 영역 배치가 필요합니다. 빈 값('")을 --zone 플래그로 전달하면 기본 gcloud config list에 지정된 영역 선택이 재정의됩니다.

  • Dataproc은 머신 코어 및 메모리를 기준으로 구성요소 role 속성을 생성합니다. 다음 구문을 사용하여 --properties 플래그로 시스템 생성 속성을 재정의할 수 있습니다.

    --properties="ROLE:MACHINE_TYPE:COMPONENT_PREFIX:COMPONENT_PROPERTY=VALUE"
    

    미리보기 출시 버전에서는 secondary_worker 역할만 지원됩니다.

    다음 예시에서 --properties 플래그는 보조 워커 노드에 할당된 e2-standard-8 머신의 코어 수를 8에서 6으로 변경합니다.

    --properties="secondary_worker:e2-standard-8:yarn:yarn.nodemanager.resource.cpu-vcores=6"
    

API

Dataproc API clusters.create 요청의 일부로 instanceFlexibilityPolicy.instanceSelectionList를 사용하여 보조 작업자의 machineTypes 순위 목록을 지정합니다.

예를 들면 다음과 같습니다.

Dataproc clusters.create 요청 본문의 다음 JSON 스니펫은 0순위와 1순위에 대한 보조 작업자 머신 유형을 지정합니다.

"config": {
  "secondaryWorkerConfig": {
    "instanceFlexibilityPolicy": {
      "instanceSelectionList": [
        {
          "machineTypes": [
            "n1-standard-4",
            "n2-standard-4"
          ],
          "rank": 0
        },
        {
          "machineTypes": [
            "e2-standard-4",
            "n2d-standard-4"
          ],
          "rank": 1
        }
      ]
    }
  }
}

클러스터 속성을 사용하여 구성요소 역할 맞춤설정: Dataproc은 VM 코어 및 메모리를 기준으로 구성요소 role 속성을 생성합니다. 다음 key=value 구문을 사용하여 clusters.create 요청에 SoftwareConfig.properties를 추가하면 시스템 생성 속성을 재정의할 수 있습니다.

ROLE:MACHINE_TYPE:COMPONENT_PREFIX:COMPONENT_PROPERTY=VALUE

미리보기 출시 버전에서는 secondary_worker 역할만 지원됩니다.

다음 예시에서 properties 필드는 e2-standard-8 VM의 보조 워커 노드에 할당된 코어 수를 8에서 6으로 변경합니다.

"secondary_worker:e2-standard-8:yarn:yarn.nodemanager.resource.cpu-vcores=6"