클러스터 구성

이 페이지에서는 Cloud Data Fusion에서 정적 Dataproc 클러스터를 사용하는 경우에 대해 설명합니다. 또한 호환되는 버전과 권장되는 클러스터 구성에 대해서도 설명합니다.

클러스터를 재사용하는 경우

Cloud Data Fusion 6.5.0부터는 실행할 때마다 Dataproc 클러스터를 재사용하여 처리 시간을 향상시킬 수 있습니다. 클러스터를 재사용하면 여러 작업이 교대로 수행될 때 작업을 시작하는 데 걸리는 시간을 줄일 수 있습니다. 자세한 내용은 Dataproc 클러스터 재사용을 참조하세요.

정적 클러스터를 사용해야 하는 경우

권장: 정적 클러스터를 사용하기 전에 클러스터를 재사용하여 시작 시간을 단축하세요.

기본적으로 Cloud Data Fusion은 파이프라인마다 임시 클러스터를 만듭니다. 파이프라인 실행 시작 시 클러스터를 만든 후 파이프라인 실행이 완료되면 삭제합니다.

다음 시나리오에서는 기본값을 사용하지 마세요. 대신 정적 클러스터를 사용합니다.

  • 모든 파이프라인에 새 클러스터를 만드는 데 걸리는 시간이 사용 사례에 금지되는 경우.

  • 조직이 중앙에서 클러스터 생성을 관리해야 하는 경우. 예를 들어 모든 Dataproc 클러스터에 대해 특정 정책을 적용하려는 경우.

자세한 내용은 기존 Dataproc 클러스터에 대해 파이프라인 실행을 참조하세요.

자동 확장을 사용해야 하는 경우

권장: 사전 정의된 Cloud Data Fusion 자동 확장 또는 사용자 고유의 자동 확장 정책을 사용해서 일괄 파이프라인에서 처리할 클러스터 리소스 관리를 자동화합니다.

축소 시에는 자동 확장이 권장되지 않습니다. 작업량이 낮은 기간 동안 비용을 줄이려면 대신 Dataproc'의 향상된 유연성 모드 및 CDAP의 자동 확장 문서를 참조하세요.

기본 컴퓨팅 프로필을 사용하여 큰 파이프라인을 실행할 때는 파이프라인이 최적 성능으로 실행되지 않을 수 있습니다. 이것은 파이프라인의 적정 클러스터 크기 요구사항이 확실하지 않을 때도 유용합니다.

Cloud Data Fusion 버전 6.6 이상에서는 Cloud Data Fusion의 사전 정의된 자동 확장을 사용해서 클러스터 리소스 관리를 자동화할 수 있습니다. 즉시 사용 가능한 자동 확장 컴퓨팅 프로필도 파이프라인에 충분할 수 있지만 더 높은 제어 수준이 필요한 경우 대신 자체 자동 확장 정책을 정의할 수 있습니다.

지원되는 버전에서 자체 자동 확장 정책을 만들어 최대 작업자 수를 설정할 수 있습니다. 자동 확장 정책을 만드는 방법에 대한 자세한 내용은 클러스터 자동 확장을 참조하세요.

Cloud Data Fusion에서 사전 정의된 자동 확장 사용

버전 6.6 이상에서는 파이프라인의 워크로드에 따라 사전 정의된 자동 확장을 사용해서 워커 노드를 늘릴 수 있습니다. 이것은 일괄 파이프라인에서만 사용할 수 있습니다.

옵션 1: Cloud Data Fusion의 자동 확장 프로필 사용

버전 6.6 이상에서 실행되는 Cloud Data Fusion 인스턴스에서 인스턴스는 Autoscaling Dataproc이라는 프로필과 함께 제공됩니다. 이 프로필은 사전 정의된 자동 확장이 이미 사용 설정되어 즉시 사용 가능한 Dataproc 프로필입니다. 이는 작업자 머신 유형이 n2라는 점을 제외하면 옵션 3의 사전 생성된 프로필과 유사합니다.

  1. Google Cloud Console에서 Cloud Data Fusion 인스턴스 페이지를 엽니다.
  2. 인스턴스 보기를 클릭하여 Cloud Data Fusion UI에서 인스턴스를 엽니다.
  3. 목록 > 배포를 클릭하여 배포된 파이프라인 페이지로 이동합니다.
  4. 구성 > Compute를 클릭합니다.
  5. 이름이 Autoscaling Dataproc인 프로필을 선택합니다.

옵션 2: 프로필을 맞춤설정하여 사전 정의된 자동 확장 정책 사용 설정

기본 프로필에서 사전 정의된 자동 확장을 사용 설정하려면 다음 단계를 수행합니다.

  1. Google Cloud Console에서 Cloud Data Fusion 인스턴스 페이지를 엽니다.
  2. 인스턴스 보기를 클릭하여 Cloud Data Fusion UI에서 인스턴스를 엽니다.
  3. 목록 > 배포를 클릭하여 배포된 파이프라인 페이지로 이동합니다.
  4. 구성을 클릭합니다.
  5. 원하는 프로필에서 맞춤설정을 클릭합니다.
  6. 클러스터 작업자 수 섹션을 확장합니다.
  7. 사전 정의된 자동 확장 사용 전환을 클릭합니다.
  8. 완료저장을 차례대로 클릭합니다.

다음에 파이프라인이 실행되면 Dataproc 작업에 Cloud Data Fusion의 사전 정의된 자동 확장 정책이 사용됩니다.

사전 정의된 자동 확장을 사용 설정한 경우:

  • Number of primary workers, Number of secondary workers, Autoscaling policy 속성은 고려되지 않습니다.
  • 작업자 머신 유형/구성은 선택한 프로필의 머신 유형/구성과 동일합니다.
  • 사전 정의된 자동 확장 사용 전환을 사용 중지하면 사전 정의된 자동 확장이 사용 중지된 다음, 프로필의 원래 동작이 실행됩니다.

런타임 인수:

런타임 인수에 system.profile.properties.enablePredefinedAutoScaling = true을 입력하여 위 동작을 수행할 수 있습니다.

옵션 3: 새 컴퓨팅 프로필에서 사전 정의된 자동 확장 정책 사용 설정

새 Dataproc 프로비저닝 도구 프로필을 만들 때 사전 정의된 자동 확장 사용 전환을 클릭할 수 있습니다. 그런 다음 여러 파이프라인에서 이 프로필을 사용하고 작업자 머신 유형과 기타 속성을 보다 세부적으로 제어할 수 있습니다.

  1. Google Cloud Console에서 Cloud Data Fusion 인스턴스 페이지를 엽니다.
  2. 인스턴스 보기를 클릭하여 Cloud Data Fusion UI에서 인스턴스를 엽니다.
  3. 시스템 범위 또는 사용자 범위에서 프로필을 만들 수 있습니다.

    1. (선택사항) 시스템 범위의 경우 시스템 관리자 > 구성 > 시스템 컴퓨팅 프로필 > 새 프로필 만들기를 클릭합니다.
    2. (선택사항) 사용자 범위의 경우: 메뉴 > 네임스페이스 관리자 > 프로필 만들기를 클릭합니다.

    프로비저닝 도구 페이지가 열립니다.

  4. Dataproc을 클릭합니다.

  5. 클러스터 작업자 수 섹션을 확장합니다.

  6. 사전 정의된 자동 확장 사용 전환을 클릭합니다.

  7. 다른 세부정보를 입력하고 만들기를 클릭합니다.

스튜디오 페이지에서 파이프라인을 열고 구성 > 컴퓨팅을 클릭하고 프로필을 선택하여 이 프로필을 파이프라인에 적용할 수 있습니다. 프로필을 기본값으로 설정할 수 있습니다.

추가 세부정보

프로필 목록을 볼 수 있는 Compute 구성 페이지에는 프로필에서 확장할 수 있는 최대 vCPU(예: Up to 84)가 있는 총 코어 열이 있습니다.

버전 호환성

문제: Cloud Data Fusion 환경 버전이 Dataproc 클러스터 버전과 호환되지 않을 수 있습니다.

권장: Cloud Data Fusion 버전 6.4 이상으로 업그레이드하고 지원되는 Dataproc 버전 중 하나를 사용합니다.

Cloud Data Fusion 6.4 이하 버전은 Dataproc의 지원되지 않는 버전과만 호환됩니다. Dataproc은 이러한 버전으로 생성된 클러스터에 대한 업데이트 및 지원을 제공하지 않습니다. 지원되지 않는 버전으로 작성된 클러스터를 계속 실행할 수 있지만 지원되는 버전으로 작성된 새 클러스터로 교체하는 것이 좋습니다.

Cloud Data Fusion 버전 Dataproc 버전
6.1 ~ 6.3* 1.3.x
6.4+ 1.3.x 및 2.0.x

* Cloud Data Fusion 버전 6.1~6.3은 Dataproc 버전 1.3과 호환됩니다. 호환되도록 만들기 위해 추가 구성요소가 필요하지 않습니다. Cloud Data Fusion에는 기본 Cloud Data Fusion 버전과 함께 제공되는 HDFS 및 Spark가 사용됩니다.

권장사항

구성

권장: 파이프라인의 정적 클러스터를 만들 때 다음 구성을 사용합니다.

매개변수
yarn.nodemanager.delete.debug-delay-sec YARN 로그를 보관합니다.
권장 값: 86400(1일)
yarn.nodemanager.pmem-check-enabled YARN을 통해 물리적 메모리 한도를 확인하고 물리적 메모리 한도를 넘는 경우 컨테이너를 종료합니다.
권장 값: false
yarn.nodemanager.vmem-check-enabled YARN을 통해 가상 메모리 한도를 확인하고 물리적 메모리 한도를 넘는 경우 컨테이너를 종료합니다.
권장 값: false