클러스터 구성

이 페이지에서는 Cloud Data Fusion에서 정적 Dataproc 클러스터를 사용해야 하는 시기, 호환되는 버전, 권장 클러스터 구성에 대해 설명합니다.

클러스터를 재사용하는 경우

Cloud Data Fusion 6.5.0부터는 실행할 때마다 Dataproc 클러스터를 재사용하여 처리 시간을 향상시킬 수 있습니다. 클러스터를 재사용하면 여러 작업이 교대로 수행될 때 작업을 시작하는 데 걸리는 시간을 줄일 수 있습니다. 자세한 내용은 Dataproc 클러스터 재사용을 참조하세요.

정적 클러스터를 사용해야 하는 경우

권장: 정적 클러스터를 사용하기 전에 클러스터를 재사용하여 시작 시간을 단축하세요.

기본적으로 Cloud Data Fusion은 파이프라인마다 임시 클러스터를 만듭니다. 파이프라인 실행 시작 시 클러스터를 만든 후 파이프라인 실행이 완료되면 삭제합니다.

다음 시나리오에서는 기본값을 사용하지 마세요. 대신 정적 클러스터를 사용합니다.

  • 모든 파이프라인에 새 클러스터를 만드는 데 걸리는 시간이 사용 사례에 금지되는 경우.

  • 조직이 중앙에서 클러스터 생성을 관리해야 하는 경우. 예를 들어 모든 Dataproc 클러스터에 대해 특정 정책을 적용하려는 경우.

정적 클러스터를 사용하려면 Dataproc 클러스터에서 다음 속성을 설정해야 합니다.

dataproc:dataproc.conscrypt.provider.enable=false

자세한 내용은 기존 Dataproc 클러스터에 대해 파이프라인 실행을 참조하세요.

자동 확장을 사용해야 하는 경우

권장: 사전 정의된 Cloud Data Fusion 자동 확장 또는 사용자 고유의 자동 확장 정책을 사용해서 일괄 파이프라인에서 처리할 클러스터 리소스 관리를 자동화합니다.

축소 시에는 자동 확장이 권장되지 않습니다. 활동이 낮은 기간 동안의 비용 절감에 대한 자세한 내용은 다음 문서를 참조하세요.

기본 컴퓨팅 프로필을 사용하여 큰 파이프라인을 실행할 때는 파이프라인이 최적 성능으로 실행되지 않을 수 있습니다. 이것은 파이프라인의 적정 클러스터 크기 요구사항이 확실하지 않을 때도 유용합니다.

Cloud Data Fusion 버전 6.6 이상에서 Cloud Data Fusion의 사전 정의된 자동 확장을 사용하여 클러스터 리소스 관리를 자동화할 수 있습니다. 즉시 사용 가능한 자동 확장 컴퓨팅 프로필도 파이프라인에 충분할 수 있지만 더 높은 제어 수준이 필요한 경우 자체 자동 확장 정책을 정의할 수 있습니다.

지원되는 버전에서 자체 자동 확장 정책을 만들어 최대 작업자 수를 설정할 수 있습니다. Cloud Data Fusion 버전 6.10.0부터 인스턴스는 임시 클러스터에 자동 확장 Dataproc 프로필을 사용합니다. 자동 확장 정책을 만드는 방법에 대한 자세한 내용은 클러스터 자동 확장을 참조하세요.

Cloud Data Fusion에서 사전 정의된 자동 확장 사용

버전 6.6 이상에서는 파이프라인의 워크로드에 따라 사전 정의된 자동 확장을 사용해서 워커 노드를 늘릴 수 있습니다. 사전 정의된 자동 확장은 일괄 파이프라인에만 사용할 수 있습니다.

옵션 1: Cloud Data Fusion의 자동 확장 프로필 사용

버전 6.6.0 이상에서 실행되는 Cloud Data Fusion 인스턴스에서 인스턴스는 Dataproc 자동 확장이라는 프로필과 함께 제공됩니다. 이 프로필은 사전 정의된 자동 확장이 이미 사용 설정되어 있으므로 즉시 사용 가능한 Dataproc 프로필입니다. 이는 옵션 3에 사전 생성된 프로필과 비슷합니다. 단 6.6.0 및 6.6.0에서 업그레이드된 인스턴스의 경우에는 작업자 머신 유형이 n2입니다.

  1. Google Cloud Console에서 Cloud Data Fusion 인스턴스 페이지를 엽니다.
  2. 인스턴스 보기를 클릭하여 Cloud Data Fusion 웹 인터페이스에서 인스턴스를 엽니다.
  3. 목록 > 배포를 클릭하여 배포된 파이프라인 페이지로 이동합니다.
  4. 구성 > Compute를 클릭합니다.
  5. Dataproc 자동 확장이라는 프로필을 선택합니다.

옵션 2: 프로필을 맞춤설정하여 사전 정의된 자동 확장 정책 사용 설정

기본 프로필에서 사전 정의된 자동 확장을 사용 설정하려면 다음 단계를 수행합니다.

  1. Google Cloud Console에서 Cloud Data Fusion 인스턴스 페이지를 엽니다.
  2. 인스턴스 보기를 클릭하여 Cloud Data Fusion 웹 인터페이스에서 인스턴스를 엽니다.
  3. 목록 > 배포를 클릭하여 배포된 파이프라인 페이지로 이동합니다.
  4. 구성을 클릭합니다.
  5. 원하는 프로필에서 맞춤설정을 클릭합니다.
  6. 클러스터 작업자 수 섹션을 확장합니다.
  7. 사전 정의된 자동 확장 사용 전환을 클릭합니다.
  8. 완료저장을 차례대로 클릭합니다.

다음에 파이프라인이 실행될 때 Dataproc 작업이 Cloud Data Fusion에서 사전 정의된 자동 확장 정책을 사용합니다.

사전 정의된 자동 확장을 사용 설정한 경우:

  • Number of primary workers, Number of secondary workers, Autoscaling policy 속성은 고려되지 않습니다.
  • 작업자 머신 유형 구성은 선택한 프로필의 머신 유형 구성과 동일합니다.
  • 사전 정의된 자동 확장 사용 전환을 사용 중지하면 사전 정의된 자동 확장이 사용 중지된 다음, 프로필의 원래 동작이 실행됩니다.

런타임 인수:

런타임 인수에 다음 을 입력하여 설명된 동작을 수행할 수 있습니다.

system.profile.properties.enablePredefinedAutoScaling = true

옵션 3: 새 컴퓨팅 프로필에서 사전 정의된 자동 확장 정책 사용 설정

새 Dataproc 프로비저닝 도구 프로필을 만들 때 사전 정의된 자동 확장 사용 전환을 클릭할 수 있습니다. 그런 다음 여러 파이프라인에서 이 프로필을 사용하고 작업자 머신 유형과 기타 속성을 보다 세부적으로 제어할 수 있습니다.

  1. Google Cloud Console에서 Cloud Data Fusion 인스턴스 페이지를 엽니다.
  2. 인스턴스 보기를 클릭하여 Cloud Data Fusion UI에서 인스턴스를 엽니다.
  3. 시스템 범위 또는 사용자 범위에서 프로필을 만들 수 있습니다.

    1. (선택사항) 시스템 범위의 경우 시스템 관리자 > 구성 > 시스템 컴퓨팅 프로필 > 새 프로필 만들기를 클릭합니다.
    2. (선택사항) 사용자 범위의 경우: 메뉴 > 네임스페이스 관리자 > 프로필 만들기를 클릭합니다.

    프로비저닝 도구 페이지가 열립니다.

  4. Dataproc을 클릭합니다.

  5. 클러스터 작업자 수 섹션을 확장합니다.

  6. 사전 정의된 자동 확장 사용 전환을 클릭합니다.

  7. 다른 세부정보를 입력하고 만들기를 클릭합니다.

스튜디오 페이지에서 파이프라인을 열고 구성 > 컴퓨팅을 클릭하고 프로필을 선택하여 이 프로필을 파이프라인에 적용할 수 있습니다. 프로필을 기본값으로 설정할 수 있습니다.

추가 세부정보

프로필 목록을 볼 수 있는 Compute 구성 페이지에는 프로필에서 확장할 수 있는 최대 vCPU(예: Up to 84)가 있는 총 코어 열이 있습니다.

버전 호환성

문제: Cloud Data Fusion 환경 버전이 Dataproc 클러스터 버전과 호환되지 않을 수 있습니다.

권장: 최신 Cloud Data Fusion 버전으로 업그레이드하고 지원되는 Dataproc 버전 중 하나를 사용합니다.

이전 버전의 Cloud Data Fusion은 지원되지 않는 Dataproc 버전과만 호환됩니다. Dataproc은 이러한 버전으로 생성된 클러스터에 대한 업데이트 및 지원을 제공하지 않습니다. 지원되지 않는 버전으로 생성된 클러스터를 계속 실행할 수 있지만 지원되는 버전으로 생성된 클러스터로 바꾸는 것이 좋습니다.

Cloud Data Fusion 버전 Dataproc 버전
6.10 이상 2.1, 2.0 *
6.9 2.1, 2.0, 1.5 *
6.7-6.8 2.0, 1.5 *
6.4-6.6 2.0*, 1.3**
6.1-6.3 1.3**

* Cloud Data Fusion 버전 6.4 이상은 지원되는 Dataproc 버전과 호환됩니다. 특정 OS 기능이 필요하지 않은 한 major.minor 이미지 버전을 지정하는 것이 좋습니다.
Dataproc 클러스터에 사용된 OS 버전을 지정하려면 OS 버전이 이전 테이블에서 Cloud Data Fusion의 지원되는 Dataproc 버전 중 하나와 호환되어야 합니다.

** Cloud Data Fusion 버전 6.1~6.6은 지원되지 않는 Dataproc 버전 1.3과 호환됩니다.

권장사항

권장: 파이프라인의 정적 클러스터를 만들 때 다음 구성을 사용합니다.

매개변수
yarn.nodemanager.delete.debug-delay-sec YARN 로그를 보관합니다.
권장 값: 86400(1일)
yarn.nodemanager.pmem-check-enabled YARN을 통해 물리적 메모리 한도를 확인하고 물리적 메모리 한도를 넘는 경우 컨테이너를 종료합니다.
권장 값: false
yarn.nodemanager.vmem-check-enabled YARN을 통해 가상 메모리 한도를 확인하고 물리적 메모리 한도를 넘는 경우 컨테이너를 종료합니다.
권장 값: false