클러스터 구성

이 페이지에서는 Cloud Data Fusion에서 정적 Dataproc 클러스터를 사용해야 하는 경우를 설명합니다. 또한 호환되는 버전과 권장되는 클러스터 구성도 설명합니다.

자세한 내용은 클러스터 관리를 참조하세요.

정적 클러스터를 사용해야 하는 경우

기본적으로 Cloud Data Fusion은 파이프라인마다 임시 클러스터를 만듭니다. 파이프라인 실행 시작 시 클러스터를 만든 후 파이프라인 실행이 완료되면 삭제합니다.

다음 시나리오에서는 기본값을 사용하지 마세요. 대신 정적 클러스터를 사용하세요.

  • 모든 파이프라인에 새 클러스터를 만드는 데 걸리는 시간이 사용 사례에 금지되는 경우.

  • 조직이 중앙에서 클러스터 생성을 관리해야 하는 경우. 예를 들어 모든 Dataproc 클러스터에 대해 특정 정책을 적용하려는 경우.

자세한 내용은 기존 Dataproc 클러스터에 파이프라인 실행을 참조하세요.

버전 호환성

문제: Cloud Data Fusion 환경의 버전이 Dataproc 클러스터 버전과 호환되지 않을 수 있습니다.

다음 Cloud Data Fusion 버전은 해당 Dataproc 버전을 지원합니다.

Cloud Data Fusion 버전 Dataproc 버전
6.1 ~ 6.3* 1.3.x
6.4+ 1.3.x 및 2.0.x

* Cloud Data Fusion 버전 6.1~6.3은 Dataproc 버전 1.3과 호환됩니다. 상호 호환에 추가 구성요소는 필요하지 않습니다. Cloud Data Fusion은 HDFS 및 Spark를 사용합니다. 이때 기본 Cloud Data Fusion 버전이 제공됩니다.

권장사항

권장: 파이프라인의 정적 클러스터를 만들 때 다음 구성을 사용합니다.

매개변수
yarn.nodemanager.delete.debug-delay-sec YARN 로그를 유지합니다.
권장 값: 86400(1일과 동일)
yarn.nodemanager.pmem-check-enabled YARN을 통해 실제 메모리 제한을 확인하고 컨테이너가 물리적 메모리 이상으로 이동할 경우 컨테이너를 종료합니다.
권장 값: false
yarn.nodemanager.vmem-check-enabled YARN을 통해 가상 메모리 한도를 확인하고 물리적 메모리 한도를 넘는 경우 컨테이너를 종료합니다.
권장 값: false

다음 단계