파이프라인 성능

파이프라인 성능은 데이터의 크기와 특성, 파이프라인 구조, 클러스터 크기 조정, Cloud Data Fusion 파이프라인에서 사용하는 플러그인에 따라 달라집니다. 이 페이지에서는 조정할 수 있는 파이프라인 설정 및 이러한 설정이 성능에 미치는 영향을 설명합니다.

클러스터 크기 조정

마스터 노드는 클러스터에서 실행 중인 파이프라인 또는 추가 애플리케이션 수에 비례하는 리소스를 사용합니다. 임시 클러스터에서 파이프라인을 실행하는 경우 마스터 노드에 2개의 CPU와 8GB의 메모리를 사용합니다. 영구 클러스터를 사용 중인 경우 워크플로를 계속 진행하기 위해 더 큰 마스터 노드가 필요할 수 있습니다. 노드에서 메모리 및 CPU 사용량을 모니터링하여 더 큰 마스터 노드가 필요한지 파악할 수 있습니다. 최소 2개의 CPU와 8GB의 메모리를 사용하여 작업자 노드 크기를 조정하는 것이 좋습니다. 더 많은 양의 메모리를 사용하도록 파이프라인을 구성한 경우 더 큰 작업자를 사용해야 할 수 있습니다.

실행 시간을 최소화하려면 클러스터에 최대한 많은 병렬 처리가 가능하도록 충분한 노드가 있는지 확인합니다.

클러스터 크기 조정에 대해 자세히 알아봅니다.

리소스

파이프라인을 사용하면 Spark 드라이버 및 각 Spark 실행자에 제공할 CPU 수와 메모리 양을 지정할 수 있습니다. 드라이버가 많은 작업을 하지 않기 때문에 기본적으로 1개의 CPU와 2GB의 메모리는 일반적으로 대부분의 파이프라인을 실행하기에 충분합니다. 많은 스테이지 또는 대규모 스키마가 포함된 파이프라인의 메모리를 늘려야 할 수 있습니다. 실행자에 할당된 CPU 수에 따라 실행자가 동시에 실행할 수 있는 태스크 수가 결정됩니다.

리소스에 대해 자세히 알아봅니다.

실행 엔진 조정

Cloud Data Fusion 버전 6.4 이상에서는 Cloud Data Fusion이 자동으로 실행 엔진을 구성하여 임시 Dataproc 클러스터의 성능을 극대화합니다. 정적 Dataproc 클러스터의 경우 실행 엔진을 구성합니다.

자세히 알아보기

여기에 소개된 개념에 대해 자세히 알아보려면 CDAP 데이터 파이프라인 성능 조정 가이드를 참조하세요.