파이프라인 구성 관리

이 페이지에서는 배포된 파이프라인의 구성을 관리하는 방법을 설명합니다.

시작하기 전에

이 페이지에서는 컴퓨팅 프로필 및 파이프라인 성능에 관한 기본 지식이 필요합니다.

컴퓨팅 프로필 구성

컴퓨팅 프로필을 변경하거나 파이프라인을 실행하는 기본 컴퓨팅 프로필의 파라미터를 맞춤설정할 수 있습니다. 자세한 내용은 컴퓨팅 프로필 관리 및 Dataproc 프로비저닝 도구 속성을 참고하세요.

파이프라인 구성

각 파이프라인에 대해 타이밍 측정항목과 같은 계측을 사용 설정하거나 중지할 수 있습니다. 기본적으로 계측은 사용 설정되어 있습니다. 계측이 사용 설정된 경우 파이프라인을 실행하면 Cloud Data Fusion에서 각 파이프라인 노드의 측정항목을 생성합니다. 다음 측정항목은 각 노드의 측정항목 탭에 표시됩니다. 소스, 변환, 싱크 측정항목은 약간 다릅니다.

발신 기록
수신 기록
총 오류 수
초당 발신 기록
최소 처리 시간(기록 1개)
최대 처리 시간(기록 1개)
표준 편차
평균 처리 시간

리소스가 부족한 환경이 아니라면 항상 계측을 사용 설정하는 것이 좋습니다.

스트리밍 파이프라인의 경우 스트리밍 데이터의 일괄 간격(초/분)을 설정할 수도 있습니다.

엔진 구성

Apache Spark가 기본 실행 엔진입니다. Spark에 커스텀 파라미터를 전달할 수 있습니다. 자세한 내용은 병렬 처리를 참고하세요.

리소스

Spark 드라이버 및 실행자의 메모리와 CPU 수를 지정할 수 있습니다. 드라이버는 Spark 작업을 조정합니다. 실행자는 Spark에서 데이터 처리를 처리합니다. 자세한 내용은 리소스 관리를 참조하세요.

파이프라인 알림

파이프라인 실행이 완료된 후 알림을 보내고 후처리 작업을 시작하도록 파이프라인을 구성할 수 있습니다. 파이프라인을 설계할 때 파이프라인 알림을 만듭니다. 파이프라인을 배포한 후 알림을 볼 수 있습니다. 파이프라인을 수정하여 알림 설정을 변경할 수 있습니다. 자세한 내용은 알림 만들기를 참고하세요.

변환 푸시다운

파이프라인이 BigQuery에서 특정 변환을 실행하도록 하려면 변환 푸시다운을 사용 설정할 수 있습니다. 자세한 내용은 변환 푸시다운 개요를 참조하세요.

다음 단계

Cloud Data Fusion에서 파이프라인 로그를 보고 다운로드하는 방법을 자세히 알아보기