실행 세부정보

Dataflow는 웹 기반 모니터링 사용자 인터페이스에 실행 세부정보 탭을 제공합니다. 이 도구를 사용하면 작업의 성능을 최적화하고 작업이 느려지거나 중단되는 이유를 진단할 수 있습니다. 이 문서는 Dataflow 작업의 실행 세부정보를 검사해야 하는 모든 Dataflow 사용자를 대상으로 합니다.

이 페이지에서는 이 기능을 사용하는 경우와 사용자 인터페이스 레이아웃에 대한 대략적인 요약을 제공합니다. 문제 해결 세부정보는 실행 세부정보 탭 사용을 참조하세요.

용어

실행 세부정보를 효과적으로 사용하려면 다음 핵심 개념이 Dataflow 작업에 어떻게 적용되는지 이해해야 합니다.

  • 융합 최적화: 여러 단계 또는 변환을 융합하는 Dataflow 프로세스입니다. 이렇게 하면 사용자가 제출한 파이프라인이 최적화됩니다. 자세한 내용은 융합 최적화를 참조하세요.
  • 단계: Dataflow 파이프라인의 결합 단계 단위
  • 주요 경로: 전체 작업 런타임에 기여한 파이프라인 단계의 시퀀스입니다. 예를 들어 이 시퀀스에서는 다음 단계를 제외합니다.
    • 전체 작업보다 앞서 완료된 파이프라인의 분기
    • 다운스트림 처리를 지연시키지 않은 입력
  • 작업자: Dataflow 작업을 실행하는 Compute Engine VM 인스턴스
  • 작업 항목: Dataflow에서 선택한 번들에 해당하는 작업 단위

실행 세부정보를 사용해야 하는 경우

다음은 Dataflow 작업을 실행할 때 실행 세부정보를 사용하는 일반적인 시나리오입니다.

  • 파이프라인이 중단되어 문제를 해결하려 합니다.
  • 파이프라인이 느리고 파이프라인 최적화를 타겟팅하려 합니다.
  • 수정할 필요는 없지만 파이프라인의 실행 세부정보를 확인하여 작업을 이해하려고 합니다.

실행 세부정보 사용 설정

단계 워크플로 뷰는 모든 일괄 작업과 스트리밍 작업에 자동으로 사용 설정됩니다. 일괄 작업의 경우 실행 세부정보 탭에 추가 모니터링 정보를 표시하려면 Dataflow 작업을 실행할 때 다음 매개변수를 전달하세요.

--experiments=use_monitoring_state_manager
--experiments=enable_execution_details_collection

일괄 작업의 경우, 이를 통해 단계 진행작업자 진행 뷰를 사용 설정합니다.

이 기능을 VM에 사용하기 위해 추가 CPU, 네트워크 등을 필요하지 않습니다. 실행 세부정보는 작업 성능에 영향을 미치치 않는 Dataflow의 백엔드 모니터링 시스템에 의해 수집됩니다.

작업을 실행한 후에는 Dataflow 모니터링 UI를 사용하여 실행 세부정보 탭을 확인할 수 있습니다. 자세한 내용은 Dataflow 모니터링 인터페이스 액세스를 참조하세요.

실행 세부정보 탭 사용 방법

실행 세부정보 탭에는 단계 진행 상황, 측면 패널(단계 진행 상황 내의), 단계 워크플로, 작업자 진행률의 네 가지 뷰가 포함되어 있습니다. 이 섹션에서는 각 뷰를 살펴보고 작업 성공 및 실패한 Dataflow 작업의 예시를 보여줍니다.

단계 진행 상황

단계 진행 상황 뷰에는 작업 실행 단계가 시작 및 종료 시간별로 정렬되어 표시됩니다. 시간은 막대로 표시됩니다. 예를 들어 가장 긴 막대를 찾아 가장 오래 실행되는 파이프라인 단계를 시각적으로 식별할 수 있습니다.

각 막대 아래에서는 시간의 경과에 따른 단계 진행 상태를 표시하는 스파크라인을 찾을 수 있습니다. 작업의 전체 런타임에 기여한 단계를 강조표시하려면 중요 경로 전환 버튼을 클릭합니다.

단계 정보 패널에는 단계와 연결된 단계 목록이 실제 경과 시간 내림차순으로 표시됩니다. 이 패널을 열려면 막대 중 하나로 마우스를 가져가 세부정보 보기를 클릭합니다.

6가지 실행 단계의 시간의 길이를 시각화하여 보여주는 단계 진행 상황 뷰의 예시 이 뷰에는 스테이지 단계 패널도 포함됩니다.

단계 워크플로

단계 워크플로는 작업 실행 단계를 보여주며 워크플로 그래프로 표현됩니다. 작업의 전체 런타임에 직접 참여한 단계만 표시하려면 주요 경로 전환 버튼을 클릭합니다.

작업의 여러 실행 단계 계층 구조를 보여주는 단계 워크플로 뷰의 예시입니다.

작업자 진행 상황

작업자 진행 상황은 특정 단계의 작업자를 보여줍니다. 각 막대는 작업자에게 예약된 작업 항목에 매핑됩니다. 각 작업자 아래에 있는 작업자의 CPU 사용률을 추적하는 스파크라인을 찾아 사용률이 저하 문제를 더 쉽게 찾을 수 있습니다.

이 시각화의 밀도로 인해 단계를 미리 선택하여 이 뷰를 필터링해야 합니다. 먼저 단계 진행 뷰에서 단계를 식별합니다. 해당 단계 위로 마우스를 가져가서 작업자 보기를 클릭하여 작업자 진행 상황 뷰로 들어갑니다.

작업자 진행 상황 뷰의 예시 작업자에 작업 항목 일정과 CPU 사용률에 해당하는 막대와 스파크라인이 있습니다.

다음 단계