Dataflow 관리 서비스를 사용하여 파이프라인을 실행할 때는 Dataflow의 웹 기반 모니터링 인터페이스를 사용해서 작업 및 기타 항목을 볼 수 있습니다. 모니터링 인터페이스를 사용하면 Dataflow 작업을 확인하고 상호작용할 수 있습니다.
Google Cloud Console을 사용하여 Dataflow 모니터링 인터페이스에 액세스할 수 있습니다. 모니터링 인터페이스에 표시되는 내용은 다음과 같습니다.
- 실행 중인 모든 Dataflow 작업과 모든 작업 목록은 최근 30일 이내에 해당합니다.
- 각 파이프라인의 그래픽 표현
- 작업 상태, 유형, SDK 버전에 대한 세부정보
- Compute Engine 및 Cloud Storage와 같이 파이프라인을 실행하는 Google Cloud 서비스 정보에 대한 링크
- 작업 중 발생하는 모든 오류 또는 경고
- 작업에 대한 추가 진단
Dataflow 모니터링 인터페이스에서 작업 시각화를 볼 수 있습니다. 이러한 차트에는 파이프라인 작업 기간 동안의 측정항목이 표시되며 다음 정보를 포함합니다.
- 파이프라인 지연을 일으킬 수 있는 단계를 식별하는 데 도움이 되는 단계-수준 공개 상태
- 비정상적인 동작을 나타낼 수 있는 통계 정보
- 소스 및 싱크의 병목 현상을 식별하는 데 도움이 되는 I/O 측정항목
Dataflow 모니터링 인터페이스 액세스
Dataflow 모니터링 인터페이스에 액세스하려면 다음 단계를 따릅니다.
- Google Cloud 콘솔에 로그인합니다.
- Google Cloud 프로젝트를 선택합니다.
- 탐색 메뉴를 엽니다.
- 애널리틱스에서 Dataflow를 클릭합니다.
Dataflow 작업 목록이 상태와 함께 표시됩니다. 작업이 표시되지 않으면 새 작업을 실행해야 합니다. 작업 실행 방법을 알아보려면 Java 빠른 시작, Python 빠른 시작 또는 Go 빠른 시작을 참조하세요.
작업 상태는 다음과 같습니다.
- -: 모니터링 인터페이스가 아직 Dataflow 서비스에서 상태 정보를 받지 못했습니다.
- 실행 중: 작업이 실행 중입니다.
- 시작하는 중...: 작업이 생성되었지만 시작하기 전에 시스템 준비 시간이 필요합니다.
- 대기 중: FlexRS 작업이 대기 중이거나 Flex 템플릿 작업이 실행됩니다(실행되는 데 몇 분이 걸릴 수 있음).
- 취소 중...: 작업을 취소하는 중입니다.
- 취소됨: 작업이 취소되었습니다.
- 드레이닝 중: 작업이 드레이닝 중입니다.
- 드레이닝됨: 작업이 드레이닝되었습니다.
- 업데이트 중: 작업이 업데이트 중입니다.
- 업데이트됨: 작업이 업데이트되었습니다.
- 성공: 작업이 성공적으로 완료되었습니다.
- 실패: 작업을 완료하지 못했습니다.
파이프라인에 대한 자세한 정보를 보려면 작업 이름을 클릭합니다.
작업 시각화에 액세스
작업 모니터링을 위한 차트에 액세스하려면 Dataflow 모니터링 인터페이스에서 작업 이름을 클릭하세요. 다음 정보가 포함된 작업 세부정보 페이지가 표시됩니다.
- 작업 그래프: 파이프라인의 시각적 표현
- 실행 세부정보: 파이프라인 성능을 최적화하는 도구
- 작업 측정항목: 작업 실행에 대한 측정항목
- 비용: 작업 예상 비용에 대한 측정항목
- 자동 확장: 스트리밍 작업 자동 확장 이벤트와 관련된 측정항목
- 작업 정보: 파이프라인에 대해 설명하는 정보
- 작업 로그: Dataflow 서비스가 생성한 작업 수준 로그
- 작업자 로그: Dataflow 서비스가 생성한 작업자 수준 로그
- 진단: 선택한 타임라인에서 오류가 발생한 위치와 파이프라인에 대한 가능한 권장사항을 보여주는 표
- 데이터 샘플링: 파이프라인의 각 단계에서 데이터를 관찰할 수 있는 도구. 데이터 샘플링을 사용하여 파이프라인 데이터 관찰을 참조하세요.
작업 세부정보 페이지에서 작업 그래프, 실행 세부정보, 작업 측정항목, 비용, 자동 확장 탭을 사용하여 작업 뷰를 전환할 수 있습니다.
작업 그래프
특정 Dataflow 작업을 선택하면 모니터링 인터페이스가 작업 그래프를 그래픽으로 표시합니다. 콘솔의 작업 그래프 페이지에서는 작업 요약, 작업 로그, 파이프라인의 각 단계에 대한 정보도 제공합니다. 작업 그래프에 대한 자세한 내용은 Dataflow 작업 그래프를 참조하세요.
작업 측정항목
Dataflow 웹 인터페이스의 Job metrics
탭에서 차트를 볼 수 있습니다. 각 측정항목은 다음 대시보드로 구성됩니다.
개요 측정항목
스트리밍 측정항목(스트리밍 파이프라인만 해당)
- 데이터 최신 상태(Streaming Engine 유무에 관계없음)
- 시스템 지연 시간(Streaming Engine 유무에 관계없음)
- 백로그
- 처리(Streaming Engine만 해당)
- 동시 로드(Streaming Engine만 해당)
- 지속성(Streaming Engine만 해당)
- 중복(Streaming Engine만 해당)
- 타이머(Streaming Engine만 해당)
리소스 측정항목
입력 측정항목
출력 측정항목
Cloud Monitoring 알림
Cloud Monitoring 알림 만들기를 참조하세요.
비용 모니터링
Google Cloud 콘솔의 비용 페이지에는 현재 Dataflow 작업의 예상 비용이 표시됩니다. 예상 비용은 Cloud Monitoring에 표시된 리소스 사용량 측정항목에 작업 리전의 리소스 가격을 곱하여 계산합니다.
비용 모니터링 사용
작업 비용 예상 비용은 일괄 작업과 스트리밍 작업에 모두 사용할 수 있습니다. Google Cloud 콘솔의 비용 페이지에서는 다음 정보가 제공됩니다.
- 작업 비용에 영향을 미치는 리소스와 사용량에 대한 세부정보 리소스에는 vCPU, 메모리, 처리된 Dataflow Shuffle 데이터 또는 Streaming Engine 데이터, SSD 및 HDD 디스크 사용량이 포함됩니다.
- 작업 시작 이후의 시간, 지난 1시간, 지난 24시간, 지난 7일, 사용자 지정 시간 범위와 같은 특정 기간 동안의 비용
모니터링 알림을 사용하면 작업 비용이 지정된 기준을 초과할 때 알림을 받을 수 있습니다. 또한 알림을 사용하면 설정한 기준에 따라 작업 중지 또는 취소와 같은 작업 변경을 수행할 수 있습니다.
Cloud Monitoring 알림 규칙을 만들려면 알림 만들기를 클릭합니다. 이러한 알림을 구성하는 방법은 Dataflow 파이프라인에 Cloud Monitoring 사용을 참조하세요.
제한사항
Dataflow 비용 모니터링은 Dataflow Prime 작업 및 GPU 측정항목을 지원하지 않습니다.
자동 확장 측정항목
Dataflow 모니터링 인터페이스에서 스트리밍 작업에 대한 자동 확장 모니터링 차트를 볼 수 있습니다. 이러한 차트에는 파이프라인 작업 기간 동안의 측정항목이 표시되며 다음 정보를 포함합니다.
- 특정 시점에 작업에서 사용한 작업자 인스턴스의 수
- 로그 파일 자동 확장
- 시간 경과에 따른 예상 백로그
- 시간 경과에 따른 평균 CPU 사용률
자세한 내용은 Dataflow 자동 확장 모니터링을 참조하세요.
권장사항 및 진단
Dataflow에서는 작업 성능 향상, 비용 절감, 오류 문제 해결을 위한 권장사항을 제공합니다. 이 섹션에서는 권장사항을 검토하고 해석하는 방법을 설명합니다. 일부 권장사항은 사용 사례와 관련이 없을 수 있습니다.
권장사항
권장사항 탭에는 파이프라인과 관련된 Dataflow의 통계가 표시됩니다. 이러한 통계의 목표는 비용 및 성능이 개선될 수 있는 상황을 파악하는 것입니다.
업데이트 날짜 열에는 통계가 마지막으로 관찰된 시간이 표시됩니다. 권장사항은 업데이트 날짜로부터 30일 동안 저장됩니다.
프로그래매틱 방식으로 권장사항에 액세스
프로그래매틱 방식으로 권장사항에 대한 액세스의 경우 Recommender API를 사용합니다.
권장사항 닫기
프로젝트의 권장사항 허브에서 권장사항을 닫을 수 있습니다.
권장사항을 닫으려면 Google Cloud 콘솔 왼쪽 상단에 있는 탐색 메뉴를 클릭하고 홈 > 권장사항을 선택합니다. Dataflow 진단 카드에서 모두 보기를 클릭하고 닫을 권장사항을 선택한 후 닫기를 클릭합니다.
진단
로그 창의 진단 탭은 파이프라인에서 생성된 특정 로그 항목을 수집하고 표시합니다. 여기에는 파이프라인 문제일 가능성을 나타내는 메시지 및 스택 추적이 있는 오류 메시지가 포함됩니다. 수집된 로그 항목은 중복 삭제되고 오류 그룹으로 결합됩니다.
오류 보고서에는 다음 정보가 포함됩니다.
- 오류 메시지가 있는 오류 목록
- 각 오류가 발생한 횟수
- 각 오류가 발생한 시기를 나타내는 히스토그램
- 오류가 가장 최근에 발생한 시간
- 오류가 처음 발생한 시간
- 오류 상태
특정 오류의 오류 보고서를 보려면 오류 열 아래에 있는 설명을 클릭합니다. 오류 보고 페이지가 표시됩니다. 오류가 서비스 오류인 경우 추가 단계가 포함된 문서('문제 해결 가이드')가 있는 추가 링크가 표시됩니다.
페이지에 대한 자세한 내용은 오류 보기를 참조하세요.
오류 숨기기
오류 메시지를 숨기려면 진단 탭을 열고 숨김 처리하려는 오류를 클릭하고, 해결 상태 메뉴(열기 | 확인됨 | 해결됨 | 숨김 중 하나로 라벨이 지정됨)를 열어 숨김을 선택합니다.
다음 단계
실행 세부정보를 사용하여 Dataflow 작업을 최적화하는 방법 읽어보기
Cloud Monitoring을 살펴봐 알림을 만들고 커스텀 측정항목을 포함한 Dataflow 측정항목 보기
프로덕션에 즉시 가용 가능한 데이터 파이프라인 빌드 자세히 알아보기