Dataproc 모니터링 및 문제 해결 도구

소개

Dataproc은 Apache Hadoop, Apache Spark, Apache Flink, Trino와 같은 오픈소스 분산 처리 플랫폼을 실행하기 위한 확장성이 뛰어난 완전 관리형 서비스입니다. 다음 섹션에서 설명하는 파일과 도구를 사용하여 Dataproc 클러스터 및 작업 문제를 해결하고 모니터링할 수 있습니다.

오픈소스 웹 인터페이스

Apache Hadoop 및 Apache Spark와 같은 여러 Dataproc 클러스터 오픈소스 구성요소에서 웹 인터페이스를 제공합니다. 이러한 인터페이스를 사용하여 클러스터 리소스와 작업 성능을 모니터링할 수 있습니다. 예를 들어 YARN Resource Manager UI를 사용하여 Dataproc 클러스터의 YARN 애플리케이션 리소스 할당을 확인할 수 있습니다.

영구 기록 서버

클러스터에서 실행 중인 오픈소스 웹 인터페이스는 클러스터가 실행 중일 때 사용 가능하지만 클러스터를 삭제하면 종료됩니다. 클러스터가 삭제된 후 클러스터 및 작업 데이터를 보려면 영구 기록 서버(PHS)를 만들면 됩니다.

예시: 작업 오류 또는 속도 저하가 발생하여 이를 분석하려고 합니다. 작업 클러스터를 중지하거나 삭제한 다음 PHS를 사용하여 작업 기록 데이터를 확인하고 분석합니다.

PHS를 만든 후 클러스터를 만들거나 일괄 워크로드를 제출할 때 Dataproc 클러스터 또는 Dataproc 서버리스 일괄 워크로드에서 이를 사용 설정합니다. PHS는 여러 클러스터에서 실행되는 작업의 기록 데이터에 액세스할 수 있으므로 여러 클러스터에서 실행되는 개별 UI를 모니터링하는 대신 프로젝트 전체의 작업을 모니터링할 수 있습니다.

Dataproc 로그

Dataproc은 클러스터에서 실행되는 Apache Hadoop, Spark, Hive, Zookeeper 및 기타 오픈소스 시스템에서 생성된 로그를 수집하여 Logging으로 전송합니다. 이러한 로그는 로그의 출처에 따라 그룹화되므로 관심 있는 로그를 선택하여 조회할 수 있습니다. 예를 들어 클러스터에서 생성된 YARN NodeManager 로그와 Spark Executor 로그에 별도의 라벨이 지정됩니다. Dataproc 로그의 내용과 옵션에 대한 자세한 내용은 Dataproc 로그를 참조하세요.

Cloud Logging

Logging은 완전 관리형 실시간 로그 관리 시스템입니다. 이 시스템은 Google Cloud 서비스에서 수집된 로그를 저장하고 대규모 로그를 검색, 필터링, 분석하는 도구를 제공합니다. Dataproc 클러스터는 Dataproc 서비스 에이전트 로그, 클러스터 시작 로그, YARN NodeManager 로그와 같은 OSS 구성요소 로그를 포함하여 다양한 로그를 생성합니다.

Dataproc 클러스터 및 서버리스 Dataproc 일괄 워크로드에서 Logging이 기본적으로 사용 설정됩니다. 로그는 주기적으로 Logging으로 내보내지며 클러스터가 삭제되거나 워크로드가 완료된 후에도 유지됩니다.

Dataproc 측정항목

프리픽스가 dataproc.googleapis.com/Dataproc 클러스터 및 작업 측정항목은 CPU 사용률, 작업 상태 등 클러스터 성능에 대한 유용한 정보를 제공하는 시계열 데이터로 구성됩니다. 프리픽스가 custom.googleapis.com/인 Dataproc 커스텀 측정항목에는 YARN running applications 측정항목과 같이 클러스터에서 실행되는 오픈소스 시스템에서 내보낸 측정항목이 포함됩니다. Dataproc 측정항목을 자세히 파악하면 클러스터를 효율적으로 구성하는 데 도움이 됩니다. 측정항목 기반 알림을 설정하면 문제를 빠르게 인식하고 대응하는 데 도움이 됩니다.

Dataproc 클러스터 및 작업 측정항목은 기본적으로 무료로 수집됩니다. 커스텀 측정항목 수집에 대해서는 고객에게 요금이 청구됩니다. 클러스터를 만들 때 커스텀 측정항목 수집을 사용 설정할 수 있습니다. Dataproc 서버리스 Spark 측정항목 수집은 Spark 일괄 워크로드에서 기본적으로 사용 설정됩니다.

Cloud Monitoring

Monitoring에서는 HDFS, YARN, 작업, 작업 측정항목 등의 클러스터 메타데이터와 측정항목을 사용하여 Dataproc 클러스터 및 작업의 상태, 성능, 가용성을 파악합니다. Monitoring을 사용하여 측정항목을 탐색하고, 차트를 추가하고, 대시보드를 작성하고, 알림을 만들 수 있습니다.

측정항목 탐색기

측정항목 탐색기를 사용하여 Dataproc 측정항목을 볼 수 있습니다. Dataproc 클러스터, 작업, 서버리스 일괄 측정항목은 Cloud Dataproc Cluster, Cloud Dataproc Job, Cloud Dataproc Batch 리소스 아래에 나열됩니다. Dataproc 커스텀 측정항목은 VM Instances 리소스의 Custom 카테고리에 나열됩니다.

차트

측정항목 탐색기를 사용하여 Dataproc 측정항목을 시각화하는 차트를 만들 수 있습니다.

예시: 클러스터에서 실행 중인 활성 Yarn 애플리케이션 수를 표시하는 차트를 만들고 클러스터 이름 또는 리전별로 시각화된 측정항목을 선택하는 필터를 추가합니다.

대시보드

대시보드를 작성하면 여러 프로젝트 및 다양한 Google Cloud 제품의 측정항목을 사용하여 Dataproc 클러스터와 작업을 모니터링할 수 있습니다. Google Cloud 콘솔의 대시보드 개요 페이지에서 측정항목 탐색기 페이지의 차트를 클릭하고 작성한 후 저장하면 대시보드를 만들 수 있습니다.

알림

Dataproc 측정항목 알림을 만들면 클러스터 또는 작업 문제에 대한 알림을 즉시 받을 수 있습니다.

자연어 처리와 디코더-인코더,

자세한 내용은 다음을 참조하세요.