Dataproc 서비스

이 페이지에는 Dataproc 이미지 버전이 Dataproc 클러스터 노드에서 실행하는 서비스가 나와 있습니다.

모든 노드

다음 서비스는 클러스터의 모든 노드에서 실행됩니다.

노드 유형 서비스 이미지 버전 설명
모든 노드 google-dataproc-agent 모두 Dataproc에서 작업을 수신하고 작업 드라이버를 실행합니다.
google-fluentd 모두 로그를 수집하여 Logging에 푸시합니다.

Standard 클러스터

다음 서비스는 표준 클러스터에서 실행됩니다.

노드 유형 서비스 이미지 버전 설명
모든 노드 hadoop-hdfs-namenode 모두 HDFS 파일 시스템을 관리합니다.
hadoop-hdfs-secondarynamenode 모두 NameNode를 체크포인트합니다.
hadoop-mapreduce-historyserver 모두 맵리듀스 애플리케이션 기록 정보를 제공합니다.
hadoop-yarn-resourcemanager 모두 YARN 애플리케이션을 예약하고 관리합니다.
hadoop-yarn-timelineserver 1.3+ YARN 애플리케이션 기록 정보를 제공합니다.
hive-metastore 모두 Hive 테이블 메타데이터를 관리합니다. 기본적으로 마스터 노드의 로컬 mariadb(이미지 버전 1.5 미만) 또는 mysql(이미지 버전 1.5 이상) 데이터베이스를 Hive 테이블 메타데이터 저장소로 사용합니다. 기본 데이터베이스는 클러스터의 수명 주기에 연결되어 있으므로 기본 데이터베이스를 사용하지 않는 것이 좋습니다. 대신 다음 중 하나를 Hive 메타스토어 데이터베이스로 사용합니다(권장사항 순서).
  1. Dataproc Metastore
  2. Cloud SQL 인스턴스
hive-server2 모두 Hive에 대해 클라이언트(주로 Beeline 셸 쿼리)에서 받은 쿼리를 제공합니다.
mariadb < 1.5 Dataproc < 1.5 이미지에서 Hive Metastore의 기본 데이터베이스(기본값)로 사용되는 관계형 데이터베이스입니다.
mysql 1.5+ Dataproc 1.5+ 이미지에서 Hive Metastore의 기본 데이터베이스(기본값)로 사용되는 관계형 데이터베이스입니다.
nfs-kernel-server < 1.3 NFS는 네트워크 파일 시스템입니다.
spark-history-server 모두 Spark 애플리케이션 기록 정보를 제공합니다.
모든 작업자 hadoop-yarn-nodemanager 모두 YARN 컨테이너를 실행하고 관리합니다.
기본 작업자만 hadoop-hdfs-datanode 모두 HDFS 블록을 저장합니다.

HA 클러스터

Dataproc 고가용성(HA) 클러스터에서 아래와 같이 서로 다른 서비스가 서로 다른 마스터 노드에서 실행됩니다. HA 클러스터 워커 노드 서비스는 표준 클러스터에 나열된 것과 동일합니다.

노드 유형 서비스 이미지 버전 설명
모든 마스터 hadoop-hdfs-journalnode 모두 저널 노드의 쿼럼은 HDFS 네임스페이스 수정의 수정 로그를 유지보수합니다. 장애 조치가 발생하면 대기 NameNode가 수정 로그를 읽고 활성 NameNode에서 제어 권한을 가져옵니다.
hadoop-yarn-resourcemanager 모두 YARN 애플리케이션을 예약하고 관리합니다.
hive-metastore 모두 Hive 테이블 메타데이터를 관리합니다. 기본적으로 마스터 노드의 로컬 mariadb(이미지 버전 1.5 미만) 또는 mysql(이미지 버전 1.5 이상) 데이터베이스를 Hive 테이블 메타데이터 저장소로 사용합니다. 기본 데이터베이스는 클러스터의 수명 주기에 연결되어 있으므로 기본 데이터베이스를 사용하지 않는 것이 좋습니다. 대신 다음 중 하나를 Hive 메타스토어 데이터베이스로 사용합니다(권장사항 순서).
  1. Dataproc Metastore
  2. Cloud SQL 인스턴스
hive-server2 모두 Hive에 대해 클라이언트(주로 Beeline 셸 쿼리)에서 받은 쿼리를 제공합니다.
zookeeper-server 모두 ZooKeeper 쿼럼은 분산 조정에 사용됩니다. 고가용성 (HA) 클러스터에서는 HDFS NameNodeYARN Resource Manager 리더 선택용으로 사용됩니다.
마스터 0 및 1만 hadoop-hdfs-namenode 모두 HDFS 파일 시스템을 관리합니다.
hadoop-hdfs-zkfc 모두 ZKFC는 HDFS NameNode로 실행되는 ZKFailoverController 프로세스입니다. NameNode의 상태를 모니터링하고 장애 조치 시 ZooKeeper를 통해 리더 선택을 관리합니다.
마스터 0만 hadoop-mapreduce-historyserver 모두 맵리듀스 애플리케이션 기록 정보를 제공합니다.
hadoop-yarn-timelineserver 1.3+ YARN 애플리케이션 기록 정보를 제공합니다.
mariadb < 1.5 Dataproc < 1.5 이미지에서 Hive Metastore의 기본 데이터베이스(기본값)로 사용되는 관계형 데이터베이스입니다.
mysql 1.5+ Dataproc 1.5+ 이미지에서 Hive Metastore의 기본 데이터베이스(기본값)로 사용되는 관계형 데이터베이스입니다.
nfs-kernel-server < 1.3 NFS는 네트워크 파일 시스템입니다.
spark-history-server 모두 Spark 애플리케이션 기록 정보를 제공합니다.