Dataproc 服务

本页面列出了 Dataproc 映像版本在 Dataproc 集群节点上运行的服务。

所有节点

以下服务在集群中的所有节点上运行。

节点类型 服务 映像版本 说明
所有节点 google-dataproc-agent 全部 从 Dataproc 接收作业并启动作业驱动程序
google-fluentd 全部 收集日志并将其推送到 Logging

Standard 集群

以下服务在标准集群上运行。

节点类型 服务 映像版本 说明
所有节点 hadoop-hdfs-namenode 全部 管理 HDFS 文件系统
hadoop-hdfs-secondarynamenode 全部 对 NameNode 进行检查点检查
hadoop-mapreduce-historyserver 全部 提供 mapreduce 应用历史记录信息
hadoop-yarn-resourcemanager 全部 安排和管理 YARN 应用
hadoop-yarn-timelineserver 1.3+ 提供 YARN 应用历史记录信息
hive-metastore 全部 管理 Hive 表元数据。默认情况下,使用主节点上的本地 mariadb(映像版本低于 1.5)或 mysql(映像版本 1.5 及更高版本)数据库作为 Hive 表元数据存储区。不建议使用默认数据库,因为这些数据库与集群的生命周期相关联。请改为使用以下任一版本作为 Hive Metastore 数据库(按建议顺序):
  1. Dataproc Metastore
  2. Cloud SQL 实例
hive-server2 全部 处理从客户端收到的针对 Hive 的查询(主要是 beeline shell 查询
mariadb < 1.5 在版本低于 1.5 的 Dataproc 映像中,用作 Hive Metastore 的默认底层数据库的关系型数据库
mysql 1.5+ 在 Dataproc 1.5 及更高版本映像中,用作 Hive Metastore 的默认底层数据库的关系型数据库
nfs-kernel-server < 1.3 NFS 是指网络文件系统。
spark-history-server 全部 提供 Spark 应用历史记录信息
所有工作器 hadoop-yarn-nodemanager 全部 启动和管理 YARN 容器
仅限主工作器 hadoop-hdfs-datanode 全部 存储 HDFS 块

高可用性集群

在 Dataproc 高可用性 (HA) 集群中,不同的服务在不同的主节点上运行,如下所示。高可用性集群工作器节点服务与为标准集群列出的服务相同。

节点类型 服务 映像版本 说明
所有主要节点 hadoop-hdfs-journalnode 全部 一定数量的日志节点会维护 HDFS 命名空间修改的编辑日志。如果发生故障切换,Standby NameNode 会读取修改日志并从活跃 NameNode 夺走控制权。
hadoop-yarn-resourcemanager 全部 安排和管理 YARN 应用
hive-metastore 全部 管理 Hive 表元数据。默认情况下,使用主节点上的本地 mariadb(映像版本低于 1.5)或 mysql(映像版本 1.5 及更高版本)数据库作为 Hive 表元数据存储区。不建议使用默认数据库,因为这些数据库与集群的生命周期相关联。请改为使用以下任一版本作为 Hive Metastore 数据库(按建议顺序):
  1. Dataproc Metastore
  2. Cloud SQL 实例
hive-server2 全部 处理从客户端收到的针对 Hive 的查询(主要是 beeline shell 查询
zookeeper-server 全部 ZooKeeper 仲裁用于分布式协调。在高可用性 (HA) 集群中,它用于 HDFS NameNodeYARN 资源管理器领导者选举。
仅主节点 0 和 1 hadoop-hdfs-namenode 全部 管理 HDFS 文件系统
hadoop-hdfs-zkfc 全部 ZKFC 是 ZKFailoverController 进程,与 HDFS NameNode 一起运行。它会监控 NameNode 的运行状况,并在发生故障切换时通过 ZooKeeper 管理领导者选举情况。
仅主节点 0 hadoop-mapreduce-historyserver 全部 提供 mapreduce 应用历史记录信息
hadoop-yarn-timelineserver 1.3+ 提供 YARN 应用历史记录信息
mariadb < 1.5 在版本低于 1.5 的 Dataproc 映像中,用作 Hive Metastore 的默认底层数据库的关系型数据库
mysql 1.5+ 一个关系型数据库,用作 Dataproc 1.5+ 映像中 Hive Metastore 的默认底层数据库
nfs-kernel-server < 1.3 NFS 是指网络文件系统。
spark-history-server 全部 提供 Spark 应用历史记录信息