Dataproc 服务

本页列出了 Dataproc 映像版本在 Dataproc 集群节点上运行的服务。

所有节点

以下服务会在集群中的所有节点上运行。

节点类型 服务 映像版本 说明
所有节点 google-dataproc-agent 全部 从 Dataproc 接收作业并启动作业驱动程序
google-fluentd 全部 收集日志并将其推送到 Logging

Standard 集群

以下服务会在标准集群上运行。

节点类型 服务 映像版本 说明
主节点 hadoop-hdfs-namenode 全部 管理 HDFS 文件系统
hadoop-hdfs-secondarynamenode 全部 对 NameNode 进行检查点检查
hadoop-mapreduce-historyserver 全部 提供 MapReduce 应用历史记录信息
hadoop-yarn-resourcemanager 全部 调度和管理 YARN 应用
hadoop-yarn-timelineserver 1.3+ 提供 YARN 应用历史记录信息
hive-metastore 全部 管理 Hive 表元数据。默认情况下,使用主节点上的本地 mariadb(映像版本低于 1.5)或 mysql(映像版本 1.5 及更高版本)数据库作为 Hive 表元数据存储区。不建议使用默认数据库,因为这些数据库与集群的生命周期相关联。请改为使用以下任一项作为 Hive metastore 数据库(按建议顺序):
  1. Dataproc Metastore
  2. Cloud SQL 实例
hive-server2 全部 针对 Hive 提供从客户端收到的查询(主要是 beeline shell 查询
mariadb < 1.5 在版本低于 1.5 的 Dataproc 映像中,用作 Hive Metastore 的默认底层数据库的关系型数据库
mysql 1.5+ 在 Dataproc 1.5 及更高版本映像中,用作 Hive Metastore 的默认底层数据库的关系型数据库
nfs-kernel-server < 1.3 NFS 是网络文件系统。
spark-history-server 全部 提供 Spark 应用历史记录信息
所有工作器 hadoop-yarn-nodemanager 全部 启动和管理 YARN 容器
仅限主要工作器 hadoop-hdfs-datanode 全部 存储 HDFS 块

高可用性集群

在 Dataproc 高可用性 (HA) 集群中,不同的服务在不同的主节点上运行,如下所示。高可用性集群工作节点服务与针对标准集群列出的服务相同。

节点类型 服务 映像版本 说明
所有主要节点 hadoop-hdfs-journalnode 全部 日志节点的仲裁维护 HDFS 命名空间修改的修改日志。如果发生故障切换,备用 NameNode 会读取修改日志并从 Active NameNode 接管控制权。
hadoop-yarn-resourcemanager 全部 调度和管理 YARN 应用
hive-metastore 全部 管理 Hive 表元数据。默认情况下,使用主节点上的本地 mariadb(映像版本低于 1.5)或 mysql(映像版本 1.5 及更高版本)数据库作为 Hive 表元数据存储区。不建议使用默认数据库,因为这些数据库与集群的生命周期相关联。请改为使用以下任一项作为 Hive metastore 数据库(按建议顺序):
  1. Dataproc Metastore
  2. Cloud SQL 实例
hive-server2 全部 针对 Hive 提供从客户端收到的查询(主要是 beeline shell 查询
zookeeper-server 全部 ZooKeeper 仲裁用于分布式协调。在高可用性 (HA) 集群中,ZooKeeper 仲裁用于 HDFS NameNodeYARN 资源管理器的主节点选举。
仅主节点 0 和 1 hadoop-hdfs-namenode 全部 管理 HDFS 文件系统
hadoop-hdfs-zkfc 全部 ZKFC 是 ZKFailoverController 进程,它与 HDFS NameNode 一起运行。ZKFC 会监控 NameNode 的健康状况,并在发生故障切换时通过 ZooKeeper 管理主节点选举。
仅主节点 0 hadoop-mapreduce-historyserver 全部 提供 MapReduce 应用历史记录信息
hadoop-yarn-timelineserver 1.3+ 提供 YARN 应用历史记录信息
mariadb < 1.5 在版本低于 1.5 的 Dataproc 映像中,用作 Hive Metastore 的默认底层数据库的关系型数据库
mysql 1.5+ 在 Dataproc 1.5 及更高版本映像中,用作 Hive metastore 的默认底层数据库的关系型数据库
nfs-kernel-server < 1.3 NFS 是网络文件系统。
spark-history-server 全部 提供 Spark 应用历史记录信息