Dataproc 服务

本页面列出了 Dataproc 映像版本在 Dataproc 集群节点上运行的服务。

所有节点

以下服务在集群中的所有节点上运行。

节点类型 服务 映像版本 说明
所有节点 google-dataproc-agent 全部 接收来自 Dataproc 的作业并启动作业驱动程序
google-fluentd 全部 收集日志并将其推送到 Logging

Standard 集群

以下服务在标准集群上运行。

节点类型 服务 映像版本 说明
所有节点 hadoop-hdfs-namenode 全部 管理 HDFS 文件系统
hadoop-hdfs-secondarynamenode 全部 对 NameNode 进行检查点检查
hadoop-mapreduce-historyserver 全部 提供 mapreduce 应用历史记录信息
hadoop-yarn-resourcemanager 全部 调度和管理 YARN 应用
hadoop-yarn-timelineserver 1.3+ 提供 YARN 应用历史记录信息
hive-metastore 全部 管理 Hive 表元数据。默认情况下,使用主节点上的本地 mariadb(映像版本低于 1.5)或 mysql(映像版本 1.5 及更高版本)数据库作为 Hive 表元数据存储区。 不建议使用默认数据库,因为这些数据库 与集群的生命周期相关联请改用以下任一方法作为 Hive Metastore 数据库(按建议顺序): <ph type="x-smartling-placeholder">
    </ph>
  1. Dataproc Metastore
  2. Cloud SQL 实例
hive-server2 全部 针对 Hive 处理来自客户端的查询(主要是 beeline shell 查询
mariadb < 1.5 在版本低于 1.5 的 Dataproc 映像中,用作 Hive Metastore 的默认底层数据库的关系型数据库
mysql 1.5+ 在 Dataproc 1.5 及更高版本映像中,用作 Hive Metastore 的默认底层数据库的关系型数据库
nfs-kernel-server < 1.3 NFS 是网络文件系统。
spark-history-server 全部 提供 Spark 应用历史记录信息
所有工作器 hadoop-yarn-nodemanager 全部 启动和管理 YARN 容器
仅限主要工作器 hadoop-hdfs-datanode 全部 存储 HDFS 块

高可用性集群

在 Dataproc 中 高可用性 (HA) 集群 不同的服务在不同的主节点上运行,如下所示。高可用性集群工作器 节点服务与标准集群中列出的服务相同。

节点类型 服务 映像版本 说明
所有主要节点 hadoop-hdfs-journalnode 全部 日志节点的仲裁维护 HDFS 命名空间修改日志。 如果发生故障切换,备用名称节点会读取编辑日志,并从主名称节点接管控制权。
hadoop-yarn-resourcemanager 全部 调度和管理 YARN 应用
hive-metastore 全部 管理 Hive 表元数据。默认情况下,使用主节点上的本地 mariadb(映像版本低于 1.5)或 mysql(映像版本 1.5 及更高版本)数据库作为 Hive 表元数据存储区。 不建议使用默认数据库,因为这些数据库与集群的生命周期相关联。请改为使用以下任一项作为 Hive Metastore 数据库(推荐顺序):
  1. Dataproc Metastore
  2. Cloud SQL 实例
hive-server2 全部 处理从客户端收到的查询 (主要是 beeline shell 查询) 针对 Hive
zookeeper-server 全部 ZooKeeper 仲裁用于分布式协调。在 高可用性 (HA) 集群 用途 HDFS NameNodeYARN 资源经理 领导人选举。
仅主节点 0 和 1 hadoop-hdfs-namenode 全部 管理 HDFS 文件系统
hadoop-hdfs-zkfc 全部 ZKFC 是 ZKFailoverController 进程,它运行 与 HDFS NameNode 相关联。它监控 NameNode 的运行状况,并管理主要副本 通过 ZooKeeper 进行选举。
仅主节点 0 hadoop-mapreduce-historyserver 全部 提供 MapReduce 应用历史记录信息
hadoop-yarn-timelineserver 1.3+ 提供 YARN 应用历史记录信息
mariadb < 1.5 在版本低于 1.5 的 Dataproc 映像中,用作 Hive Metastore 的默认底层数据库的关系型数据库
mysql 1.5+ 在 Dataproc 1.5 及更高版本映像中,用作 Hive Metastore 的默认底层数据库的关系型数据库
nfs-kernel-server < 1.3 NFS 是网络文件系统。
spark-history-server 全部 提供 Spark 应用历史记录信息