Servicios de Dataproc

En esta página, se enumeran los servicios que las versiones con imágenes de Dataproc se ejecutan en los nodos del clúster de Dataproc.

Todos los nodos

Los siguientes servicios se ejecutan en todos los nodos de un clúster.

Tipo de nodo Servicio Versiones con imágenes Descripción
Todos los nodos google-dataproc-agent todos Recibe trabajos de Dataproc y también inicia controladores de trabajos
google-fluentd todos Recopila y envía registros a Logging

Clústeres estándar

Los siguientes servicios se ejecutan en clústeres estándar.

Tipo de nodo Servicio Versiones con imágenes Descripción
Todos los nodos hadoop-hdfs-namenode todos Administra el sistema de archivos HDFS
hadoop-hdfs-secondarynamenode todos Puntos de control para el NameNode
hadoop-mapreduce-historyserver todos Entrega información sobre el historial de aplicaciones de MapReduce
hadoop-yarn-resourcemanager todos Programa y administra aplicaciones YARN
hadoop-yarn-timelineserver 1.3+ Entrega información sobre el historial de aplicaciones de YARN
hive-metastore todos Administra los metadatos de tablas de Hive. De forma predeterminada, usa la base de datos local mariadb (versiones de imagen < 1.5) o mysql (versiones de imagen 1.5+) en el nodo principal como el almacén de metadatos de la tabla de Hive. No se recomienda usar la base de datos predeterminada porque estas están vinculadas al ciclo de vida del clúster. En su lugar, usa cualquiera de las siguientes opciones como base de datos del almacén de metadatos de Hive (en orden de recomendación):
  1. Dataproc Metastore
  2. Instancia de Cloud SQL
hive-server2 todos Entrega consultas realizadas por clientes (principalmente, consultas de shell de Beeline) en Hive.
mariadb < 1.5 Una base de datos relacional usada como la base de datos subyacente predeterminada para el almacén de metadatos de Hive en imágenes de Dataproc <1.5
mysql 1.5+ Una base de datos relacional usada como la base de datos subyacente predeterminada para el almacén de metadatos de Hive en imágenes de Dataproc 1.5+
nfs-kernel-server < 1.3 NFS es el sistema de archivos de red.
spark-history-server todos Entrega información sobre el historial de aplicaciones de Spark
Todos los trabajadores hadoop-yarn-nodemanager todos Inicia y administra contenedores YARN
Solo trabajadores principales hadoop-hdfs-datanode todos Almacena bloques de HDFS

Clústeres con alta disponibilidad

En los clústeres de alta disponibilidad (HA) de Dataproc, se ejecutan diferentes servicios en diferentes nodos principales, como se muestra a continuación. Los servicios de nodos trabajadores del clúster de HA son los mismos que los enumerados para los clústeres estándar.

Tipo de nodo Servicio Versiones con imágenes Descripción
Todos los maestros hadoop-hdfs-journalnode todos Un quórum de nodos de diario mantiene un registro de edición de las modificaciones del espacio de nombres de HDFS. Si se produce una conmutación por error, el NameNode de espera lee el registro de edición y toma el control del NameNode activo.
hadoop-yarn-resourcemanager todos Programa y administra aplicaciones YARN
hive-metastore todos Administra los metadatos de tablas de Hive. De forma predeterminada, usa la base de datos local mariadb (versiones de imagen < 1.5) o mysql (versiones de imagen 1.5+) en el nodo principal como el almacén de metadatos de la tabla de Hive. No se recomienda usar la base de datos predeterminada porque estas están vinculadas al ciclo de vida del clúster. En su lugar, usa cualquiera de las siguientes opciones como base de datos del almacén de metadatos de Hive (en orden de recomendación):
  1. Dataproc Metastore
  2. Instancia de Cloud SQL
hive-server2 todos Entrega consultas realizadas por clientes (principalmente, consultas de shell de Beeline) en Hive.
zookeeper-server todos Un quórum de ZooKeeper se usa para la coordinación distribuida. En clústeres de alta disponibilidad (HA), se usa para la elección del líder de HDFS NameNodes y administradores de recursos de YARN..
Solo las instancias principales 0 y 1 hadoop-hdfs-namenode todos Administra el sistema de archivos HDFS
hadoop-hdfs-zkfc todos ZKFC es el proceso ZKFailoverController, que se ejecuta con el NameNode de HDFS. Supervisa el estado del NameNode y administra la elección del líder a través de ZooKeeper en caso de una conmutación por error.
Solo la instancia principal 0 hadoop-mapreduce-historyserver todos Entrega información sobre el historial de aplicaciones de MapReduce
hadoop-yarn-timelineserver 1.3+ Entrega información sobre el historial de aplicaciones de YARN
mariadb < 1.5 Una base de datos relacional usada como la base de datos subyacente predeterminada para el almacén de metadatos de Hive en imágenes de Dataproc <1.5
mysql 1.5+ Una base de datos relacional usada como la base de datos subyacente predeterminada para el almacén de metadatos de Hive en imágenes de Dataproc 1.5+
nfs-kernel-server < 1.3 NFS es el sistema de archivos de red.
spark-history-server todos Entrega información sobre el historial de aplicaciones de Spark