Servicios de Dataproc

En esta página se enumeran los servicios que ejecutan las versiones de imagen de Dataproc en los nodos de clúster de Dataproc.

Todos los nodos

Los siguientes servicios se ejecutan en todos los nodos de un clúster.

Tipo de nodo Servicio Versiones de imagen Descripción
Todos los nodos google-dataproc-agent todos Recibe tareas de Dataproc e inicia controladores de tareas.
google-fluentd todos Recoge y envía registros a Logging.

Clústeres estándar

Los siguientes servicios se ejecutan en clústeres estándar.

Tipo de nodo Servicio Versiones de imagen Descripción
Maestro hadoop-hdfs-namenode todos Gestiona el sistema de archivos HDFS.
hadoop-hdfs-secondarynamenode todos Puntos de control del NameNode
hadoop-mapreduce-historyserver todos Sirve información del historial de aplicaciones de MapReduce.
hadoop-yarn-resourcemanager todos Programa y gestiona aplicaciones de YARN.
hadoop-yarn-timelineserver 1.3+ Proporciona información del historial de aplicaciones de YARN.
hive-metastore todos Gestiona los metadatos de las tablas de Hive. De forma predeterminada, usa la base de datos local mariadb (versiones de imagen anteriores a la 1.5) o mysql (versiones de imagen 1.5 o posteriores) en el nodo maestro como almacén de metadatos de la tabla de Hive. No se recomienda usar la base de datos predeterminada porque estas bases de datos están vinculadas al ciclo de vida del clúster. En su lugar, utiliza una de las siguientes opciones como base de datos del almacén de metadatos de Hive (por orden de recomendación):
  1. Dataproc Metastore
  2. Instancia de Cloud SQL
hive-server2 todos Sirve las consultas recibidas de los clientes (principalmente consultas de shell de beeline) en Hive.
mariadb < 1,5 Una base de datos relacional que se usa como base de datos subyacente predeterminada para el metastore de Hive en imágenes de Dataproc anteriores a la versión 1.5
mysql 1,5 o más Una base de datos relacional que se usa como base de datos subyacente predeterminada para el metastore de Hive en imágenes de Dataproc 1.5 o versiones posteriores
nfs-kernel-server < 1,3 NFS es el sistema de archivos de red.
spark-history-server todos Proporciona información del historial de aplicaciones de Spark.
Todos los trabajadores hadoop-yarn-nodemanager todos Inicia y gestiona contenedores de YARN.
Solo trabajadores principales hadoop-hdfs-datanode todos Almacena bloques de HDFS.

Clústeres de alta disponibilidad

En los clústeres de alta disponibilidad (HA) de Dataproc, los diferentes servicios se ejecutan en distintos nodos maestros, como se muestra a continuación. Los servicios de los nodos de trabajo de los clústeres de alta disponibilidad son los mismos que los que se indican en los clústeres estándar.

Tipo de nodo Servicio Versiones de imagen Descripción
Todos los maestros hadoop-hdfs-journalnode todos Un quórum de nodos de registro mantiene un registro de edición de las modificaciones del espacio de nombres de HDFS. Si se produce una conmutación por error, el NameNode de reserva lee el registro de edición y toma el control del NameNode activo.
hadoop-yarn-resourcemanager todos Programa y gestiona aplicaciones de YARN.
hive-metastore todos Gestiona los metadatos de las tablas de Hive. De forma predeterminada, usa la base de datos local mariadb (versiones de imagen anteriores a la 1.5) o mysql (versiones de imagen 1.5 o posteriores) en el nodo maestro como almacén de metadatos de la tabla de Hive. No se recomienda usar la base de datos predeterminada porque estas bases de datos están vinculadas al ciclo de vida del clúster. En su lugar, utiliza una de las siguientes opciones como base de datos del almacén de metadatos de Hive (por orden de recomendación):
  1. Dataproc Metastore
  2. Instancia de Cloud SQL
hive-server2 todos Sirve las consultas recibidas de los clientes (principalmente consultas de shell de beeline) en Hive.
zookeeper-server todos Se usa un quórum de ZooKeeper para la coordinación distribuida. En los clústeres de alta disponibilidad, se usa para la elección del líder de los NameNodes de HDFS y los gestores de recursos de YARN.
Solo Masters 0 y 1 hadoop-hdfs-namenode todos Gestiona el sistema de archivos HDFS.
hadoop-hdfs-zkfc todos ZKFC es el proceso ZKFailoverController, que se ejecuta con el NameNode de HDFS. Monitoriza el estado de NameNode y gestiona la elección del líder a través de ZooKeeper en caso de conmutación por error.
Solo maestro 0 hadoop-mapreduce-historyserver todos Sirve información del historial de aplicaciones de MapReduce.
hadoop-yarn-timelineserver 1.3+ Proporciona información del historial de aplicaciones de YARN.
mariadb < 1,5 Una base de datos relacional que se usa como base de datos subyacente predeterminada para el metastore de Hive en imágenes de Dataproc anteriores a la versión 1.5
mysql 1,5 o más Una base de datos relacional que se usa como base de datos subyacente predeterminada para el metastore de Hive en imágenes de Dataproc 1.5 o versiones posteriores
nfs-kernel-server < 1,3 NFS es el sistema de archivos de red.
spark-history-server todos Proporciona información del historial de aplicaciones de Spark.