Se usó la API de Cloud Translation para traducir esta página.

Servicios de Dataproc

En esta página, se enumeran los servicios que las versiones con imágenes de Dataproc se ejecutan en los nodos del clúster de Dataproc.

Todos los nodos

Los siguientes servicios se ejecutan en todos los nodos de un clúster.

Tipo de nodo	Servicio	Versiones con imágenes	Descripción
Todos los nodos	google-dataproc-agent	todos	Recibe trabajos de Dataproc y también inicia controladores de trabajos
Todos los nodos	google-fluentd	todos	Recopila y envía registros a Logging

Clústeres estándar

Los siguientes servicios se ejecutan en clústeres estándar.

Tipo de nodo	Servicio	Versiones con imágenes	Descripción
Todos los nodos	hadoop-hdfs-namenode	todos	Administra el sistema de archivos HDFS
	hadoop-hdfs-secondarynamenode	todos	Puntos de control para el NameNode
	hadoop-mapreduce-historyserver	todos	Entrega información sobre el historial de aplicaciones de MapReduce
	hadoop-yarn-resourcemanager	todos	Programa y administra aplicaciones YARN
	hadoop-yarn-timelineserver	1.3+	Entrega información sobre el historial de aplicaciones de YARN
	hive-metastore	todos	Administra los metadatos de tablas de Hive. De forma predeterminada, usa la base de datos local `mariadb` (versiones de imagen < 1.5) o `mysql` (versiones de imagen 1.5+) en el nodo principal como el almacén de metadatos de la tabla de Hive. No se recomienda usar la base de datos predeterminada porque estas están vinculadas al ciclo de vida del clúster. En su lugar, usa cualquiera de las siguientes opciones como base de datos del almacén de metadatos de Hive (en orden de recomendación): Dataproc Metastore Instancia de Cloud SQL
	hive-server2	todos	Entrega consultas realizadas por clientes (principalmente, consultas de shell de Beeline) en Hive.
	mariadb	< 1.5	Una base de datos relacional usada como la base de datos subyacente predeterminada para el almacén de metadatos de Hive en imágenes de Dataproc <1.5
	mysql	1.5+	Una base de datos relacional usada como la base de datos subyacente predeterminada para el almacén de metadatos de Hive en imágenes de Dataproc 1.5+
	nfs-kernel-server	< 1.3	NFS es el sistema de archivos de red.
	spark-history-server	todos	Entrega información sobre el historial de aplicaciones de Spark
Todos los trabajadores	hadoop-yarn-nodemanager	todos	Inicia y administra contenedores YARN
Solo trabajadores principales	hadoop-hdfs-datanode	todos	Almacena bloques de HDFS

Clústeres con alta disponibilidad

En los clústeres de alta disponibilidad (HA) de Dataproc, se ejecutan diferentes servicios en diferentes nodos principales, como se muestra a continuación. Los servicios de nodos trabajadores del clúster de HA son los mismos que los enumerados para los clústeres estándar.

Tipo de nodo	Servicio	Versiones con imágenes	Descripción
Todos los maestros	hadoop-hdfs-journalnode	todos	Un quórum de nodos de diario mantiene un registro de edición de las modificaciones del espacio de nombres de HDFS. Si se produce una conmutación por error, el NameNode de espera lee el registro de edición y toma el control del NameNode activo.
	hadoop-yarn-resourcemanager	todos	Programa y administra aplicaciones YARN
	hive-metastore	todos	Administra los metadatos de tablas de Hive. De forma predeterminada, usa la base de datos local `mariadb` (versiones de imagen < 1.5) o `mysql` (versiones de imagen 1.5+) en el nodo principal como el almacén de metadatos de la tabla de Hive. No se recomienda usar la base de datos predeterminada porque estas están vinculadas al ciclo de vida del clúster. En su lugar, usa cualquiera de las siguientes opciones como base de datos del almacén de metadatos de Hive (en orden de recomendación): Dataproc Metastore Instancia de Cloud SQL
	hive-server2	todos	Entrega consultas realizadas por clientes (principalmente, consultas de shell de Beeline) en Hive.
	zookeeper-server	todos	Un quórum de ZooKeeper se usa para la coordinación distribuida. En clústeres de alta disponibilidad (HA), se usa para la elección del líder de HDFS NameNodes y administradores de recursos de YARN..
Solo las instancias principales 0 y 1	hadoop-hdfs-namenode	todos	Administra el sistema de archivos HDFS
Solo las instancias principales 0 y 1	hadoop-hdfs-zkfc	todos	ZKFC es el proceso `ZKFailoverController`, que se ejecuta con el NameNode de HDFS. Supervisa el estado del NameNode y administra la elección del líder a través de ZooKeeper en caso de una conmutación por error.
Solo la instancia principal 0	hadoop-mapreduce-historyserver	todos	Entrega información sobre el historial de aplicaciones de MapReduce
	hadoop-yarn-timelineserver	1.3+	Entrega información sobre el historial de aplicaciones de YARN
	mariadb	< 1.5	Una base de datos relacional usada como la base de datos subyacente predeterminada para el almacén de metadatos de Hive en imágenes de Dataproc <1.5
	mysql	1.5+	Una base de datos relacional usada como la base de datos subyacente predeterminada para el almacén de metadatos de Hive en imágenes de Dataproc 1.5+
	nfs-kernel-server	< 1.3	NFS es el sistema de archivos de red.
	spark-history-server	todos	Entrega información sobre el historial de aplicaciones de Spark