Esta página se ha traducido con Cloud Translation API.

Servicios de Dataproc

En esta página se enumeran los servicios que ejecutan las versiones de imagen de Dataproc en los nodos de clúster de Dataproc.

Todos los nodos

Los siguientes servicios se ejecutan en todos los nodos de un clúster.

Tipo de nodo	Servicio	Versiones de imagen	Descripción
Todos los nodos	google-dataproc-agent	todos	Recibe tareas de Dataproc e inicia controladores de tareas.
Todos los nodos	google-fluentd	todos	Recoge y envía registros a Logging.

Clústeres estándar

Los siguientes servicios se ejecutan en clústeres estándar.

Tipo de nodo	Servicio	Versiones de imagen	Descripción
Maestro	hadoop-hdfs-namenode	todos	Gestiona el sistema de archivos HDFS.
	hadoop-hdfs-secondarynamenode	todos	Puntos de control del NameNode
	hadoop-mapreduce-historyserver	todos	Sirve información del historial de aplicaciones de MapReduce.
	hadoop-yarn-resourcemanager	todos	Programa y gestiona aplicaciones de YARN.
	hadoop-yarn-timelineserver	1.3+	Proporciona información del historial de aplicaciones de YARN.
	hive-metastore	todos	Gestiona los metadatos de las tablas de Hive. De forma predeterminada, usa la base de datos local `mariadb` (versiones de imagen anteriores a la 1.5) o `mysql` (versiones de imagen 1.5 o posteriores) en el nodo maestro como almacén de metadatos de la tabla de Hive. No se recomienda usar la base de datos predeterminada porque estas bases de datos están vinculadas al ciclo de vida del clúster. En su lugar, utiliza una de las siguientes opciones como base de datos del almacén de metadatos de Hive (por orden de recomendación): Dataproc Metastore Instancia de Cloud SQL
	hive-server2	todos	Sirve las consultas recibidas de los clientes (principalmente consultas de shell de beeline) en Hive.
	mariadb	< 1,5	Una base de datos relacional que se usa como base de datos subyacente predeterminada para el metastore de Hive en imágenes de Dataproc anteriores a la versión 1.5
	mysql	1,5 o más	Una base de datos relacional que se usa como base de datos subyacente predeterminada para el metastore de Hive en imágenes de Dataproc 1.5 o versiones posteriores
	nfs-kernel-server	< 1,3	NFS es el sistema de archivos de red.
	spark-history-server	todos	Proporciona información del historial de aplicaciones de Spark.
Todos los trabajadores	hadoop-yarn-nodemanager	todos	Inicia y gestiona contenedores de YARN.
Solo trabajadores principales	hadoop-hdfs-datanode	todos	Almacena bloques de HDFS.

Clústeres de alta disponibilidad

En los clústeres de alta disponibilidad (HA) de Dataproc, los diferentes servicios se ejecutan en distintos nodos maestros, como se muestra a continuación. Los servicios de los nodos de trabajo de los clústeres de alta disponibilidad son los mismos que los que se indican en los clústeres estándar.

Tipo de nodo	Servicio	Versiones de imagen	Descripción
Todos los maestros	hadoop-hdfs-journalnode	todos	Un quórum de nodos de registro mantiene un registro de edición de las modificaciones del espacio de nombres de HDFS. Si se produce una conmutación por error, el NameNode de reserva lee el registro de edición y toma el control del NameNode activo.
	hadoop-yarn-resourcemanager	todos	Programa y gestiona aplicaciones de YARN.
	hive-metastore	todos	Gestiona los metadatos de las tablas de Hive. De forma predeterminada, usa la base de datos local `mariadb` (versiones de imagen anteriores a la 1.5) o `mysql` (versiones de imagen 1.5 o posteriores) en el nodo maestro como almacén de metadatos de la tabla de Hive. No se recomienda usar la base de datos predeterminada porque estas bases de datos están vinculadas al ciclo de vida del clúster. En su lugar, utiliza una de las siguientes opciones como base de datos del almacén de metadatos de Hive (por orden de recomendación): Dataproc Metastore Instancia de Cloud SQL
	hive-server2	todos	Sirve las consultas recibidas de los clientes (principalmente consultas de shell de beeline) en Hive.
	zookeeper-server	todos	Se usa un quórum de ZooKeeper para la coordinación distribuida. En los clústeres de alta disponibilidad, se usa para la elección del líder de los NameNodes de HDFS y los gestores de recursos de YARN.
Solo Masters 0 y 1	hadoop-hdfs-namenode	todos	Gestiona el sistema de archivos HDFS.
Solo Masters 0 y 1	hadoop-hdfs-zkfc	todos	ZKFC es el proceso `ZKFailoverController`, que se ejecuta con el NameNode de HDFS. Monitoriza el estado de NameNode y gestiona la elección del líder a través de ZooKeeper en caso de conmutación por error.
Solo maestro 0	hadoop-mapreduce-historyserver	todos	Sirve información del historial de aplicaciones de MapReduce.
	hadoop-yarn-timelineserver	1.3+	Proporciona información del historial de aplicaciones de YARN.
	mariadb	< 1,5	Una base de datos relacional que se usa como base de datos subyacente predeterminada para el metastore de Hive en imágenes de Dataproc anteriores a la versión 1.5
	mysql	1,5 o más	Una base de datos relacional que se usa como base de datos subyacente predeterminada para el metastore de Hive en imágenes de Dataproc 1.5 o versiones posteriores
	nfs-kernel-server	< 1,3	NFS es el sistema de archivos de red.
	spark-history-server	todos	Proporciona información del historial de aplicaciones de Spark.

Servicios de Dataproc Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Todos los nodos

Clústeres estándar

Clústeres de alta disponibilidad

Servicios de Dataproc