En esta página, se enumeran los servicios que las versiones con imágenes de Dataproc se ejecutan en los nodos del clúster de Dataproc.
Todos los nodos
Los siguientes servicios se ejecutan en todos los nodos de un clúster.
Tipo de nodo | Servicio | Versiones con imágenes | Descripción |
---|---|---|---|
Todos los nodos | google-dataproc-agent | todos | Recibe trabajos de Dataproc y también inicia controladores de trabajos |
google-fluentd | todos | Recopila y envía registros a Logging |
Clústeres estándar
Los siguientes servicios se ejecutan en clústeres estándar.
Tipo de nodo | Servicio | Versiones con imágenes | Descripción |
---|---|---|---|
Todos los nodos | hadoop-hdfs-namenode | todos | Administra el sistema de archivos HDFS |
hadoop-hdfs-secondarynamenode | todos | Puntos de control para el NameNode | |
hadoop-mapreduce-historyserver | todos | Entrega información sobre el historial de aplicaciones de MapReduce | |
hadoop-yarn-resourcemanager | todos | Programa y administra aplicaciones YARN | |
hadoop-yarn-timelineserver | 1.3+ | Entrega información sobre el historial de aplicaciones de YARN | |
hive-metastore | todos | Administra los metadatos de tablas de Hive. De forma predeterminada, usa la base de datos local mariadb (versiones de imagen < 1.5) o mysql (versiones de imagen 1.5+) en el nodo principal como el almacén de metadatos de la tabla de Hive.
No se recomienda usar la base de datos predeterminada porque estas están vinculadas al ciclo de vida del clúster. En su lugar, usa cualquiera de las siguientes opciones como base de datos del almacén de metadatos de Hive (en orden de recomendación):
|
|
hive-server2 | todos | Entrega consultas realizadas por clientes (principalmente, consultas de shell de Beeline) en Hive. | |
mariadb | < 1.5 | Una base de datos relacional usada como la base de datos subyacente predeterminada para el almacén de metadatos de Hive en imágenes de Dataproc <1.5 | |
mysql | 1.5+ | Una base de datos relacional usada como la base de datos subyacente predeterminada para el almacén de metadatos de Hive en imágenes de Dataproc 1.5+ | |
nfs-kernel-server | < 1.3 | NFS es el sistema de archivos de red. | |
spark-history-server | todos | Entrega información sobre el historial de aplicaciones de Spark | |
Todos los trabajadores | hadoop-yarn-nodemanager | todos | Inicia y administra contenedores YARN |
Solo trabajadores principales | hadoop-hdfs-datanode | todos | Almacena bloques de HDFS |
Clústeres con alta disponibilidad
En los clústeres de alta disponibilidad (HA) de Dataproc, se ejecutan diferentes servicios en diferentes nodos principales, como se muestra a continuación. Los servicios de nodos trabajadores del clúster de HA son los mismos que los enumerados para los clústeres estándar.
Tipo de nodo | Servicio | Versiones con imágenes | Descripción |
---|---|---|---|
Todos los maestros | hadoop-hdfs-journalnode | todos | Un quórum de nodos de diario mantiene un registro de edición de las modificaciones del espacio de nombres de HDFS. Si se produce una conmutación por error, el NameNode de espera lee el registro de edición y toma el control del NameNode activo. |
hadoop-yarn-resourcemanager | todos | Programa y administra aplicaciones YARN | |
hive-metastore | todos | Administra los metadatos de tablas de Hive. De forma predeterminada, usa la base de datos local mariadb (versiones de imagen < 1.5) o mysql (versiones de imagen 1.5+) en el nodo principal como el almacén de metadatos de la tabla de Hive.
No se recomienda usar la base de datos predeterminada porque estas están vinculadas al ciclo de vida del clúster. En su lugar, usa cualquiera de las siguientes opciones como base de datos del almacén de metadatos de Hive (en orden de recomendación): |
|
hive-server2 | todos | Entrega consultas realizadas por clientes (principalmente, consultas de shell de Beeline) en Hive. | |
zookeeper-server | todos | Un quórum de ZooKeeper se usa para la coordinación distribuida. En clústeres de alta disponibilidad (HA), se usa para la elección del líder de HDFS NameNodes y administradores de recursos de YARN.. | |
Solo las instancias principales 0 y 1 | hadoop-hdfs-namenode | todos | Administra el sistema de archivos HDFS |
hadoop-hdfs-zkfc | todos | ZKFC es el proceso ZKFailoverController , que se ejecuta con el NameNode de HDFS. Supervisa el estado del NameNode y administra la elección del líder a través de ZooKeeper en caso de una conmutación por error. |
|
Solo la instancia principal 0 | hadoop-mapreduce-historyserver | todos | Entrega información sobre el historial de aplicaciones de MapReduce |
hadoop-yarn-timelineserver | 1.3+ | Entrega información sobre el historial de aplicaciones de YARN | |
mariadb | < 1.5 | Una base de datos relacional usada como la base de datos subyacente predeterminada para el almacén de metadatos de Hive en imágenes de Dataproc <1.5 | |
mysql | 1.5+ | Una base de datos relacional usada como la base de datos subyacente predeterminada para el almacén de metadatos de Hive en imágenes de Dataproc 1.5+ | |
nfs-kernel-server | < 1.3 | NFS es el sistema de archivos de red. | |
spark-history-server | todos | Entrega información sobre el historial de aplicaciones de Spark |