Cette page répertorie les services que les versions d'image Dataproc exécutent sur les nœuds de cluster Dataproc.
Tous les nœuds
Les services suivants s'exécutent sur tous les nœuds d'un cluster.
Type de nœud | Service | Versions d'image | Description |
---|---|---|---|
Tous les nœuds | google-dataproc-agent | tous | Reçoit les tâches de Dataproc et lance les pilotes de tâches. |
google-fluentd | tous | Collecte et transfert des journaux vers Logging |
Clusters standards
Les services suivants s'exécutent sur des clusters standards.
Type de nœud | Service | Versions d'image | Description |
---|---|---|---|
Tous les nœuds | hadoop-hdfs-namenode | tous | Gère le système de fichiers HDFS |
hadoop-hdfs-secondarynamenode | tous | Effectue des points de contrôle des NameNode | |
hadoop-mapreduce-historyserver | tous | Diffuse des informations sur l'historique des applications MapReduce | |
hadoop-yarn-resourcemanager | tous | Planifier et gérer des applications YARN | |
hadoop-yarn-timelineserver | 1.3+ | Diffuse des informations sur l'historique de l'application YARN | |
hive-metastore | tous | Gère les métadonnées de la table Hive. Par défaut, utilise la base de données locale mariadb (versions d'image < 1.5) ou mysql (versions d'image 1.5 et ultérieures) sur le nœud maître comme magasin de métadonnées de la table Hive.
L'utilisation de la base de données par défaut n'est pas recommandée, car ces bases de données sont liées au cycle de vie du cluster. Utilisez plutôt l'une des options suivantes comme base de données du métastore Hive (dans l'ordre des recommandations) :
|
|
hive-server2. | tous | Diffusez les requêtes reçues des clients (principalement les requêtes d'interface système Beeline) par rapport à Hive. | |
mariadb | < 1.5 | Base de données relationnelle utilisée comme base de données sous-jacente par défaut pour le métastore Hive dans les images Dataproc < 1.5 | |
mysql | 1.5+ | Base de données relationnelle utilisée comme base de données sous-jacente par défaut pour les métastore Hive dans les images Dataproc 1.5 et versions ultérieures | |
nfs-kernel-server | < 1.3 | NFS est le système de fichiers réseau. | |
spark-history-server | tous | Diffuse l'historique de l'application Spark | |
Tous les nœuds de calcul | hadoop-yarn-nodemanager | tous | Lance et gère les conteneurs YARN |
Nœuds de calcul principaux uniquement | hadoop-hdfs-datanode | tous | Stockage des blocs HDFS |
les clusters HA
Dans les clusters à haute disponibilité Dataproc, différents services s'exécutent sur des nœuds maîtres différents, comme indiqué ci-dessous. Les services de nœuds de calcul de cluster à haute disponibilité sont identiques à ceux répertoriés pour les clusters standards.
Type de nœud | Service | Versions d'image | Description |
---|---|---|---|
Tous les nœuds maîtres. | hadoop-hdfs-journalnode | tous | Un quorum de nœuds de journalisation conserve un journal des modifications des espaces de noms HDFS. Si un basculement se produit, le NameNode de secours lit le journal des modifications et prend le contrôle du NameNode actif. |
hadoop-yarn-resourcemanager | tous | Planifier et gérer des applications YARN | |
hive-metastore | tous | Gère les métadonnées de la table Hive. Par défaut, utilise la base de données locale mariadb (versions d'image < 1.5) ou mysql (versions d'image 1.5 et ultérieures) sur le nœud maître comme magasin de métadonnées de la table Hive.
L'utilisation de la base de données par défaut n'est pas recommandée, car ces bases de données sont liées au cycle de vie du cluster. Utilisez plutôt l'une des options suivantes comme base de données du métastore Hive (dans l'ordre des recommandations) : |
|
hive-server2. | tous | Diffusez les requêtes reçues des clients (principalement les requêtes d'interface système Beeline) par rapport à Hive. | |
zookeeper-server | tous | Un quorum ZooKeeper est utilisé pour la coordination distribuée. Dans les clusters à haute disponibilité, il est utilisé pour l'élection du responsable de nœuds de noms HDFS et gestionnaires de ressources YARN. | |
Maîtres 0 et 1 uniquement | hadoop-hdfs-namenode | tous | Gère le système de fichiers HDFS |
hadoop-hdfs-zkfc | tous | ZKFC est le processus ZKFailoverController , qui s'exécute avec le NameNode HDFS. Il surveille l'état du NameNode et gère l'élection du responsable via ZooKeeper en cas de basculement. |
|
Maître 0 uniquement | hadoop-mapreduce-historyserver | tous | Diffuse des informations sur l'historique des applications MapReduce |
hadoop-yarn-timelineserver | 1.3+ | Diffuse des informations sur l'historique de l'application YARN | |
mariadb | < 1.5 | Base de données relationnelle utilisée comme base de données sous-jacente par défaut pour le métastore Hive dans les images Dataproc < 1.5 | |
mysql | 1.5+ | Base de données relationnelle utilisée comme base de données sous-jacente par défaut pour les métastore Hive dans les images Dataproc 1.5 et versions ultérieures | |
nfs-kernel-server | < 1.3 | NFS est le système de fichiers réseau. | |
spark-history-server | tous | Diffuse l'historique de l'application Spark |