Services Dataproc

Cette page répertorie les services que les versions d'image Dataproc exécutent sur les nœuds de cluster Dataproc.

Tous les nœuds

Les services suivants s'exécutent sur tous les nœuds d'un cluster.

Type de nœud Service Versions d'image Description
Tous les nœuds google-dataproc-agent tous Reçoit les tâches de Dataproc et lance les pilotes de tâches.
google-fluentd tous Collecte et transfert des journaux vers Logging

Clusters standards

Les services suivants s'exécutent sur des clusters standards.

Type de nœud Service Versions d'image Description
Tous les nœuds hadoop-hdfs-namenode tous Gère le système de fichiers HDFS
hadoop-hdfs-secondarynamenode tous Effectue des points de contrôle des NameNode
hadoop-mapreduce-historyserver tous Diffuse des informations sur l'historique des applications MapReduce
hadoop-yarn-resourcemanager tous Planifier et gérer des applications YARN
hadoop-yarn-timelineserver 1.3+ Diffuse des informations sur l'historique de l'application YARN
hive-metastore tous Gère les métadonnées de la table Hive. Par défaut, utilise la base de données locale mariadb (versions d'image < 1.5) ou mysql (versions d'image 1.5 et ultérieures) sur le nœud maître comme magasin de métadonnées de la table Hive. L'utilisation de la base de données par défaut n'est pas recommandée, car ces bases de données sont liées au cycle de vie du cluster. Utilisez plutôt l'une des options suivantes comme base de données du métastore Hive (dans l'ordre des recommandations) :
  1. Dataproc Metastore
  2. Instance Cloud SQL
hive-server2 tous Diffusez les requêtes reçues des clients (principalement les requêtes d'interface système Beeline) par rapport à Hive.
mariadb < 1.5 Base de données relationnelle utilisée comme base de données sous-jacente par défaut pour le métastore Hive dans les images Dataproc < 1.5
mysql 1.5+ Base de données relationnelle utilisée comme base de données sous-jacente par défaut pour les métastore Hive dans les images Dataproc 1.5 et versions ultérieures
nfs-kernel-server < 1.3 NFS est le système de fichiers réseau.
spark-history-server tous Diffuse l'historique de l'application Spark
Tous les nœuds de calcul hadoop-yarn-nodemanager tous Lance et gère les conteneurs YARN
Nœuds de calcul principaux uniquement hadoop-hdfs-datanode tous Stockage des blocs HDFS

les clusters HA

Dans les clusters à haute disponibilité Dataproc, différents services s'exécutent sur des nœuds maîtres différents, comme indiqué ci-dessous. Les services de nœuds de calcul de cluster à haute disponibilité sont identiques à ceux répertoriés pour les clusters standards.

Type de nœud Service Versions d'image Description
Tous les nœuds maîtres. hadoop-hdfs-journalnode tous Un quorum de nœuds de journalisation conserve un journal des modifications des espaces de noms HDFS. Si un basculement se produit, le NameNode de secours lit le journal des modifications et prend le contrôle du NameNode actif.
hadoop-yarn-resourcemanager tous Planifier et gérer des applications YARN
hive-metastore tous Gère les métadonnées de la table Hive. Par défaut, utilise la base de données locale mariadb (versions d'image < 1.5) ou mysql (versions d'image 1.5 et ultérieures) sur le nœud maître comme magasin de métadonnées de la table Hive. L'utilisation de la base de données par défaut n'est pas recommandée, car ces bases de données sont liées au cycle de vie du cluster. Utilisez plutôt l'une des options suivantes comme base de données du métastore Hive (dans l'ordre des recommandations) :
  1. Dataproc Metastore
  2. Instance Cloud SQL
hive-server2 tous Diffusez les requêtes reçues des clients (principalement les requêtes d'interface système Beeline) par rapport à Hive.
zookeeper-server tous Un quorum ZooKeeper est utilisé pour la coordination distribuée. Dans les clusters à haute disponibilité, il est utilisé pour l'élection du responsable de nœuds de noms HDFS et gestionnaires de ressources YARN.
Maîtres 0 et 1 uniquement hadoop-hdfs-namenode tous Gère le système de fichiers HDFS
hadoop-hdfs-zkfc tous ZKFC est le processus ZKFailoverController, qui s'exécute avec le NameNode HDFS. Il surveille l'état du NameNode et gère l'élection du responsable via ZooKeeper en cas de basculement.
Maître 0 uniquement hadoop-mapreduce-historyserver tous Diffuse des informations sur l'historique des applications MapReduce
hadoop-yarn-timelineserver 1.3+ Diffuse des informations sur l'historique de l'application YARN
mariadb < 1.5 Base de données relationnelle utilisée comme base de données sous-jacente par défaut pour le métastore Hive dans les images Dataproc < 1.5
mysql 1.5+ Base de données relationnelle utilisée comme base de données sous-jacente par défaut pour les métastore Hive dans les images Dataproc 1.5 et versions ultérieures
nfs-kernel-server < 1.3 NFS est le système de fichiers réseau.
spark-history-server tous Diffuse l'historique de l'application Spark