Servizi Dataproc

Questa pagina elenca i servizi che le versioni immagine di Dataproc eseguono sui nodi del cluster Dataproc.

Tutti i nodi

I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.

Tipo di nodo Servizio Versioni immagine Descrizione
Tutti i nodi google-dataproc-agent tutte Riceve i job da Dataproc e avvia i driver dei job
google-fluentd tutte Raccoglie e invia i log a Logging

Cluster standard

I seguenti servizi vengono eseguiti su cluster standard.

Tipo di nodo Servizio Versioni immagine Descrizione
Tutti i nodi hadoop-hdfs-namenode tutte Gestisce il file system HDFS
hadoop-hdfs-secondarynamenode tutte Checkpoint di NameNode
hadoop-mapreduce-historyserver tutte Fornisce informazioni sulla cronologia delle applicazioni MapReduce
hadoop-yarn-resourcemanager tutte Pianifica e gestisce le applicazioni YARN
hadoop-yarn-timelineserver 1,3 e versioni successive Fornisce le informazioni sulla cronologia delle applicazioni YARN
hive-metastore tutte Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale mariadb (versioni dell'immagine < 1.5) o mysql (versioni dell'immagine 1.5 e successive) sul nodo principale come archivio dei metadati delle tabelle Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti come database del metastore Hive (in ordine di raccomandazione):
  1. Dataproc Metastore
  2. Istanza Cloud SQL
hive-server2 tutte Gestisci le query ricevute dai clienti (principalmente query shell di beeline) contro Hive
mariadb &lt; 1,5 Un database relazionale utilizzato come database sottostante predefinito per Hive metastore in Dataproc < 1,5 immagini
mysql 1,5 o più Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e versioni successive
nfs-kernel-server &lt; 1,3 NFS è il file system di rete.
spark-history-server tutte Fornisce informazioni sulla cronologia delle applicazioni Spark
Tutti i worker hadoop-yarn-nodemanager tutte Avvia e gestisce i container YARN
Solo worker principali hadoop-hdfs-datanode tutte Archivia blocchi HDFS

Cluster ad alta disponibilità

Nei cluster ad alta disponibilità (HA) di Dataproc, diversi servizi vengono eseguiti su diversi nodi master, come mostrato di seguito. I servizi dei nodi worker del cluster HA sono gli stessi elencati per i cluster standard.

Tipo di nodo Servizio Versioni immagine Descrizione
Tutti gli schemi hadoop-hdfs-journalnode tutte Un quorum di nodi di log gestisce un log delle modifiche dello spazio dei nomi HDFS. In caso di failover, NameNode in standby legge il log di modifica e prende il controllo da Active NameNode.
hadoop-yarn-resourcemanager tutte Pianifica e gestisce le applicazioni YARN
hive-metastore tutte Gestisce i metadati della tabella Hive. Per impostazione predefinita, utilizza il database locale mariadb (versioni dell'immagine < 1.5) o mysql (versioni dell'immagine 1.5 e successive) sul nodo principale come archivio dei metadati delle tabelle Hive. Non è consigliabile utilizzare il database predefinito perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti come database del metastore Hive (in ordine di raccomandazione):
  1. Dataproc Metastore
  2. Istanza Cloud SQL
hive-server2 tutte Gestisce le query ricevute dai client (principalmente query shell beeline) contro Hive
zookeeper-server tutte Per il coordinamento distribuito viene utilizzato un quorum di ZooKeeper. Nella cluster ad alta disponibilità, per cui viene utilizzata Nodi dei nomi HDFS e YARN Resource Manager elezioni dei leader.
Solo master 0 e 1 hadoop-hdfs-namenode tutte Gestisce il file system HDFS
hadoop-hdfs-zkfc tutte ZKFC è il processo ZKFailoverController, che viene eseguito con il NameNode HDFS. Monitora l'integrità del NameNode e gestisce l'elezione del leader tramite ZooKeeper in caso di failover.
Solo master 0 hadoop-mapreduce-historyserver tutte Fornisce informazioni sulla cronologia delle applicazioni mapreduce
hadoop-yarn-timelineserver 1.3+ Fornisce le informazioni sulla cronologia delle applicazioni YARN
mariada &lt; 1,5 Un database relazionale utilizzato come database sottostante predefinito per Hive metastore in Dataproc < 1,5 immagini
mysql Più di 1,5 Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e versioni successive
nfs-kernel-server < 1,3 NFS è il file system di rete.
spark-history-server tutte Fornisce informazioni sulla cronologia delle applicazioni Spark