Servizi Dataproc

In questa pagina sono elencati i servizi che Dataproc Le versioni immagine vengono eseguite sui nodi dei cluster Dataproc.

Tutti i nodi

I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.

Tipo di nodo Servizio Versioni immagine Descrizione
Tutti i nodi google-dataproc-agent tutte Riceve i job da Dataproc e avvia i driver dei job
google-fluentd tutte Raccoglie ed esegue il push dei log su Logging

Cluster standard

I seguenti servizi vengono eseguiti su cluster standard.

Tipo di nodo Servizio Versioni immagine Descrizione
Tutti i nodi hadoop-hdfs-namenode tutte Gestisce il file system HDFS
hadoop-hdfs-secondarynamenode tutte Checkpoint di NameNode
hadoop-mapreduce-historyserver tutte Fornisce informazioni sulla cronologia delle applicazioni MapReduce
hadoop-yarn-resourcemanager tutte Pianifica e gestisce le applicazioni YARN
hadoop-yarn-timelineserver 1,3 e versioni successive Fornisce le informazioni sulla cronologia delle applicazioni YARN
hive-metastore tutte Gestisce i metadati della tabella Hive. Per impostazione predefinita, utilizza il tag mariadb (versioni immagine < 1.5) oppure Database mysql (versioni delle immagini 1.5 e successive) sul nodo master come archivio dei metadati della tabella Hive. Non è consigliabile utilizzare il database predefinito perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti metodi come database metastore Hive (in ordine di suggerimento):
  1. Dataproc Metastore
  2. Istanza Cloud SQL
hive-server2 tutte Gestisci le query ricevute dai clienti (principalmente query shell di beeline) contro Hive
mariada &lt; 1,5 Un database relazionale utilizzato come database sottostante predefinito per Hive metastore in Dataproc < 1,5 immagini
mysql Più di 1,5 Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e versioni successive
nfs-kernel-server &lt; 1,3 NFS è il file system di rete.
spark-history-server tutte Fornisce le informazioni sulla cronologia delle applicazioni Spark
Tutti i worker hadoop-yarn-nodemanager tutte Avvia e gestisce i container YARN
Solo worker principali hadoop-hdfs-datanode tutte Archivia blocchi HDFS

Cluster ad alta disponibilità

In Dataproc cluster ad alta disponibilità, servizi diversi vengono eseguiti su nodi master diversi, come illustrato di seguito. Worker cluster ad alta disponibilità corrispondono a quelli elencati per i cluster standard.

Tipo di nodo Servizio Versioni immagine Descrizione
Tutti gli schemi hadoop-hdfs-journalnode tutte Un quorum di nodi del journal mantiene un registro di modifica delle modifiche dello spazio dei nomi HDFS. In caso di failover, NameNode in standby legge il log di modifica e prende il controllo da Active NameNode.
hadoop-yarn-resourcemanager tutte Pianifica e gestisce le applicazioni YARN
hive-metastore tutte Gestisce i metadati della tabella Hive. Per impostazione predefinita, utilizza il tag mariadb (versioni immagine < 1.5) oppure Database mysql (versioni delle immagini 1.5 e successive) sul nodo master come archivio dei metadati della tabella Hive. Non è consigliabile utilizzare il database predefinito perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti metodi come database metastore Hive (in ordine di suggerimento):
  1. Dataproc Metastore
  2. Istanza Cloud SQL
hive-server2 tutte Gestisci le query ricevute dai clienti (principalmente query shell di beeline) contro Hive
server-zookeeper tutte Per il coordinamento distribuito viene utilizzato un quorum di ZooKeeper. Nella cluster ad alta disponibilità, per cui viene utilizzata Nodi dei nomi HDFS e YARN Resource Manager elezioni dei leader.
Solo master 0 e 1 hadoop-hdfs-namenode tutte Gestisce il file system HDFS
hadoop-hdfs-zkfc tutte ZKFC è il processo ZKFailoverController, che esegue con NameNode HDFS. Monitora l'integrità di NameNode e gestisce elezioni tramite ZooKeeper in caso di failover.
Solo master 0 hadoop-mapreduce-historyserver tutte Fornisce informazioni sulla cronologia delle applicazioni MapReduce
hadoop-yarn-timelineserver 1,3 e versioni successive Fornisce le informazioni sulla cronologia delle applicazioni YARN
mariada &lt; 1,5 Un database relazionale utilizzato come database sottostante predefinito per Hive metastore in Dataproc < 1,5 immagini
mysql Più di 1,5 Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e versioni successive
nfs-kernel-server &lt; 1,3 NFS è il file system di rete.
spark-history-server tutte Fornisce le informazioni sulla cronologia delle applicazioni Spark