Questa pagina elenca i servizi eseguiti dalle versioni immagine di Dataproc sui nodi del cluster Dataproc.
Tutti i nodi
I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.
Tipo di nodo | Servizio | Versioni immagine | Descrizione |
---|---|---|---|
Tutti i nodi | google-dataproc-agent | tutti | Riceve i job da Dataproc e avvia i driver dei job |
google-fluentd | tutti | Raccoglie e invia i log a Logging |
Cluster standard
I seguenti servizi vengono eseguiti su cluster standard.
Tipo di nodo | Servizio | Versioni immagine | Descrizione |
---|---|---|---|
Master | hadoop-hdfs-namenode | tutti | Gestisce il file system HDFS |
hadoop-hdfs-secondarynamenode | tutti | Checkpoint del NameNode | |
hadoop-mapreduce-historyserver | tutti | Pubblica informazioni sulla cronologia delle applicazioni MapReduce | |
hadoop-yarn-resourcemanager | tutti | Pianifica e gestisce le applicazioni YARN | |
hadoop-yarn-timelineserver | 1.3+ | Fornisce informazioni sulla cronologia delle applicazioni YARN | |
hive-metastore | tutti | Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale
mariadb (versioni immagine < 1.5) o
mysql (versioni immagine 1.5+) sul nodo master come archivio dei metadati della tabella Hive.
L'utilizzo del database predefinito non è consigliato perché questi database
sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti elementi come
database del metastore Hive (in ordine di suggerimento):
|
|
hive-server2 | tutti | Gestisce le query ricevute dai client (principalmente query della shell beeline) in Hive | |
mariadb | < 1,5 | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc < 1.5 | |
mysql | 1,5+ | Un database relazionale utilizzato come database sottostante predefinito per Hive Metastore nelle immagini Dataproc 1.5+ | |
nfs-kernel-server | < 1,3 | NFS è il Network File System. | |
spark-history-server | tutti | Fornisce informazioni sulla cronologia delle applicazioni Spark | |
Tutti i worker | hadoop-yarn-nodemanager | tutti | Avvia e gestisce i container YARN |
Solo worker principali | hadoop-hdfs-datanode | tutti | Memorizza i blocchi HDFS |
Cluster HA
Nei cluster ad alta affidabilità (HA) di Dataproc, diversi servizi vengono eseguiti su nodi master diversi, come mostrato di seguito. I servizi dei nodi worker del cluster HA sono gli stessi elencati per i cluster standard.
Tipo di nodo | Servizio | Versioni immagine | Descrizione |
---|---|---|---|
Tutti i master | hadoop-hdfs-journalnode | tutti | Un quorum di nodi journal mantiene un log delle modifiche dello spazio dei nomi HDFS. In caso di failover, lo Standby NameNode legge il log delle modifiche e assume il controllo dall'Active NameNode. |
hadoop-yarn-resourcemanager | tutti | Pianifica e gestisce le applicazioni YARN | |
hive-metastore | tutti | Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale
mariadb (versioni immagine < 1.5) o
mysql (versioni immagine 1.5+) sul nodo master come archivio dei metadati della tabella Hive.
L'utilizzo del database predefinito non è consigliato perché questi database
sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti elementi come
database del metastore Hive (in ordine di suggerimento):
|
|
hive-server2 | tutti | Gestisce le query ricevute dai client (principalmente query della shell beeline) in Hive | |
zookeeper-server | tutti | Un quorum di ZooKeeper viene utilizzato per il coordinamento distribuito. Nei cluster ad alta disponibilità (HA), viene utilizzato per l'elezione del leader di NameNode HDFS e Resource Manager YARN. | |
Solo Master 0 e 1 | hadoop-hdfs-namenode | tutti | Gestisce il file system HDFS |
hadoop-hdfs-zkfc | tutti | ZKFC è il processo ZKFailoverController , che viene eseguito
con HDFS NameNode. Monitora l'integrità di NameNode e gestisce la selezione del leader tramite ZooKeeper in caso di failover. |
|
Solo Master 0 | hadoop-mapreduce-historyserver | tutti | Pubblica informazioni sulla cronologia delle applicazioni MapReduce |
hadoop-yarn-timelineserver | 1.3+ | Fornisce informazioni sulla cronologia delle applicazioni YARN | |
mariadb | < 1,5 | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc < 1.5 | |
mysql | 1,5+ | Un database relazionale utilizzato come database sottostante predefinito per Hive Metastore nelle immagini Dataproc 1.5+ | |
nfs-kernel-server | < 1,3 | NFS è il Network File System. | |
spark-history-server | tutti | Fornisce informazioni sulla cronologia delle applicazioni Spark |