In questa pagina sono elencati i servizi eseguiti dalle versioni immagine di Dataproc sui nodi del cluster Dataproc.
Tutti i nodi
I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.
Tipo di nodo | Servizio | Versioni immagine | Descrizione |
---|---|---|---|
Tutti i nodi | google-dataproc-agent | tutte | Riceve i job da Dataproc e avvia i driver dei job |
fluente su google | tutte | Raccoglie ed esegue il push dei log su Logging |
Cluster standard
I seguenti servizi vengono eseguiti su cluster standard.
Tipo di nodo | Servizio | Versioni immagine | Descrizione |
---|---|---|---|
Tutti i nodi | hadoop-hdfs-namenode | tutte | Gestisce il file system HDFS |
hadoop-hdfs-secondarynamenode | tutte | Controlla i NameNode | |
hadoop-mapreduce-historyserver | tutte | Offre informazioni sulla cronologia delle applicazioni di MapReduce | |
hadoop-yarn-resourcemanager | tutte | Pianifica e gestisce le applicazioni YARN | |
hadoop-yarn-timelineserver | 1.3+ | Fornisce informazioni sulla cronologia delle applicazioni YARN | |
hive-metastore | tutte | Gestisce i metadati della tabella Hive. Per impostazione predefinita, utilizza il database locale mariadb (versioni immagine < 1.5) o mysql (versioni immagine 1.5 e versioni successive) sul nodo master come archivio di metadati della tabella Hive.
L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti elementi come database Hive metastore (in ordine di suggerimento):
|
|
hive-server2 | tutte | Esegue le query ricevute dai client (principalmente query shell di Beeline) su Hive | |
mariarossi | < 1,5 | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive in Dataproc < 1,5 immagini | |
mysql | Più di 1,5 | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e versioni successive | |
nfs-kernel-server | < 1,3 | NFS è il file system di rete. | |
spark-history-server | tutte | Fornisce informazioni sulla cronologia delle applicazioni Spark | |
Tutti i worker | hadoop-yarn-nodemanager | tutte | Lancia e gestisce i container YARN |
Solo lavoratori principali | hadoop-hdfs-datanode | tutte | Archivia blocchi HDFS |
Cluster ad alta disponibilità
Nei cluster ad alta disponibilità (HA) Dataproc, servizi diversi vengono eseguiti su nodi master diversi, come mostrato di seguito. I servizi nodo worker del cluster ad alta disponibilità sono gli stessi elencati per i cluster standard.
Tipo di nodo | Servizio | Versioni immagine | Descrizione |
---|---|---|---|
Tutti gli schemi | hadoop-hdfs-journalnode | tutte | Un quorum di nodi del journal mantiene un log di modifica delle modifiche dello spazio dei nomi HDFS. Se si verifica un failover, il NameNode in standby legge il log di modifica e prende il controllo dal NameNode attivo. |
hadoop-yarn-resourcemanager | tutte | Pianifica e gestisce le applicazioni YARN | |
hive-metastore | tutte | Gestisce i metadati della tabella Hive. Per impostazione predefinita, utilizza il database locale mariadb (versioni immagine < 1.5) o mysql (versioni immagine 1.5 e versioni successive) sul nodo master come archivio di metadati della tabella Hive.
L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti elementi come database Hive metastore (in ordine di suggerimento):
|
|
hive-server2 | tutte | Esegue le query ricevute dai client (principalmente query shell di Beeline) su Hive | |
zookeeper-server | tutte | Un quorum ZooKeeper viene utilizzato per la coordinazione distribuita. Nei cluster ad alta disponibilità, viene utilizzato per l'elezione dei leader di NameNodes HDFS e YARN resource manager. | |
Solo master 0 e 1 | hadoop-hdfs-namenode | tutte | Gestisce il file system HDFS |
hadoop-hdfs-zkfc | tutte | ZKFC è il processo ZKFailoverController , eseguito
con NameNode HDFS. Monitora l'integrità di NameNode e gestisce le elezioni di leader tramite ZooKeeper in caso di failover. |
|
Solo schema 0 | hadoop-mapreduce-historyserver | tutte | Offre informazioni sulla cronologia delle applicazioni di MapReduce |
hadoop-yarn-timelineserver | 1.3+ | Fornisce informazioni sulla cronologia delle applicazioni YARN | |
mariarossi | < 1,5 | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive in Dataproc < 1,5 immagini | |
mysql | Più di 1,5 | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e versioni successive | |
nfs-kernel-server | < 1,3 | NFS è il file system di rete. | |
spark-history-server | tutte | Fornisce informazioni sulla cronologia delle applicazioni Spark |