In questa pagina sono elencati i servizi che Dataproc Le versioni immagine vengono eseguite sui nodi dei cluster Dataproc.
Tutti i nodi
I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.
Tipo di nodo | Servizio | Versioni immagine | Descrizione |
---|---|---|---|
Tutti i nodi | google-dataproc-agent | tutte | Riceve i job da Dataproc e avvia i driver dei job |
google-fluentd | tutte | Raccoglie ed esegue il push dei log su Logging |
Cluster standard
I seguenti servizi vengono eseguiti su cluster standard.
Tipo di nodo | Servizio | Versioni immagine | Descrizione |
---|---|---|---|
Tutti i nodi | hadoop-hdfs-namenode | tutte | Gestisce il file system HDFS |
hadoop-hdfs-secondarynamenode | tutte | Checkpoint di NameNode | |
hadoop-mapreduce-historyserver | tutte | Fornisce informazioni sulla cronologia delle applicazioni MapReduce | |
hadoop-yarn-resourcemanager | tutte | Pianifica e gestisce le applicazioni YARN | |
hadoop-yarn-timelineserver | 1,3 e versioni successive | Fornisce le informazioni sulla cronologia delle applicazioni YARN | |
hive-metastore | tutte | Gestisce i metadati della tabella Hive. Per impostazione predefinita, utilizza il tag
mariadb (versioni immagine < 1.5) oppure
Database mysql (versioni delle immagini 1.5 e successive)
sul nodo master come archivio dei metadati della tabella Hive.
Non è consigliabile utilizzare il database predefinito perché questi database
sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti metodi come
database metastore Hive (in ordine di suggerimento):
|
|
hive-server2 | tutte | Gestisci le query ricevute dai clienti (principalmente query shell di beeline) contro Hive | |
mariada | < 1,5 | Un database relazionale utilizzato come database sottostante predefinito per Hive metastore in Dataproc < 1,5 immagini | |
mysql | Più di 1,5 | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e versioni successive | |
nfs-kernel-server | < 1,3 | NFS è il file system di rete. | |
spark-history-server | tutte | Fornisce le informazioni sulla cronologia delle applicazioni Spark | |
Tutti i worker | hadoop-yarn-nodemanager | tutte | Avvia e gestisce i container YARN |
Solo worker principali | hadoop-hdfs-datanode | tutte | Archivia blocchi HDFS |
Cluster ad alta disponibilità
In Dataproc cluster ad alta disponibilità, servizi diversi vengono eseguiti su nodi master diversi, come illustrato di seguito. Worker cluster ad alta disponibilità corrispondono a quelli elencati per i cluster standard.
Tipo di nodo | Servizio | Versioni immagine | Descrizione |
---|---|---|---|
Tutti gli schemi | hadoop-hdfs-journalnode | tutte | Un quorum di nodi del journal mantiene un registro di modifica delle modifiche dello spazio dei nomi HDFS. In caso di failover, NameNode in standby legge il log di modifica e prende il controllo da Active NameNode. |
hadoop-yarn-resourcemanager | tutte | Pianifica e gestisce le applicazioni YARN | |
hive-metastore | tutte | Gestisce i metadati della tabella Hive. Per impostazione predefinita, utilizza il tag
mariadb (versioni immagine < 1.5) oppure
Database mysql (versioni delle immagini 1.5 e successive)
sul nodo master come archivio dei metadati della tabella Hive.
Non è consigliabile utilizzare il database predefinito perché questi database
sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti metodi come
database metastore Hive (in ordine di suggerimento):
|
|
hive-server2 | tutte | Gestisci le query ricevute dai clienti (principalmente query shell di beeline) contro Hive | |
server-zookeeper | tutte | Per il coordinamento distribuito viene utilizzato un quorum di ZooKeeper. Nella cluster ad alta disponibilità, per cui viene utilizzata Nodi dei nomi HDFS e YARN Resource Manager elezioni dei leader. | |
Solo master 0 e 1 | hadoop-hdfs-namenode | tutte | Gestisce il file system HDFS |
hadoop-hdfs-zkfc | tutte | ZKFC è il processo ZKFailoverController , che esegue
con NameNode HDFS. Monitora l'integrità di NameNode e gestisce
elezioni tramite ZooKeeper in caso di failover. |
|
Solo master 0 | hadoop-mapreduce-historyserver | tutte | Fornisce informazioni sulla cronologia delle applicazioni MapReduce |
hadoop-yarn-timelineserver | 1,3 e versioni successive | Fornisce le informazioni sulla cronologia delle applicazioni YARN | |
mariada | < 1,5 | Un database relazionale utilizzato come database sottostante predefinito per Hive metastore in Dataproc < 1,5 immagini | |
mysql | Più di 1,5 | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e versioni successive | |
nfs-kernel-server | < 1,3 | NFS è il file system di rete. | |
spark-history-server | tutte | Fornisce le informazioni sulla cronologia delle applicazioni Spark |