Questa pagina elenca i servizi che le versioni immagine di Dataproc eseguono sui nodi del cluster Dataproc.
Tutti i nodi
I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.
Tipo di nodo | Servizio | Versioni immagine | Descrizione |
---|---|---|---|
Tutti i nodi | google-dataproc-agent | tutte | Riceve i job da Dataproc e avvia i driver dei job |
google-fluentd | tutte | Raccoglie e invia i log a Logging |
Cluster standard
I seguenti servizi vengono eseguiti su cluster standard.
Tipo di nodo | Servizio | Versioni immagine | Descrizione |
---|---|---|---|
Tutti i nodi | hadoop-hdfs-namenode | tutte | Gestisce il file system HDFS |
hadoop-hdfs-secondarynamenode | tutte | Checkpoint di NameNode | |
hadoop-mapreduce-historyserver | tutte | Fornisce informazioni sulla cronologia delle applicazioni MapReduce | |
hadoop-yarn-resourcemanager | tutte | Pianifica e gestisce le applicazioni YARN | |
hadoop-yarn-timelineserver | 1,3 e versioni successive | Fornisce le informazioni sulla cronologia delle applicazioni YARN | |
hive-metastore | tutte | Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale
mariadb (versioni dell'immagine < 1.5) o
mysql (versioni dell'immagine 1.5 e successive)
sul nodo principale come archivio dei metadati delle tabelle Hive.
L'utilizzo del database predefinito non è consigliato perché questi database
sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti come
database del metastore Hive (in ordine di raccomandazione):
|
|
hive-server2 | tutte | Gestisci le query ricevute dai clienti (principalmente query shell di beeline) contro Hive | |
mariadb | < 1,5 | Un database relazionale utilizzato come database sottostante predefinito per Hive metastore in Dataproc < 1,5 immagini | |
mysql | 1,5 o più | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e versioni successive | |
nfs-kernel-server | < 1,3 | NFS è il file system di rete. | |
spark-history-server | tutte | Fornisce informazioni sulla cronologia delle applicazioni Spark | |
Tutti i worker | hadoop-yarn-nodemanager | tutte | Avvia e gestisce i container YARN |
Solo worker principali | hadoop-hdfs-datanode | tutte | Archivia blocchi HDFS |
Cluster ad alta disponibilità
Nei cluster ad alta disponibilità (HA) di Dataproc, diversi servizi vengono eseguiti su diversi nodi master, come mostrato di seguito. I servizi dei nodi worker del cluster HA sono gli stessi elencati per i cluster standard.
Tipo di nodo | Servizio | Versioni immagine | Descrizione |
---|---|---|---|
Tutti gli schemi | hadoop-hdfs-journalnode | tutte | Un quorum di nodi di log gestisce un log delle modifiche dello spazio dei nomi HDFS. In caso di failover, NameNode in standby legge il log di modifica e prende il controllo da Active NameNode. |
hadoop-yarn-resourcemanager | tutte | Pianifica e gestisce le applicazioni YARN | |
hive-metastore | tutte | Gestisce i metadati della tabella Hive. Per impostazione predefinita, utilizza il database locale
mariadb (versioni dell'immagine < 1.5) o
mysql (versioni dell'immagine 1.5 e successive)
sul nodo principale come archivio dei metadati delle tabelle Hive.
Non è consigliabile utilizzare il database predefinito perché questi database
sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti come
database del metastore Hive (in ordine di raccomandazione):
|
|
hive-server2 | tutte | Gestisce le query ricevute dai client (principalmente query shell beeline) contro Hive | |
zookeeper-server | tutte | Per il coordinamento distribuito viene utilizzato un quorum di ZooKeeper. Nella cluster ad alta disponibilità, per cui viene utilizzata Nodi dei nomi HDFS e YARN Resource Manager elezioni dei leader. | |
Solo master 0 e 1 | hadoop-hdfs-namenode | tutte | Gestisce il file system HDFS |
hadoop-hdfs-zkfc | tutte | ZKFC è il processo ZKFailoverController , che viene eseguito con il NameNode HDFS. Monitora l'integrità del NameNode e gestisce l'elezione del leader tramite ZooKeeper in caso di failover. |
|
Solo master 0 | hadoop-mapreduce-historyserver | tutte | Fornisce informazioni sulla cronologia delle applicazioni mapreduce |
hadoop-yarn-timelineserver | 1.3+ | Fornisce le informazioni sulla cronologia delle applicazioni YARN | |
mariada | < 1,5 | Un database relazionale utilizzato come database sottostante predefinito per Hive metastore in Dataproc < 1,5 immagini | |
mysql | Più di 1,5 | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e versioni successive | |
nfs-kernel-server | < 1,3 | NFS è il file system di rete. | |
spark-history-server | tutte | Fornisce informazioni sulla cronologia delle applicazioni Spark |