Servizi Dataproc

In questa pagina sono elencati i servizi eseguiti dalle versioni immagine di Dataproc sui nodi del cluster Dataproc.

Tutti i nodi

I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.

Tipo di nodo	Servizio	Versioni immagine	Descrizione
Tutti i nodi	google-dataproc-agent	tutte	Riceve i job da Dataproc e avvia i driver dei job
Tutti i nodi	fluente su google	tutte	Raccoglie ed esegue il push dei log su Logging

Cluster standard

I seguenti servizi vengono eseguiti su cluster standard.

Tipo di nodo	Servizio	Versioni immagine	Descrizione
Tutti i nodi	hadoop-hdfs-namenode	tutte	Gestisce il file system HDFS
	hadoop-hdfs-secondarynamenode	tutte	Controlla i NameNode
	hadoop-mapreduce-historyserver	tutte	Offre informazioni sulla cronologia delle applicazioni di MapReduce
	hadoop-yarn-resourcemanager	tutte	Pianifica e gestisce le applicazioni YARN
	hadoop-yarn-timelineserver	1.3+	Fornisce informazioni sulla cronologia delle applicazioni YARN
	hive-metastore	tutte	Gestisce i metadati della tabella Hive. Per impostazione predefinita, utilizza il database locale `mariadb` (versioni immagine < 1.5) o `mysql` (versioni immagine 1.5 e versioni successive) sul nodo master come archivio di metadati della tabella Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti elementi come database Hive metastore (in ordine di suggerimento): Dataproc Metastore Istanza Cloud SQL
	hive-server2	tutte	Esegue le query ricevute dai client (principalmente query shell di Beeline) su Hive
	mariarossi	< 1,5	Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive in Dataproc < 1,5 immagini
	mysql	Più di 1,5	Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e versioni successive
	nfs-kernel-server	< 1,3	NFS è il file system di rete.
	spark-history-server	tutte	Fornisce informazioni sulla cronologia delle applicazioni Spark
Tutti i worker	hadoop-yarn-nodemanager	tutte	Lancia e gestisce i container YARN
Solo lavoratori principali	hadoop-hdfs-datanode	tutte	Archivia blocchi HDFS

Cluster ad alta disponibilità

Nei cluster ad alta disponibilità (HA) Dataproc, servizi diversi vengono eseguiti su nodi master diversi, come mostrato di seguito. I servizi nodo worker del cluster ad alta disponibilità sono gli stessi elencati per i cluster standard.

Tipo di nodo	Servizio	Versioni immagine	Descrizione
Tutti gli schemi	hadoop-hdfs-journalnode	tutte	Un quorum di nodi del journal mantiene un log di modifica delle modifiche dello spazio dei nomi HDFS. Se si verifica un failover, il NameNode in standby legge il log di modifica e prende il controllo dal NameNode attivo.
	hadoop-yarn-resourcemanager	tutte	Pianifica e gestisce le applicazioni YARN
	hive-metastore	tutte	Gestisce i metadati della tabella Hive. Per impostazione predefinita, utilizza il database locale `mariadb` (versioni immagine < 1.5) o `mysql` (versioni immagine 1.5 e versioni successive) sul nodo master come archivio di metadati della tabella Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti elementi come database Hive metastore (in ordine di suggerimento): Dataproc Metastore Istanza Cloud SQL
	hive-server2	tutte	Esegue le query ricevute dai client (principalmente query shell di Beeline) su Hive
	zookeeper-server	tutte	Un quorum ZooKeeper viene utilizzato per la coordinazione distribuita. Nei cluster ad alta disponibilità, viene utilizzato per l'elezione dei leader di NameNodes HDFS e YARN resource manager.
Solo master 0 e 1	hadoop-hdfs-namenode	tutte	Gestisce il file system HDFS
Solo master 0 e 1	hadoop-hdfs-zkfc	tutte	ZKFC è il processo `ZKFailoverController`, eseguito con NameNode HDFS. Monitora l'integrità di NameNode e gestisce le elezioni di leader tramite ZooKeeper in caso di failover.
Solo schema 0	hadoop-mapreduce-historyserver	tutte	Offre informazioni sulla cronologia delle applicazioni di MapReduce
	hadoop-yarn-timelineserver	1.3+	Fornisce informazioni sulla cronologia delle applicazioni YARN
	mariarossi	< 1,5	Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive in Dataproc < 1,5 immagini
	mysql	Più di 1,5	Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e versioni successive
	nfs-kernel-server	< 1,3	NFS è il file system di rete.
	spark-history-server	tutte	Fornisce informazioni sulla cronologia delle applicazioni Spark