Questa pagina è stata tradotta dall'API Cloud Translation.

Servizi Dataproc

Questa pagina elenca i servizi eseguiti dalle versioni immagine di Dataproc sui nodi del cluster Dataproc.

Tutti i nodi

I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.

Tipo di nodo	Servizio	Versioni immagine	Descrizione
Tutti i nodi	google-dataproc-agent	tutti	Riceve i job da Dataproc e avvia i driver dei job
Tutti i nodi	google-fluentd	tutti	Raccoglie e invia i log a Logging

Cluster standard

I seguenti servizi vengono eseguiti su cluster standard.

Tipo di nodo	Servizio	Versioni immagine	Descrizione
Master	hadoop-hdfs-namenode	tutti	Gestisce il file system HDFS
	hadoop-hdfs-secondarynamenode	tutti	Checkpoint del NameNode
	hadoop-mapreduce-historyserver	tutti	Pubblica informazioni sulla cronologia delle applicazioni MapReduce
	hadoop-yarn-resourcemanager	tutti	Pianifica e gestisce le applicazioni YARN
	hadoop-yarn-timelineserver	1.3+	Fornisce informazioni sulla cronologia delle applicazioni YARN
	hive-metastore	tutti	Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale `mariadb` (versioni immagine < 1.5) o `mysql` (versioni immagine 1.5+) sul nodo master come archivio dei metadati della tabella Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti elementi come database del metastore Hive (in ordine di suggerimento): Dataproc Metastore Istanza Cloud SQL
	hive-server2	tutti	Gestisce le query ricevute dai client (principalmente query della shell beeline) in Hive
	mariadb	< 1,5	Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc < 1.5
	mysql	1,5+	Un database relazionale utilizzato come database sottostante predefinito per Hive Metastore nelle immagini Dataproc 1.5+
	nfs-kernel-server	< 1,3	NFS è il Network File System.
	spark-history-server	tutti	Fornisce informazioni sulla cronologia delle applicazioni Spark
Tutti i worker	hadoop-yarn-nodemanager	tutti	Avvia e gestisce i container YARN
Solo worker principali	hadoop-hdfs-datanode	tutti	Memorizza i blocchi HDFS

Cluster HA

Nei cluster ad alta affidabilità (HA) di Dataproc, diversi servizi vengono eseguiti su nodi master diversi, come mostrato di seguito. I servizi dei nodi worker del cluster HA sono gli stessi elencati per i cluster standard.

Tipo di nodo	Servizio	Versioni immagine	Descrizione
Tutti i master	hadoop-hdfs-journalnode	tutti	Un quorum di nodi journal mantiene un log delle modifiche dello spazio dei nomi HDFS. In caso di failover, lo Standby NameNode legge il log delle modifiche e assume il controllo dall'Active NameNode.
	hadoop-yarn-resourcemanager	tutti	Pianifica e gestisce le applicazioni YARN
	hive-metastore	tutti	Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale `mariadb` (versioni immagine < 1.5) o `mysql` (versioni immagine 1.5+) sul nodo master come archivio dei metadati della tabella Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti elementi come database del metastore Hive (in ordine di suggerimento): Dataproc Metastore Istanza Cloud SQL
	hive-server2	tutti	Gestisce le query ricevute dai client (principalmente query della shell beeline) in Hive
	zookeeper-server	tutti	Un quorum di ZooKeeper viene utilizzato per il coordinamento distribuito. Nei cluster ad alta disponibilità (HA), viene utilizzato per l'elezione del leader di NameNode HDFS e Resource Manager YARN.
Solo Master 0 e 1	hadoop-hdfs-namenode	tutti	Gestisce il file system HDFS
Solo Master 0 e 1	hadoop-hdfs-zkfc	tutti	ZKFC è il processo `ZKFailoverController`, che viene eseguito con HDFS NameNode. Monitora l'integrità di NameNode e gestisce la selezione del leader tramite ZooKeeper in caso di failover.
Solo Master 0	hadoop-mapreduce-historyserver	tutti	Pubblica informazioni sulla cronologia delle applicazioni MapReduce
	hadoop-yarn-timelineserver	1.3+	Fornisce informazioni sulla cronologia delle applicazioni YARN
	mariadb	< 1,5	Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc < 1.5
	mysql	1,5+	Un database relazionale utilizzato come database sottostante predefinito per Hive Metastore nelle immagini Dataproc 1.5+
	nfs-kernel-server	< 1,3	NFS è il Network File System.
	spark-history-server	tutti	Fornisce informazioni sulla cronologia delle applicazioni Spark

Servizi Dataproc Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Tutti i nodi

Cluster standard

Cluster HA

Servizi Dataproc