Questa pagina è stata tradotta dall'API Cloud Translation.

Servizi Dataproc

Questa pagina elenca i servizi che le versioni immagine di Dataproc eseguono sui nodi del cluster Dataproc.

Tutti i nodi

I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.

Tipo di nodo	Servizio	Versioni immagine	Descrizione
Tutti i nodi	google-dataproc-agent	tutte	Riceve i job da Dataproc e avvia i driver dei job
Tutti i nodi	google-fluentd	tutte	Raccoglie e invia i log a Logging

Cluster standard

I seguenti servizi vengono eseguiti su cluster standard.

Tipo di nodo	Servizio	Versioni immagine	Descrizione
Tutti i nodi	hadoop-hdfs-namenode	tutte	Gestisce il file system HDFS
	hadoop-hdfs-secondarynamenode	tutte	Checkpoint di NameNode
	hadoop-mapreduce-historyserver	tutte	Fornisce informazioni sulla cronologia delle applicazioni MapReduce
	hadoop-yarn-resourcemanager	tutte	Pianifica e gestisce le applicazioni YARN
	hadoop-yarn-timelineserver	1,3 e versioni successive	Fornisce le informazioni sulla cronologia delle applicazioni YARN
	hive-metastore	tutte	Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale `mariadb` (versioni dell'immagine < 1.5) o `mysql` (versioni dell'immagine 1.5 e successive) sul nodo principale come archivio dei metadati delle tabelle Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti come database del metastore Hive (in ordine di raccomandazione): Dataproc Metastore Istanza Cloud SQL
	hive-server2	tutte	Gestisci le query ricevute dai clienti (principalmente query shell di beeline) contro Hive
	mariadb	< 1,5	Un database relazionale utilizzato come database sottostante predefinito per Hive metastore in Dataproc < 1,5 immagini
	mysql	1,5 o più	Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e versioni successive
	nfs-kernel-server	< 1,3	NFS è il file system di rete.
	spark-history-server	tutte	Fornisce informazioni sulla cronologia delle applicazioni Spark
Tutti i worker	hadoop-yarn-nodemanager	tutte	Avvia e gestisce i container YARN
Solo worker principali	hadoop-hdfs-datanode	tutte	Archivia blocchi HDFS

Cluster ad alta disponibilità

Nei cluster ad alta disponibilità (HA) di Dataproc, diversi servizi vengono eseguiti su diversi nodi master, come mostrato di seguito. I servizi dei nodi worker del cluster HA sono gli stessi elencati per i cluster standard.

Tipo di nodo	Servizio	Versioni immagine	Descrizione
Tutti gli schemi	hadoop-hdfs-journalnode	tutte	Un quorum di nodi di log gestisce un log delle modifiche dello spazio dei nomi HDFS. In caso di failover, NameNode in standby legge il log di modifica e prende il controllo da Active NameNode.
	hadoop-yarn-resourcemanager	tutte	Pianifica e gestisce le applicazioni YARN
	hive-metastore	tutte	Gestisce i metadati della tabella Hive. Per impostazione predefinita, utilizza il database locale `mariadb` (versioni dell'immagine < 1.5) o `mysql` (versioni dell'immagine 1.5 e successive) sul nodo principale come archivio dei metadati delle tabelle Hive. Non è consigliabile utilizzare il database predefinito perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti come database del metastore Hive (in ordine di raccomandazione): Dataproc Metastore Istanza Cloud SQL
	hive-server2	tutte	Gestisce le query ricevute dai client (principalmente query shell beeline) contro Hive
	zookeeper-server	tutte	Per il coordinamento distribuito viene utilizzato un quorum di ZooKeeper. Nella cluster ad alta disponibilità, per cui viene utilizzata Nodi dei nomi HDFS e YARN Resource Manager elezioni dei leader.
Solo master 0 e 1	hadoop-hdfs-namenode	tutte	Gestisce il file system HDFS
Solo master 0 e 1	hadoop-hdfs-zkfc	tutte	ZKFC è il processo `ZKFailoverController`, che viene eseguito con il NameNode HDFS. Monitora l'integrità del NameNode e gestisce l'elezione del leader tramite ZooKeeper in caso di failover.
Solo master 0	hadoop-mapreduce-historyserver	tutte	Fornisce informazioni sulla cronologia delle applicazioni mapreduce
	hadoop-yarn-timelineserver	1.3+	Fornisce le informazioni sulla cronologia delle applicazioni YARN
	mariada	< 1,5	Un database relazionale utilizzato come database sottostante predefinito per Hive metastore in Dataproc < 1,5 immagini
	mysql	Più di 1,5	Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e versioni successive
	nfs-kernel-server	< 1,3	NFS è il file system di rete.
	spark-history-server	tutte	Fornisce informazioni sulla cronologia delle applicazioni Spark