Servizi Dataproc

Questa pagina elenca i servizi eseguiti dalle versioni immagine di Dataproc sui nodi del cluster Dataproc.

Tutti i nodi

I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.

Tipo di nodo Servizio Versioni immagine Descrizione
Tutti i nodi google-dataproc-agent tutti Riceve i job da Dataproc e avvia i driver dei job
google-fluentd tutti Raccoglie e invia i log a Logging

Cluster standard

I seguenti servizi vengono eseguiti su cluster standard.

Tipo di nodo Servizio Versioni immagine Descrizione
Master hadoop-hdfs-namenode tutti Gestisce il file system HDFS
hadoop-hdfs-secondarynamenode tutti Checkpoint del NameNode
hadoop-mapreduce-historyserver tutti Pubblica informazioni sulla cronologia delle applicazioni MapReduce
hadoop-yarn-resourcemanager tutti Pianifica e gestisce le applicazioni YARN
hadoop-yarn-timelineserver 1.3+ Fornisce informazioni sulla cronologia delle applicazioni YARN
hive-metastore tutti Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale mariadb (versioni immagine < 1.5) o mysql (versioni immagine 1.5+) sul nodo master come archivio dei metadati della tabella Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti elementi come database del metastore Hive (in ordine di suggerimento):
  1. Dataproc Metastore
  2. Istanza Cloud SQL
hive-server2 tutti Gestisce le query ricevute dai client (principalmente query della shell beeline) in Hive
mariadb < 1,5 Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc < 1.5
mysql 1,5+ Un database relazionale utilizzato come database sottostante predefinito per Hive Metastore nelle immagini Dataproc 1.5+
nfs-kernel-server < 1,3 NFS è il Network File System.
spark-history-server tutti Fornisce informazioni sulla cronologia delle applicazioni Spark
Tutti i worker hadoop-yarn-nodemanager tutti Avvia e gestisce i container YARN
Solo worker principali hadoop-hdfs-datanode tutti Memorizza i blocchi HDFS

Cluster HA

Nei cluster ad alta affidabilità (HA) di Dataproc, diversi servizi vengono eseguiti su nodi master diversi, come mostrato di seguito. I servizi dei nodi worker del cluster HA sono gli stessi elencati per i cluster standard.

Tipo di nodo Servizio Versioni immagine Descrizione
Tutti i master hadoop-hdfs-journalnode tutti Un quorum di nodi journal mantiene un log delle modifiche dello spazio dei nomi HDFS. In caso di failover, lo Standby NameNode legge il log delle modifiche e assume il controllo dall'Active NameNode.
hadoop-yarn-resourcemanager tutti Pianifica e gestisce le applicazioni YARN
hive-metastore tutti Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale mariadb (versioni immagine < 1.5) o mysql (versioni immagine 1.5+) sul nodo master come archivio dei metadati della tabella Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti elementi come database del metastore Hive (in ordine di suggerimento):
  1. Dataproc Metastore
  2. Istanza Cloud SQL
hive-server2 tutti Gestisce le query ricevute dai client (principalmente query della shell beeline) in Hive
zookeeper-server tutti Un quorum di ZooKeeper viene utilizzato per il coordinamento distribuito. Nei cluster ad alta disponibilità (HA), viene utilizzato per l'elezione del leader di NameNode HDFS e Resource Manager YARN.
Solo Master 0 e 1 hadoop-hdfs-namenode tutti Gestisce il file system HDFS
hadoop-hdfs-zkfc tutti ZKFC è il processo ZKFailoverController, che viene eseguito con HDFS NameNode. Monitora l'integrità di NameNode e gestisce la selezione del leader tramite ZooKeeper in caso di failover.
Solo Master 0 hadoop-mapreduce-historyserver tutti Pubblica informazioni sulla cronologia delle applicazioni MapReduce
hadoop-yarn-timelineserver 1.3+ Fornisce informazioni sulla cronologia delle applicazioni YARN
mariadb < 1,5 Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc < 1.5
mysql 1,5+ Un database relazionale utilizzato come database sottostante predefinito per Hive Metastore nelle immagini Dataproc 1.5+
nfs-kernel-server < 1,3 NFS è il Network File System.
spark-history-server tutti Fornisce informazioni sulla cronologia delle applicazioni Spark