Servizi Dataproc

In questa pagina sono elencati i servizi eseguiti dalle versioni immagine di Dataproc sui nodi del cluster Dataproc.

Tutti i nodi

I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.

Tipo di nodo Servizio Versioni immagine Descrizione
Tutti i nodi google-dataproc-agent tutte Riceve i job da Dataproc e avvia i driver dei job
fluente su google tutte Raccoglie ed esegue il push dei log su Logging

Cluster standard

I seguenti servizi vengono eseguiti su cluster standard.

Tipo di nodo Servizio Versioni immagine Descrizione
Tutti i nodi hadoop-hdfs-namenode tutte Gestisce il file system HDFS
hadoop-hdfs-secondarynamenode tutte Controlla i NameNode
hadoop-mapreduce-historyserver tutte Offre informazioni sulla cronologia delle applicazioni di MapReduce
hadoop-yarn-resourcemanager tutte Pianifica e gestisce le applicazioni YARN
hadoop-yarn-timelineserver 1.3+ Fornisce informazioni sulla cronologia delle applicazioni YARN
hive-metastore tutte Gestisce i metadati della tabella Hive. Per impostazione predefinita, utilizza il database locale mariadb (versioni immagine < 1.5) o mysql (versioni immagine 1.5 e versioni successive) sul nodo master come archivio di metadati della tabella Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti elementi come database Hive metastore (in ordine di suggerimento):
  1. Dataproc Metastore
  2. Istanza Cloud SQL
hive-server2 tutte Esegue le query ricevute dai client (principalmente query shell di Beeline) su Hive
mariarossi < 1,5 Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive in Dataproc < 1,5 immagini
mysql Più di 1,5 Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e versioni successive
nfs-kernel-server < 1,3 NFS è il file system di rete.
spark-history-server tutte Fornisce informazioni sulla cronologia delle applicazioni Spark
Tutti i worker hadoop-yarn-nodemanager tutte Lancia e gestisce i container YARN
Solo lavoratori principali hadoop-hdfs-datanode tutte Archivia blocchi HDFS

Cluster ad alta disponibilità

Nei cluster ad alta disponibilità (HA) Dataproc, servizi diversi vengono eseguiti su nodi master diversi, come mostrato di seguito. I servizi nodo worker del cluster ad alta disponibilità sono gli stessi elencati per i cluster standard.

Tipo di nodo Servizio Versioni immagine Descrizione
Tutti gli schemi hadoop-hdfs-journalnode tutte Un quorum di nodi del journal mantiene un log di modifica delle modifiche dello spazio dei nomi HDFS. Se si verifica un failover, il NameNode in standby legge il log di modifica e prende il controllo dal NameNode attivo.
hadoop-yarn-resourcemanager tutte Pianifica e gestisce le applicazioni YARN
hive-metastore tutte Gestisce i metadati della tabella Hive. Per impostazione predefinita, utilizza il database locale mariadb (versioni immagine < 1.5) o mysql (versioni immagine 1.5 e versioni successive) sul nodo master come archivio di metadati della tabella Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti elementi come database Hive metastore (in ordine di suggerimento):
  1. Dataproc Metastore
  2. Istanza Cloud SQL
hive-server2 tutte Esegue le query ricevute dai client (principalmente query shell di Beeline) su Hive
zookeeper-server tutte Un quorum ZooKeeper viene utilizzato per la coordinazione distribuita. Nei cluster ad alta disponibilità, viene utilizzato per l'elezione dei leader di NameNodes HDFS e YARN resource manager.
Solo master 0 e 1 hadoop-hdfs-namenode tutte Gestisce il file system HDFS
hadoop-hdfs-zkfc tutte ZKFC è il processo ZKFailoverController, eseguito con NameNode HDFS. Monitora l'integrità di NameNode e gestisce le elezioni di leader tramite ZooKeeper in caso di failover.
Solo schema 0 hadoop-mapreduce-historyserver tutte Offre informazioni sulla cronologia delle applicazioni di MapReduce
hadoop-yarn-timelineserver 1.3+ Fornisce informazioni sulla cronologia delle applicazioni YARN
mariarossi < 1,5 Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive in Dataproc < 1,5 immagini
mysql Più di 1,5 Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini Dataproc 1.5 e versioni successive
nfs-kernel-server < 1,3 NFS è il file system di rete.
spark-history-server tutte Fornisce informazioni sulla cronologia delle applicazioni Spark