Dataproc-Dienste

Auf dieser Seite werden Dienste aufgeführt, die von Dataproc-Image-Versionen auf Dataproc-Clusterknoten ausgeführt werden.

Alle Knoten

Die folgenden Dienste werden auf allen Knoten in einem Cluster ausgeführt.

Knotentyp Dienst Image-Versionen Beschreibung
Alle Knoten google-dataproc-agent Alle Empfängt Jobs von Dataproc und startet Jobtreiber
google-fluentd Alle Erfasst Logs an Logging und überträgt sie per Push

Standardcluster

Die folgenden Dienste werden auf Standardclustern ausgeführt.

Knotentyp Dienst Image-Versionen Beschreibung
Alle Knoten hadoop-hdfs-namenode Alle Verwaltet das HDFS-Dateisystem
hadoop-hdfs-secondarynamenode Alle Prüfpunkte für den NameNode
hadoop-mapreduce-historyserver Alle Stellt Informationen zum MapReduce-Anwendungsverlauf bereit
hadoop-yarn-resourcemanager Alle YARN-Anwendungen planen und verwalten
hadoop-yarn-timelineserver 1.3+ Stellt Informationen zum YARN-Anwendungsverlauf bereit
hive-metastore Alle Verwaltet Hive-Tabellenmetadaten. Standardmäßig wird die lokale Datenbank mariadb (Image-Versionen < 1.5) oder mysql (Image-Version 1.5 und höher) auf dem Masterknoten als Hive-Tabellen-Metadatenspeicher verwendet. Die Verwendung der Standarddatenbank wird nicht empfohlen, da diese Datenbanken an den Lebenszyklus des Clusters gebunden sind. Verwenden Sie stattdessen eine der folgenden Optionen als Hive-Metastore-Datenbank (in der Reihenfolge der Empfehlung):
  1. Dataproc Metastore
  2. Cloud SQL-Instanz
hive-server2 Alle Stellt Abfragen von Clients (vor allem Beeline-Shell-Abfragen) an Hive bereit.
mariadb < 1.5 Eine relationale Datenbank, die als standardmäßige zugrunde liegende Datenbank für Hive-Metastore in Dataproc < 1.5 Images verwendet wird
mysql 1.5+ Eine relationale Datenbank, die als standardmäßige zugrunde liegende Datenbank für Hive-Metastore in Dataproc < 1.5+ Images verwendet wird
nfs-kernel-server < 1.3 NFS ist das Network File System.
spark-history-server Alle Stellt Informationen zum Spark-Anwendungsverlauf bereit
Alle Worker hadoop-yarn-nodemanager Alle Startet und verwaltet YARN-Container
Nur primäre Worker hadoop-hdfs-datanode Alle Speichert HDFS-Blöcke

Hochverfügbarkeitscluster

In Hochverfügbarkeitsclustern (High Availability, HA) werden unterschiedliche Dienste auf verschiedenen Masterknoten ausgeführt (siehe unten). Dienste für HA-Cluster-Worker-Knoten sind mit den Diensten für Standardcluster identisch.

Knotentyp Dienst Image-Versionen Beschreibung
Alle Vorlagen hadoop-hdfs-journalnode Alle Ein Quorum von Journalknoten verwaltet ein Bearbeitungslog der HDFS-Namespace-Änderungen. Wenn ein Failover auftritt, liest der Standby-NameNode das Bearbeitungslog und übernimmt die Kontrolle vom Active NameNode.
hadoop-yarn-resourcemanager Alle YARN-Anwendungen planen und verwalten
hive-metastore Alle Verwaltet Hive-Tabellenmetadaten. Standardmäßig wird die lokale Datenbank mariadb (Image-Versionen < 1.5) oder mysql (Image-Version 1.5 und höher) auf dem Masterknoten als Hive-Tabellen-Metadatenspeicher verwendet. Die Verwendung der Standarddatenbank wird nicht empfohlen, da diese Datenbanken an den Lebenszyklus des Clusters gebunden sind. Verwenden Sie stattdessen eine der folgenden Optionen als Hive-Metastore-Datenbank (in der Reihenfolge der Empfehlung):
  1. Dataproc Metastore
  2. Cloud SQL-Instanz
hive-server2 Alle Stellt Abfragen von Clients (vor allem Beeline-Shell-Abfragen) an Hive bereit.
zookeeper-server Alle Für die verteilte Koordination wird ein Quorum von ZooKeeper verwendet. In Hochverfügbarkeitsclustern (HA) wird es für die Wahl der HDFS-NameNodes und des YARN-Ressourcenmanager verwendet.
Master nur 0 und 1 hadoop-hdfs-namenode Alle Verwaltet das HDFS-Dateisystem
hadoop-hdfs-zkfc Alle ZKFC ist der ZKFailoverController-Prozess, der mit dem HDFS NameNode ausgeführt wird. Er überwacht den Zustand des NameNode und verwaltet die Leader-Auswahl über ZooKeeper bei einem Failover.
Nur Master 0 hadoop-mapreduce-historyserver Alle Stellt Informationen zum MapReduce-Anwendungsverlauf bereit
hadoop-yarn-timelineserver 1.3+ Stellt Informationen zum YARN-Anwendungsverlauf bereit
mariadb < 1.5 Eine relationale Datenbank, die als standardmäßige zugrunde liegende Datenbank für Hive-Metastore in Dataproc < 1.5 Images verwendet wird
mysql 1.5+ Eine relationale Datenbank, die als standardmäßige zugrunde liegende Datenbank für Hive-Metastore in Dataproc < 1.5+ Images verwendet wird
nfs-kernel-server < 1.3 NFS ist das Network File System.
spark-history-server Alle Stellt Informationen zum Spark-Anwendungsverlauf bereit