Auf dieser Seite werden Dienste aufgeführt, die von Dataproc-Image-Versionen auf Dataproc-Clusterknoten ausgeführt werden.
Alle Knoten
Die folgenden Dienste werden auf allen Knoten in einem Cluster ausgeführt.
Knotentyp | Dienst | Image-Versionen | Beschreibung |
---|---|---|---|
Alle Knoten | google-dataproc-agent | Alle | Empfängt Jobs von Dataproc und startet Jobtreiber |
google-fluentd | Alle | Erfasst Logs an Logging und überträgt sie per Push |
Standardcluster
Die folgenden Dienste werden auf Standardclustern ausgeführt.
Knotentyp | Dienst | Image-Versionen | Beschreibung |
---|---|---|---|
Alle Knoten | hadoop-hdfs-namenode | Alle | Verwaltet das HDFS-Dateisystem |
hadoop-hdfs-secondarynamenode | Alle | Prüfpunkte für den NameNode | |
hadoop-mapreduce-historyserver | Alle | Stellt Informationen zum MapReduce-Anwendungsverlauf bereit | |
hadoop-yarn-resourcemanager | Alle | YARN-Anwendungen planen und verwalten | |
hadoop-yarn-timelineserver | 1.3+ | Stellt Informationen zum YARN-Anwendungsverlauf bereit | |
hive-metastore | Alle | Verwaltet Hive-Tabellenmetadaten Standardmäßig wird die lokale Datenbank mariadb (Image-Versionen < 1.5) oder mysql (Image-Version 1.5 und höher) auf dem Masterknoten als Hive-Tabellen-Metadatenspeicher verwendet.
Die Verwendung der Standarddatenbank wird nicht empfohlen, da diese Datenbanken an den Lebenszyklus des Clusters gebunden sind. Verwenden Sie stattdessen eine der folgenden Optionen als Hive-Metastore-Datenbank (in der Reihenfolge der Empfehlung):
|
|
hive-server2 | Alle | Stellt Abfragen von Clients (vor allem Beeline-Shell-Abfragen) an Hive bereit. | |
mariadb | < 1.5 | Eine relationale Datenbank, die als standardmäßige zugrunde liegende Datenbank für Hive-Metastore in Dataproc < 1.5 Images verwendet wird | |
mysql | 1.5+ | Eine relationale Datenbank, die als standardmäßige zugrunde liegende Datenbank für Hive-Metastore in Dataproc < 1.5+ Images verwendet wird | |
nfs-kernel-server | < 1.3 | NFS ist das Network File System. | |
spark-history-server | Alle | Stellt Informationen zum Spark-Anwendungsverlauf bereit | |
Alle Worker | hadoop-yarn-nodemanager | Alle | Startet und verwaltet YARN-Container |
Nur primäre Worker | hadoop-hdfs-datanode | Alle | Speichert HDFS-Blöcke |
Hochverfügbarkeitscluster
In Hochverfügbarkeitsclustern (High Availability, HA) werden unterschiedliche Dienste auf verschiedenen Masterknoten ausgeführt (siehe unten). Dienste für HA-Cluster-Worker-Knoten sind mit den Diensten für Standardcluster identisch.
Knotentyp | Dienst | Image-Versionen | Beschreibung |
---|---|---|---|
Alle Vorlagen | hadoop-hdfs-journalnode | Alle | Ein Quorum von Journalknoten verwaltet ein Bearbeitungslog der HDFS-Namespace-Änderungen. Wenn ein Failover auftritt, liest der Standby-NameNode das Bearbeitungslog und übernimmt die Kontrolle vom Active NameNode. |
hadoop-yarn-resourcemanager | Alle | YARN-Anwendungen planen und verwalten | |
hive-metastore | Alle | Verwaltet Hive-Tabellenmetadaten Standardmäßig wird die lokale Datenbank mariadb (Image-Versionen < 1.5) oder mysql (Image-Version 1.5 und höher) auf dem Masterknoten als Hive-Tabellen-Metadatenspeicher verwendet.
Die Verwendung der Standarddatenbank wird nicht empfohlen, da diese Datenbanken an den Lebenszyklus des Clusters gebunden sind. Verwenden Sie stattdessen eine der folgenden Optionen als Hive-Metastore-Datenbank (in der Reihenfolge der Empfehlung):
|
|
hive-server2 | Alle | Stellt Abfragen von Clients (vor allem Beeline-Shell-Abfragen) an Hive bereit. | |
zookeeper-server | Alle | Für die verteilte Koordination wird ein Quorum von ZooKeeper verwendet. In Hochverfügbarkeitsclustern (HA) wird es für die Wahl der HDFS-NameNodes und des YARN-Ressourcenmanager verwendet. | |
Master nur 0 und 1 | hadoop-hdfs-namenode | Alle | Verwaltet das HDFS-Dateisystem |
hadoop-hdfs-zkfc | Alle | ZKFC ist der ZKFailoverController -Prozess, der mit dem HDFS NameNode ausgeführt wird. Er überwacht den Zustand des NameNode und verwaltet die Leader-Auswahl über ZooKeeper bei einem Failover. |
|
Nur Master 0 | hadoop-mapreduce-historyserver | Alle | Stellt Informationen zum MapReduce-Anwendungsverlauf bereit |
hadoop-yarn-timelineserver | 1.3+ | Stellt Informationen zum YARN-Anwendungsverlauf bereit | |
mariadb | < 1.5 | Eine relationale Datenbank, die als standardmäßige zugrunde liegende Datenbank für Hive-Metastore in Dataproc < 1.5 Images verwendet wird | |
mysql | 1.5+ | Eine relationale Datenbank, die als standardmäßige zugrunde liegende Datenbank für Hive-Metastore in Dataproc < 1.5+ Images verwendet wird | |
nfs-kernel-server | < 1.3 | NFS ist das Network File System. | |
spark-history-server | Alle | Stellt Informationen zum Spark-Anwendungsverlauf bereit |