Diese Seite wurde von der Cloud Translation API übersetzt.

Dataproc-Dienste

Auf dieser Seite werden Dienste aufgeführt, die von Dataproc-Image-Versionen auf Dataproc-Clusterknoten ausgeführt werden.

Alle Knoten

Die folgenden Dienste werden auf allen Knoten in einem Cluster ausgeführt.

Knotentyp	Dienst	Image-Versionen	Beschreibung
Alle Knoten	google-dataproc-agent	Alle	Empfängt Jobs von Dataproc und startet Jobtreiber
Alle Knoten	google-fluentd	Alle	Erfasst Logs an Logging und überträgt sie per Push

Standardcluster

Die folgenden Dienste werden auf Standardclustern ausgeführt.

Knotentyp	Dienst	Image-Versionen	Beschreibung
Alle Knoten	hadoop-hdfs-namenode	Alle	Verwaltet das HDFS-Dateisystem
	hadoop-hdfs-secondarynamenode	Alle	Prüfpunkte für den NameNode
	hadoop-mapreduce-historyserver	Alle	Stellt Informationen zum MapReduce-Anwendungsverlauf bereit
	hadoop-yarn-resourcemanager	Alle	YARN-Anwendungen planen und verwalten
	hadoop-yarn-timelineserver	1.3+	Stellt Informationen zum YARN-Anwendungsverlauf bereit
	hive-metastore	Alle	Verwaltet Hive-Tabellenmetadaten Standardmäßig wird die lokale Datenbank `mariadb` (Image-Versionen < 1.5) oder `mysql` (Image-Version 1.5 und höher) auf dem Masterknoten als Hive-Tabellen-Metadatenspeicher verwendet. Die Verwendung der Standarddatenbank wird nicht empfohlen, da diese Datenbanken an den Lebenszyklus des Clusters gebunden sind. Verwenden Sie stattdessen eine der folgenden Optionen als Hive-Metastore-Datenbank (in der Reihenfolge der Empfehlung): Dataproc Metastore Cloud SQL-Instanz
	hive-server2	Alle	Stellt Abfragen von Clients (vor allem Beeline-Shell-Abfragen) an Hive bereit.
	mariadb	< 1.5	Eine relationale Datenbank, die als standardmäßige zugrunde liegende Datenbank für Hive-Metastore in Dataproc < 1.5 Images verwendet wird
	mysql	1.5+	Eine relationale Datenbank, die als standardmäßige zugrunde liegende Datenbank für Hive-Metastore in Dataproc < 1.5+ Images verwendet wird
	nfs-kernel-server	< 1.3	NFS ist das Network File System.
	spark-history-server	Alle	Stellt Informationen zum Spark-Anwendungsverlauf bereit
Alle Worker	hadoop-yarn-nodemanager	Alle	Startet und verwaltet YARN-Container
Nur primäre Worker	hadoop-hdfs-datanode	Alle	Speichert HDFS-Blöcke

Hochverfügbarkeitscluster

In Hochverfügbarkeitsclustern (High Availability, HA) werden unterschiedliche Dienste auf verschiedenen Masterknoten ausgeführt (siehe unten). Dienste für HA-Cluster-Worker-Knoten sind mit den Diensten für Standardcluster identisch.

Knotentyp	Dienst	Image-Versionen	Beschreibung
Alle Vorlagen	hadoop-hdfs-journalnode	Alle	Ein Quorum von Journalknoten verwaltet ein Bearbeitungslog der HDFS-Namespace-Änderungen. Wenn ein Failover auftritt, liest der Standby-NameNode das Bearbeitungslog und übernimmt die Kontrolle vom Active NameNode.
	hadoop-yarn-resourcemanager	Alle	YARN-Anwendungen planen und verwalten
	hive-metastore	Alle	Verwaltet Hive-Tabellenmetadaten Standardmäßig wird die lokale Datenbank `mariadb` (Image-Versionen < 1.5) oder `mysql` (Image-Version 1.5 und höher) auf dem Masterknoten als Hive-Tabellen-Metadatenspeicher verwendet. Die Verwendung der Standarddatenbank wird nicht empfohlen, da diese Datenbanken an den Lebenszyklus des Clusters gebunden sind. Verwenden Sie stattdessen eine der folgenden Optionen als Hive-Metastore-Datenbank (in der Reihenfolge der Empfehlung): Dataproc Metastore Cloud SQL-Instanz
	hive-server2	Alle	Stellt Abfragen von Clients (vor allem Beeline-Shell-Abfragen) an Hive bereit.
	zookeeper-server	Alle	Für die verteilte Koordination wird ein Quorum von ZooKeeper verwendet. In Hochverfügbarkeitsclustern (HA) wird es für die Wahl der HDFS-NameNodes und des YARN-Ressourcenmanager verwendet.
Master nur 0 und 1	hadoop-hdfs-namenode	Alle	Verwaltet das HDFS-Dateisystem
Master nur 0 und 1	hadoop-hdfs-zkfc	Alle	ZKFC ist der `ZKFailoverController`-Prozess, der mit dem HDFS NameNode ausgeführt wird. Er überwacht den Zustand des NameNode und verwaltet die Leader-Auswahl über ZooKeeper bei einem Failover.
Nur Master 0	hadoop-mapreduce-historyserver	Alle	Stellt Informationen zum MapReduce-Anwendungsverlauf bereit
	hadoop-yarn-timelineserver	1.3+	Stellt Informationen zum YARN-Anwendungsverlauf bereit
	mariadb	< 1.5	Eine relationale Datenbank, die als standardmäßige zugrunde liegende Datenbank für Hive-Metastore in Dataproc < 1.5 Images verwendet wird
	mysql	1.5+	Eine relationale Datenbank, die als standardmäßige zugrunde liegende Datenbank für Hive-Metastore in Dataproc < 1.5+ Images verwendet wird
	nfs-kernel-server	< 1.3	NFS ist das Network File System.
	spark-history-server	Alle	Stellt Informationen zum Spark-Anwendungsverlauf bereit