Dataproc サービス

このページでは、Dataproc イメージ バージョンにより Dataproc クラスタノードで実行されるサービスの一覧を記載します。

すべてのノード

次のサービスは、クラスタ内のすべてのノードで実行されます。

ノードタイプ サービス イメージのバージョン 説明
すべてのノード google-dataproc-agent すべて Dataproc からジョブを受け取り、ジョブドライバを起動します。
google-fluentd すべて ログを収集して Logging にプッシュします。

Standard クラスタ

次のサービスは標準クラスタで実行されます。

ノードタイプ サービス イメージのバージョン 説明
すべてのノード hadoop-hdfs-namenode すべて HDFS ファイルシステムを管理する
hadoop-hdfs-secondarynamenode すべて NameNode のチェックポイントとして機能します。
hadoop-mapreduce-historyserver すべて MapReduce アプリケーションの履歴情報を提供します。
hadoop-yarn-resourcemanager すべて YARN アプリケーションをスケジューリングし管理します。
hadoop-yarn-timelineserver 1.3 以降 YARN アプリケーションの履歴情報を提供します。
hive-metastore すべて Hive テーブルのメタデータを管理します。デフォルトでは、Hive テーブルのメタデータ ストアとして、マスターノードのローカル mariadb(イメージ バージョン 1.5 未満)または mysql(イメージ バージョン 1.5 以降)データベースを使用します。 デフォルトのデータベースはクラスタのライフサイクルに関連付けられているため、これらのデータベースの使用はおすすめしません。代わりに、次のいずれかを Hive メタストア データベースとして使用します(レコメンデーション順)。
  1. Dataproc Metastore
  2. Cloud SQL インスタンス
hive-server2 すべて クライアントから受信した Hive に対するクエリ(主に Beeline シェルクエリ)を処理します。
mariadb 1.5 未満 Dataproc 1.5 未満のイメージで、Hive メタストアのデフォルトの基盤データベースとして使用されるリレーショナル データベース。
mysql 1.5 以降 Dataproc 1.5 以上のイメージで、Hive メタストアのデフォルトの基盤データベースとして使用されるリレーショナル データベース。
nfs-kernel-server 1.3 未満 NFS がネットワーク ファイル システムです。
spark-history-server すべて Spark アプリケーションの履歴情報を提供します。
すべてのワーカー hadoop-yarn-nodemanager すべて YARN コンテナを起動して管理します。
プライマリ ワーカーのみ hadoop-hdfs-datanode すべて HDFS ブロックを保存する

HA クラスタ

Dataproc の高可用性(HA)クラスタでは、次のように、異なるマスターノードで異なるサービスが実行されます。HA クラスタのワーカーノード サービスは、標準クラスタにリストされているものと同じです。

ノードタイプ サービス イメージのバージョン 説明
すべてのマスター hadoop-hdfs-journalnode すべて ジャーナル ノードのクォーラムにより、HDFS 名前空間の変更の編集ログが維持されます。 フェイルオーバーが発生すると、Standby NameNode が編集ログを読み取り、Active NameNode から制御を取得します。
hadoop-yarn-resourcemanager すべて YARN アプリケーションをスケジューリングし管理します。
hive-metastore すべて Hive テーブルのメタデータを管理します。デフォルトでは、Hive テーブルのメタデータ ストアとして、マスターノードのローカル mariadb(イメージ バージョン 1.5 未満)または mysql(イメージ バージョン 1.5 以降)データベースを使用します。 デフォルトのデータベースはクラスタのライフサイクルに関連付けられているため、これらのデータベースの使用はおすすめしません。代わりに、次のいずれかを Hive メタストア データベースとして使用します(レコメンデーション順)。
  1. Dataproc Metastore
  2. Cloud SQL インスタンス
hive-server2 すべて クライアントから受信した Hive に対するクエリ(主に Beeline シェルクエリ)を処理します。
zookeeper-server すべて ZooKeeper クォーラムは、分散調整に使用されます。高可用性(HA)クラスタでは、HDFS NameNodeYARN リソース マネージャーのリーダーの選択に使用されます。
マスター 0 とマスター 1 のみ hadoop-hdfs-namenode すべて HDFS ファイルシステムを管理する
hadoop-hdfs-zkfc すべて ZKFC は、HDFS NameNode で実行される ZKFailoverController プロセスです。NameNode の正常性をモニタリングし、フェイルオーバーが発生した場合に ZooKeeper によるリーダーの選択を管理します。
マスター 0 のみ hadoop-mapreduce-historyserver すべて MapReduce アプリケーションの履歴情報を提供します。
hadoop-yarn-timelineserver 1.3 以降 YARN アプリケーションの履歴情報を提供します。
mariadb 1.5 未満 Dataproc 1.5 未満のイメージで、Hive メタストアのデフォルトの基盤データベースとして使用されるリレーショナル データベース。
mysql 1.5 以降 Dataproc 1.5 以上のイメージで、Hive メタストアのデフォルトの基盤データベースとして使用されるリレーショナル データベース。
nfs-kernel-server 1.3 未満 NFS がネットワーク ファイル システムです。
spark-history-server すべて Spark アプリケーションの履歴情報を提供します。