Dataproc on GKE の概要

Dataproc on GKE では、GKE クラスタで Dataproc jobs API を使用してビッグデータ アプリケーションを実行できます。Google Cloud コンソール、Google Cloud CLI、または Dataproc API(HTTP リクエストまたは Cloud クライアント ライブラリ)を使用して、GKE 仮想クラスタで Dataproc を作成し、Spark を送信します。その後、PySpark、SparkR、または Spark-SQL ジョブを Dataproc サービスに対して実行します。

Dataproc on GKE では、Spark 2.4 と Spark 3.1 のバージョンがサポートされています。

Dataproc on GKE の仕組み

Dataproc on GKE では、GKE クラスタに Dataproc 仮想クラスタがデプロイされます。Dataproc on Compute Engine クラスタとは異なり、Dataproc on GKE 仮想クラスタには、個別のマスター VM とワーカー VM が含まれません。代わりに、Dataproc on GKE 仮想クラスタを作成すると、Dataproc on GKE によって GKE クラスタ内にノードプールが作成されます。Dataproc on GKE ジョブは、こうしたノードプールで Pod として動作します。ノードプールとノードプール上の Pod のスケジューリングは、GKE が管理します。