Dataproc on GKE の概要

GKE on Dataproc を使用すると、GKE クラスタで Dataproc jobs API を使用してビッグデータ アプリケーションを実行できます。Google Cloud Console、Google Cloud CLI、または Dataproc API(HTTP リクエストまたは Cloud クライアント ライブラリ)を使用して、GKE 仮想クラスタで Dataproc を作成し、Spark、PySpark、SparkR、または Spark-SQL ジョブを Dataproc サービスに対して送信します。

Dataproc on GKE は、Spark 2.4 と Spark 3.1 のバージョンをサポートしています。

Dataproc on GKE の仕組み

Dataproc は、GKE クラスタに Dataproc 仮想クラスタをデプロイします。従来の Compute Engine クラスタの Dataproc とは異なり、GKE 仮想クラスタ上の Dataproc には、個別のマスター VM とワーカー VM は含まれません。代わりに、GKE 仮想クラスタで Dataproc を作成すると、GKE on Dataproc によって GKE クラスタ内にノードプールが作成されます。Dataproc on GKE ジョブは、これらのノードプールで Pod として実行されます。ノードプールとノードプール上のポッドのスケジューリングは、GKE によって管理されます。