Dataproc on GKE 概览

借助 Dataproc on GKE,您可以使用 GKE 集群上的 Dataproc jobs API 执行大数据应用。使用 Google Cloud Console、Google Cloud CLI 或 Dataproc API(HTTP 请求或 Cloud 客户端库)创建 Dataproc on GKE 虚拟集群,然后向 Dataproc 服务提交 Spark、PySpark、SparkR 或 Spark-SQL 作业。

Dataproc on GKE 支持 Spark 2.4 和 Spark 3.1 版本

Dataproc on GKE 的工作原理

Dataproc on GKE 在 GKE 集群上部署 Dataproc 虚拟集群。与 Dataproc on Compute Engine 集群不同,Dataproc on GKE 虚拟集群不包含单独的主虚拟机和工作器虚拟机。相反,当您创建 Dataproc on GKE 虚拟集群时,Dataproc on GKE 会在 GKE 集群中创建节点池。Dataproc on GKE 作业会以 pod 的形式在这些节点池上运行。节点池以及节点池中 pod 的调度由 GKE 管理。