Dataproc on GKE 概览

借助 Dataproc on GKE,您可以在 GKE 集群上使用 Dataproc jobs API 执行大数据应用。使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc API(HTTP 请求或 Cloud 客户端库)创建 Dataproc on GKE 虚拟集群,然后将 Spark、PySpark、SparkR 或 Spark-SQL 作业提交到 Dataproc 服务。

Dataproc on GKE 支持 Spark 3.1 和 Spark 3.5 版本

Dataproc on GKE 的工作原理

Dataproc on GKE 将 Dataproc 虚拟集群部署在 GKE 集群上。与 Compute Engine 集群上的 Dataproc 不同,GKE 虚拟集群上的 Dataproc 不包含单独的主虚拟机和工作器虚拟机。相反,当您创建 Dataproc on GKE 虚拟集群时,Dataproc on GKE 会在 GKE 集群中创建节点池。Dataproc on GKE 作业作为 Pod 在这些节点池上运行。节点池上 Pod 的调度由 GKE 管理。