Dataproc on GKE 概览

借助 Dataproc on GKE,您可以在 GKE 集群上使用 Dataproc jobs API 执行大数据应用。使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc API(HTTP 请求或 Cloud 客户端库)创建 Dataproc on GKE 虚拟集群,然后将 Spark、PySpark、SparkR 或 Spark-SQL 作业提交到 Dataproc 服务。

GKE 上的 Dataproc 支持 Spark 3.1 和 Spark 3.5 版本

GKE 上的 Dataproc 的工作原理

Dataproc on GKE 会在 GKE 集群上部署 Dataproc 虚拟集群。与 Compute Engine 集群上的 Dataproc 不同,GKE 虚拟集群上的 Dataproc 不包含单独的主虚拟机和工作器虚拟机。相反,当您创建 Dataproc on GKE 虚拟集群时,Dataproc on GKE 会在 GKE 集群中创建节点池。Dataproc on GKE 作业在这些节点池上作为 Pod 运行。节点池以及节点池上的 Pod 调度由 GKE 管理。