GKE 上的 Dataproc 概览

借助 GKE 上的 Dataproc,您可以在 GKE 集群上使用 Dataproc jobs API 执行大数据应用。使用 Google Cloud Console、Google Cloud CLI 或 Dataproc API(HTTP 请求或 Cloud 客户端库)创建 Dataproc on GKE 虚拟集群,然后向 Dataproc 服务提交 Spark、PySpark、SparkR 或 Spark-SQL 作业。

GKE 上的 Dataproc 支持 Spark 2.4 和 Spark 3.1 版本

Dataproc 在 GKE 上的工作原理

GKE 上的 Dataproc 在 GKE 集群上部署了 Dataproc 虚拟集群。与旧版 Compute Engine 集群上的 Dataproc 不同,Dataproc on GKE 虚拟集群不包含单独的主实例和工作器虚拟机。相反,当您创建 Dataproc on GKE 虚拟集群时,Dataproc on GKE 会在 GKE 集群中创建节点池。GKE on Dataproc 作业将作为 pod 在这些节点池上运行。节点池以及节点池上 pod 的调度由 GKE 管理。