Dataproc on GKE 概览

借助 Dataproc on GKE,您可以使用 在 GKE 集群上使用 Dataproc jobs API。 使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc API (HTTP 请求或 Cloud 客户端库) 创建 Dataproc on GKE 虚拟集群, 然后将 Spark、PySpark、SparkR 或 Spark-SQL 作业提交到 Dataproc 服务。

Dataproc on GKE 支持 Spark 3.1 和 Spark 3.5 版本

Dataproc on GKE 的工作原理

Dataproc on GKE 会将 Dataproc 虚拟集群部署到 一个 GKE 集群取消点赞 Compute Engine 集群上的 Dataproc、 Dataproc on GKE 虚拟集群不包含单独的 主虚拟机和工作器虚拟机相反,当您创建 Dataproc on GKE 虚拟集群时 Dataproc on GKE 会在 GKE 集群中创建节点池。GKE 上的 Dataproc 作业作为 Pod 在这些节点池上运行。节点池和 节点池上 Pod 的调度由 GKE 管理。