借助 Dataproc on GKE,您可以在 GKE 集群上使用 Dataproc jobs
API 执行大数据应用。使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc API(HTTP 请求或 Cloud 客户端库)创建 Dataproc on GKE 虚拟集群,然后将 Spark、PySpark、SparkR 或 Spark-SQL 作业提交到 Dataproc 服务。
Dataproc on GKE 支持 Spark 3.5 版本。
Dataproc on GKE 的工作原理
Dataproc on GKE 会将 Dataproc 虚拟集群部署到 一个 GKE 集群取消点赞 Compute Engine 集群上的 Dataproc、 Dataproc on GKE 虚拟集群不包含单独的 主虚拟机和工作器虚拟机相反,当您创建 Dataproc on GKE 虚拟集群时 Dataproc on GKE 会在 GKE 集群中创建节点池。Dataproc on GKE 作业会作为 Pod 在这些节点池上运行。节点池以及节点池上的 pod 调度由 GKE 管理。