什么是 Dataproc Serverless?

借助 Dataproc Serverless,您无需预配和管理自己的集群即可运行 Spark 批处理工作负载。指定工作负载参数,然后将工作负载提交到 Dataproc Serverless 服务。该服务将在托管式计算基础架构上运行工作负载,并根据需要自动扩缩资源。Dataproc Serverless 仅在执行工作负载时产生费用。

为 Dataproc 批量工作负载安排 Dataproc 无服务器:您可以使用 Airflow 批处理运算符AirflowCloud Composer 工作流中安排 Spark 批量工作负载。如需了解详情,请参阅使用 Cloud Composer 运行 Dataproc 无服务器工作负载

Dataproc Serverless for Spark 与 Dataproc on Compute Engine

Dataproc on Compute Engine 非常适合想要预配和管理基础架构,然后在 Spark 和其他开源处理框架上执行工作负载的用户。下表列出了 Dataproc on Compute Engine 和 Dataproc Serverless for Spark 的主要区别。

功能 Dataproc Serverless for Spark Dataproc on Compute Engine
处理框架 Spark 3.2 Spark 3.1 及更低版本。其他开源框架,例如 Hive
无服务器
启动时间 60 秒 90 秒
基础架构控制
资源管理 基于 Spark 基于 YARN
GPU 支持 已计划
交互式会话 已计划(由 Google 管理) 是(由客户管理)
自定义容器
虚拟机访问权限(例如 SSH)
Java 版本 Java 11 支持过往版本
OS Login 支持 *

注意:

  • OS Login 政策不适用于 Dataproc 无服务器,也无法为其提供支持。如果您的组织强制执行 OS Login 政策,则其 Dataproc 无服务器工作负载将失败。

Dataproc Serverless for Spark 工作负载功能

您可以在 Dataproc Serverless for Spark 服务上运行以下 Spark 工作负载类型:

  • Pyspark
  • Spark SQL
  • Spark R
  • Spark Java/Scala
    • 您可以在提交 Spark 批处理工作负载时指定 Spark 属性