2025 年 5 月发布:Dataproc Serverless 现已成为 Google Cloud Serverless for Apache Spark

Serverless for Apache Spark 徽标

Google Cloud Serverless for Apache Spark

专注于编码,而非管理基础设施

在可自定义的零运维平台上运行 Apache Spark 作业更轻松,借助 Gemini 更智能,凭借 Lightning Engine 的性能更快速

Apache Spark 是 Apache Software Foundation 的商标。


功能

业界领先的性能

使用我们的新一代矢量化引擎 Lightning Engine,大幅提升作业效率。自动为 Serverless for Apache Spark 工作负载带来超过 4.3 倍的性能提升,并降低总体拥有成本 (TCO)。

利用智能自动扩缩实现零运维

借助智能自动扩缩功能,消除集群管理难题。资源会自动扩缩,以完美满足作业的需求,确保实现最佳性能和成本效益,而无需为闲置时间付费。

AI 赋能开发

加速整个工作流程。在 BigQuery Studio 中使用 Gemini Code Assist 编写和调试 PySpark、Scala 和 Java 代码,并使用预配置的 ML 运行时启动 GPU 加速环境

统一的 Spark 和 SQL 体验

消除上下文切换。在 BigQuery Studio 等单一环境中开发和运行工作负载,在同一笔记本中无缝融合强大的 SQL 和灵活的 PySpark。


两种性能级别

两种性能级别提供多种层级,可满足从标准批处理到最严苛、对性能要求极高的作业等各种特定需求。
层级适用场景

标准

非常适合经济高效的批处理、数据转换和通用 Spark 作业。

  • 通用 Spark ETL
  • 已安排的数据流水线
  • 成本敏感型批处理作业

高级

面向要求最严苛的工作负载,可提供 Lightning Engine、AI/机器学习加速和交互功能,从而实现最佳性能。

  • 由 Lightning Engine 驱动的性能关键型作业,性能可提升 4.3 倍
  • 交互式数据科学与分析
  • GPU 加速的 AI 和机器学习
  • 复杂的大规模数据处理

两种性能级别

提供多种层级,可满足从标准批处理到最严苛、对性能要求极高的作业等各种特定需求。

标准

适用场景

非常适合经济高效的批处理、数据转换和通用 Spark 作业。

  • 通用 Spark ETL
  • 已安排的数据流水线
  • 成本敏感型批处理作业

高级

适用场景

面向要求最严苛的工作负载,可提供 Lightning Engine、AI/机器学习加速和交互功能,从而实现最佳性能。

  • 由 Lightning Engine 驱动的性能关键型作业,性能可提升 4.3 倍
  • 交互式数据科学与分析
  • GPU 加速的 AI 和机器学习
  • 复杂的大规模数据处理

工作方式

在您常用的工具(包括 BigQuery Studio 笔记本)中开发 Apache Spark 应用。只需一个命令即可提交无服务器 Spark 作业,其余工作都由 Google 处理,无需创建、配置或管理集群。


常见用途

交互式数据科学

让数据科学家能够探索数据并快速迭代 Spark ML 模型。在单个 BigQuery Studio 笔记本中统一 SQL 和 Spark,从使用 SQL 进行数据探索无缝过渡到使用 PySpark 构建模型,而无需管理基础设施。

BigQuery Studio 笔记本

交互式数据科学

让数据科学家能够探索数据并快速迭代 Spark ML 模型。在单个 BigQuery Studio 笔记本中统一 SQL 和 Spark,从使用 SQL 进行数据探索无缝过渡到使用 PySpark 构建模型,而无需管理基础设施。

BigQuery Studio 笔记本

自动化 ETL 流水线

构建稳健的事件驱动型 Spark ETL 流水线,可根据需求自动扩缩。用多少付多少,非常适合处理短时间激增或不可预测的工作负载。

从数据到 Spark 生产环境,更快。

    自动化 ETL 流水线

    构建稳健的事件驱动型 Spark ETL 流水线,可根据需求自动扩缩。用多少付多少,非常适合处理短时间激增或不可预测的工作负载。

    从数据到 Spark 生产环境,更快。

      大规模 AI/机器学习

      使用无服务器 Spark 加快大规模模型训练和批量推理的速度。只需一条命令,即可挂接预配置了库的 NVIDIA GPU。

      幻灯片

        大规模 AI/机器学习

        使用无服务器 Spark 加快大规模模型训练和批量推理的速度。只需一条命令,即可挂接预配置了库的 NVIDIA GPU。

        幻灯片

          价格

          以价值为导向的透明定价Serverless for Apache Spark 的定价基于计算 (DCU)、GPU 以及 shuffle 存储的按秒用量。
          服务和用量订阅类型 价格 (USD)

          数据计算单元 (DCU)

          标准

          起价

          $0.06

          (每小时)

          高级

          起价

          $0.089

          (每小时)

          Shuffle 存储

          标准

          起价

          $0.04

          每月每 GB

          高级

          起价

          $0.1

          每月每 GB

          加速器价格

          a100 40 GB

          起价

          $3.52069

          (每小时)

          a100 80 GB

          起价

          $4.713696

          (每小时)

          L4

          起价

          $0.672048

          (每小时)

          以价值为导向的透明定价

          Serverless for Apache Spark 的定价基于计算 (DCU)、GPU 以及 shuffle 存储的按秒用量。

          数据计算单元 (DCU)

          订阅类型

          标准

          价格 (USD)

          Starting at

          $0.06

          (每小时)

          高级

          订阅类型

          Starting at

          $0.089

          (每小时)

          Shuffle 存储

          订阅类型

          标准

          价格 (USD)

          Starting at

          $0.04

          每月每 GB

          高级

          订阅类型

          Starting at

          $0.1

          每月每 GB

          加速器价格

          订阅类型

          a100 40 GB

          价格 (USD)

          Starting at

          $3.52069

          (每小时)

          a100 80 GB

          订阅类型

          Starting at

          $4.713696

          (每小时)

          L4

          订阅类型

          Starting at

          $0.672048

          (每小时)

          价格计算器

          按区域计算您的每月费用。

          定制报价

          请与我们的销售团队联系,获取为贵组织量身定制的报价。

          立即开始使用

          入门教程

          有一个大型项目?

          产品文档

          将 BigQuery 连接器与 Serverless for Apache Spark 搭配使用

          将 GPU 与 Serverless for Apache Spark 搭配使用

          业务用例

          构建 Google Cloud Serverless for Apache Spark 的业务用例


          与其他解决方案相比,Google Cloud Dataproc 与 Serverless for Apache Spark 的经济优势

          了解与本地解决方案和其他云解决方案相比,Serverless for Apache Spark 如何显著节省总拥有成本并创造业务价值。

          在此报告中:

          了解与其他基于云的 Spark 替代方案相比,Dataproc 和 Serverless for Apache Spark 如何节省 18% 至 60% 的费用。

          了解 Google Cloud Serverless for Apache Spark 如何提供比其他无服务器 Spark 产品高出 21% 到 55% 的性价比。

          了解 Dataproc 和 Google Cloud Serverless for Apache Spark 如何简化 Spark 部署并帮助降低运维复杂性。

          常见问题解答

          我应该选择 Serverless for Apache Spark 还是 Dataproc?

          如果您想专注于代码并消除所有基础设施管理工作,请选择 Serverless for Apache Spark。它非常适合新的 Spark 流水线、交互式分析以及需求不可预测的作业,在这些场景中,速度和简易性是首要考虑因素。

          查看我们的决策指南

          高级层级专为 AI/机器学习而设计,附带预配置的机器学习运行时,其中内置了 PyTorch、XGBoost 和 scikit-learn 等常用库。这免除了复杂的设置,您可以在几分钟内开始处理数据科学工作负载。

          了解 GPU 工作负载和运行时

          如需获得最佳性能,您可以选择由 Lightning Engine 提供支持的优质层级。价格基于“用多少付多少”模式,您只需按秒为作业的执行时长付费。这种方法非常经济高效,因为它消除了空闲集群的成本。

          查看详细价格