2025 年 5 月发布:Dataproc Serverless 现已成为 Google Cloud Serverless for Apache Spark

在可自定义的零运维平台上运行 Apache Spark 作业更轻松,借助 Gemini 更智能,凭借 Lightning Engine 的性能更快速。
Apache Spark 是 Apache Software Foundation 的商标。
功能
使用我们的新一代矢量化引擎 Lightning Engine,大幅提升作业效率。自动为 Serverless for Apache Spark 工作负载带来超过 4.3 倍的性能提升,并降低总体拥有成本 (TCO)。
加速整个工作流程。在 BigQuery Studio 中使用 Gemini Code Assist 编写和调试 PySpark、Scala 和 Java 代码,并使用预配置的 ML 运行时启动 GPU 加速环境。
消除上下文切换。在 BigQuery Studio 等单一环境中开发和运行工作负载,在同一笔记本中无缝融合强大的 SQL 和灵活的 PySpark。
两种性能级别
| 两种性能级别 | 提供多种层级,可满足从标准批处理到最严苛、对性能要求极高的作业等各种特定需求。 |
|---|---|
| 层级 | 适用场景 |
标准 | 非常适合经济高效的批处理、数据转换和通用 Spark 作业。
|
高级 | 面向要求最严苛的工作负载,可提供 Lightning Engine、AI/机器学习加速和交互功能,从而实现最佳性能。
|
两种性能级别
提供多种层级,可满足从标准批处理到最严苛、对性能要求极高的作业等各种特定需求。
标准
非常适合经济高效的批处理、数据转换和通用 Spark 作业。
高级
面向要求最严苛的工作负载,可提供 Lightning Engine、AI/机器学习加速和交互功能,从而实现最佳性能。
常见用途
交互式数据科学
让数据科学家能够探索数据并快速迭代 Spark ML 模型。在单个 BigQuery Studio 笔记本中统一 SQL 和 Spark,从使用 SQL 进行数据探索无缝过渡到使用 PySpark 构建模型,而无需管理基础设施。
交互式数据科学
让数据科学家能够探索数据并快速迭代 Spark ML 模型。在单个 BigQuery Studio 笔记本中统一 SQL 和 Spark,从使用 SQL 进行数据探索无缝过渡到使用 PySpark 构建模型,而无需管理基础设施。
价格
| 以价值为导向的透明定价 | Serverless for Apache Spark 的定价基于计算 (DCU)、GPU 以及 shuffle 存储的按秒用量。 | |
|---|---|---|
| 服务和用量 | 订阅类型 | 价格 (USD) |
数据计算单元 (DCU) | 标准 | 起价 $0.06 (每小时) |
高级 | 起价 $0.089 (每小时) | |
Shuffle 存储 | 标准 | 起价 $0.04 每月每 GB |
高级 | 起价 $0.1 每月每 GB | |
加速器价格 | a100 40 GB | 起价 $3.52069 (每小时) |
a100 80 GB | 起价 $4.713696 (每小时) | |
L4 | 起价 $0.672048 (每小时) | |
以价值为导向的透明定价
Serverless for Apache Spark 的定价基于计算 (DCU)、GPU 以及 shuffle 存储的按秒用量。
数据计算单元 (DCU)
标准
Starting at
$0.06
(每小时)
高级
Starting at
$0.089
(每小时)
Shuffle 存储
标准
Starting at
$0.04
每月每 GB
高级
Starting at
$0.1
每月每 GB
加速器价格
a100 40 GB
Starting at
$3.52069
(每小时)
a100 80 GB
Starting at
$4.713696
(每小时)
L4
Starting at
$0.672048
(每小时)
业务用例
构建 Google Cloud Serverless for Apache Spark 的业务用例
与其他解决方案相比,Google Cloud Dataproc 与 Serverless for Apache Spark 的经济优势
了解与本地解决方案和其他云解决方案相比,Serverless for Apache Spark 如何显著节省总拥有成本并创造业务价值。
在此报告中:
了解与其他基于云的 Spark 替代方案相比,Dataproc 和 Serverless for Apache Spark 如何节省 18% 至 60% 的费用。
了解 Google Cloud Serverless for Apache Spark 如何提供比其他无服务器 Spark 产品高出 21% 到 55% 的性价比。
了解 Dataproc 和 Google Cloud Serverless for Apache Spark 如何简化 Spark 部署并帮助降低运维复杂性。
常见问题解答
如果您想专注于代码并消除所有基础设施管理工作,请选择 Serverless for Apache Spark。它非常适合新的 Spark 流水线、交互式分析以及需求不可预测的作业,在这些场景中,速度和简易性是首要考虑因素。
高级层级专为 AI/机器学习而设计,附带预配置的机器学习运行时,其中内置了 PyTorch、XGBoost 和 scikit-learn 等常用库。这免除了复杂的设置,您可以在几分钟内开始处理数据科学工作负载。
如需获得最佳性能,您可以选择由 Lightning Engine 提供支持的优质层级。价格基于“用多少付多少”模式,您只需按秒为作业的执行时长付费。这种方法非常经济高效,因为它消除了空闲集群的成本。