Dataproc 无服务器价格
Dataproc Serverless for Spark 价格基于 Data Compute 数量 单元 (DCU)、使用的加速器数量和 shuffle 存储量 。DCU、加速器和 Shuffle 存储按秒计费, DCU 和 Shuffle 存储最低按 1 分钟计费,最低按 5 分钟计费 加速器的费用。
每个 Dataproc vCPU 计为 0.6 个 DCU。RAM 的计费方式有所不同 8GB 以下。每个 vCPU 每 GB 低于 8G 的每 GB RAM 计为 0.1 DCU,每个 vCPU 超过 8G 的每 GB RAM 计为 0.2 DCU。 系统会计入 Spark 驱动程序和执行器的内存用量以及系统内存用量 DCU 用量。
默认情况下,每个 Dataproc Serverless for Spark 批处理和交互式工作负载 在工作负载期间至少使用 12 个 DCU: 使用 4 个 vCPU 和 16GB RAM,并消耗 4 个 DCU 和 2 个执行器 使用 4 个 vCPU 和 16GB RAM,并消耗 4 个 DCU。你可以自定义 指定 vCPU 数量和每个 vCPU 的内存量 Spark 属性。 您无需额外支付 Compute Engine 虚拟机或 Persistent Disk 费用。
数据计算单元 (DCU) 价格
下面显示的 DCU 费率是小时费率。该费用按比例计算,按
起步价为 1 分钟。
Dataproc Serverless for Spark 交互式工作负载按高级方案收费。
Shuffle 存储价格
下方显示的 Shuffle 存储费率是按月费率。该数据是按比例计算的 按秒计费,标准 Shuffle 存储最低按 1 分钟计费 加购 Premium Shuffle 存储费用最低 5 分钟。付费随机播放 存储空间只能与高级计算单元搭配使用。
加速器价格
下面显示的加速器速率是每小时费率。该费用按比例计算,按
起步价为 5 分钟。
价格示例
如果使用 12 个 DCU 运行 Dataproc Serverless for Spark 批量工作负载
(spark.driver.cores=4
、spark.executor.cores=4
、spark.executor.instances=2
)
并在 us-central1 区域中访问了 24 小时,并会消耗 25GB 的 Shuffle 存储空间,
价格的计算方式如下。
Total compute cost = 12 * 24 * $0.060000 = $17.28 Total storage cost = 25 * ($0.040/301) = $0.03 ------------------------------------------------ Total cost = $17.28 + $0.03 = $17.31
注意:
- 该示例假设一个月为 30 天。由于批量工作负载的时长为 则每月 Shuffle 存储速率除以 30。
如果使用 12 个 DCU 和 2 个 DCU 运行 Dataproc Serverless for Spark 批量工作负载
L4 GPU(spark.driver.cores=4
、spark.executor.cores=4
、
spark.executor.instances=2
,spark.dataproc.driver.compute.tier=premium
,
spark.dataproc.executor.compute.tier=premium
,
spark.dataproc.executor.disk.tier=premium
,
spark.dataproc.executor.resource.accelerator.type=l4
) 24 小时,
us-central1 区域,并消耗 25GB 的 Shuffle 存储空间,
如下所示。
Total compute cost = 12 * 24 * $0.089000 = $25.632 Total storage cost = 25 * ($0.1/301) = $0.083 Total accelerator cost = 2 * 24 * $0.6720 = $48.39 ------------------------------------------------ Total cost = $25.632 + $0.083 + $48.39 = $74.105
注意:
- 该示例假设一个月为 30 天。由于批量工作负载的时长为 则每月 Shuffle 存储速率除以 30。
如果使用 12 个 DCU 运行 Dataproc Serverless for Spark 交互式工作负载
(spark.driver.cores=4
、spark.executor.cores=4
、spark.executor.instances=2
)
并在 us-central1 区域中访问了 24 小时,并会消耗 25GB 的 Shuffle 存储空间,
价格的计算公式如下:
Total compute cost = 12 * 24 * $0.089000 = $25.632 Total storage cost = 25 * ($0.040/301) = $0.03 ------------------------------------------------ Total cost = $25.632 + $0.03 = $25.662
注意:
- 该示例假设一个月为 30 天。由于批量工作负载的时长为 则每月 Shuffle 存储速率除以 30。
价格估算示例
当批量工作负载完成后,Dataproc Serverless for Spark 将计算
UsageMetrics,
其中包含 DCU、加速器和 shuffle 总大小的近似值
已完成的工作负载所使用的存储空间资源。运行工作负载后
您可以运行 gcloud dataproc batches describe BATCH_ID
命令来查看工作负载用量指标,帮助您估算
工作负载
示例:
Dataproc Serverless for Spark 在临时集群上运行工作负载,
一个主实例和两个工作器每个节点使用 4 个 DCU(默认为每个节点使用 4 个 DCU)
核心 - 请参阅 spark.dataproc.driver.disk.size
)
和 400 GB Shuffle 存储空间
(默认为每个核心 100 GB,请参阅
spark.driver.cores
)。
工作负载运行时间为 60 秒。此外,每个工作器总共有 1 个 GPU
为 2。
用户运行 gcloud dataproc batches describe BATCH_ID --region REGION
来获取用量指标命令输出包括以下代码段
(milliDcuSeconds
:4 DCUs x 3 VMs x 60 seconds x 1000
=
720000
,milliAcceleratorSeconds
:1 GPU x 2 VMs x 60 seconds x 1000
=
120000
和 shuffleStorageGbSeconds
:400GB x 3 VMs x 60 seconds
= 72000
):
runtimeInfo: approximateUsage: milliDcuSeconds: '720000' shuffleStorageGbSeconds: '72000' milliAcceleratorSeconds: '120000'
使用其他 Google Cloud 资源
您的 Dataproc Serverless for Spark 工作负载可以选择使用 以下资源(均按各自的价格收费),包括但不限于:
后续步骤
- 阅读 Dataproc 无服务器文档。
- 开始使用 Dataproc 无服务器。
- 试用价格计算器。