Dataflow 价格

本页面介绍了 Dataflow 的价格。如需查看其他产品的价格，请参阅价格文档。

如需了解如何通过承诺使用 3 年节省 40% 的费用，或通过承诺使用 1 年节省 20% 的费用，请查看我们的承诺使用折扣 (CUD)页面。

概览

您需要为作业使用的资源支付 Dataflow 用量相关的费用。根据您使用的定价模式，资源的计量和结算方式会有所不同。

Dataflow 计算资源	Dataflow Prime 计算资源
工作器 vCPU 和内存（批量、流式和 FlexRS）处理的 Dataflow Shuffle 数据（批量和 FlexRS） Streaming Engine 计算单元或旧版 Streaming Engine 处理的数据量（仅限流式处理）	数据计算单元 (DCU) （批量模式和流式模式）

Dataflow 计算资源

Dataflow Prime 计算资源

工作器 vCPU 和内存（批量、流式和 FlexRS）
处理的 Dataflow Shuffle 数据（批量和 FlexRS）
Streaming Engine 计算单元或旧版 Streaming Engine 处理的数据量（仅限流式处理）

数据计算单元 (DCU)

（批量模式和流式模式）

为所有作业计费的其他 Dataflow 资源包括 Persistent Disk、GPU 和快照。

Dataflow 作业可能会使用其他服务中的资源。与 Dataflow 搭配使用的服务可能包括 BigQuery、Pub/Sub、Cloud Storage 和 Cloud Logging 等。

虽然费率按小时计算，但 Dataflow 的用量却是以秒为单位，且每个作业分开计算。用量在结算时会折算为小时数，以便对按秒计算的用量应用小时定价。例如，30 分钟折算为 0.5 小时。工作器和作业可能会通过以下部分所述的方式消耗资源。

Dataflow 今后的版本可能采用不同的服务收费或提供不同的相关服务套装。

Dataflow 计算资源

Dataflow 计算资源的结算包括以下几个方面：

如需详细了解可用的区域及其可用区，请参阅 Compute Engine 区域和可用区页面。

工作器 vCPU 和内存

每个 Dataflow 作业至少使用一个 Dataflow 工作器。Dataflow 服务提供两种工作器类型：批量处理和流式处理。批量处理工作器和流式处理工作器的服务费用分别收取。

Dataflow 工作器会使用以下资源，每项资源都按秒计费：

vCPU
内存

批量处理和流式处理工作器都是使用 Compute Engine 的特殊资源。不过，Dataflow 作业不会为由 Dataflow 服务管理的 Compute Engine 资源发布 Compute Engine 账单。Dataflow 服务费用将包含这些 Compute Engine 资源的使用费。

您可以替换作业的默认工作器数量。如果您使用自动扩缩，可以指定可分配给某个作业的工作器数量上限。系统将根据自动扩缩激发机制，自动添加和移除工作器及相关资源。

此外，您还可以使用流水线选项来替换分配给每个工作器并使用 GPU 的默认资源设置，例如机器类型、磁盘类型和磁盘大小。

FlexRS

Dataflow 还为批处理提供了 vCPU 和内存折扣价格选项。Flexible Resource Scheduling (FlexRS) 将常规虚拟机和抢占式虚拟机组合到单个 Dataflow 工作器池中，让用户可以使用更便宜的处理资源。FlexRS 还会在 6 小时的窗口期内推迟执行 Dataflow 批量作业，以根据可用资源确定启动作业的最佳时间点。

虽然 Dataflow 使用不同工作器的组合执行 FlexRS 作业，但无论工作器类型如何，您只需按一个统一折扣价付费，与 Dataflow 常规价格相比，vCPU 和内存费用大约可节省 40%。您可以通过指定 FlexRS 参数，指示 Dataflow 对自动扩缩的批量流水线使用 FlexRS。

处理的 Dataflow Shuffle 数据

对于批处理流水线，Dataflow 提供了一项扩缩能力极强的功能：Dataflow Shuffle，可在工作器之外对数据进行重排。如需了解详情，请参阅 Dataflow Shuffle。

Dataflow Shuffle 费用按 shuffle 期间处理的数据量计算。

Streaming Engine 价格

对于流处理流水线，Dataflow Streaming Engine 会将流式数据重排和状态处理从工作器虚拟机移到 Dataflow 服务后端进行。如需了解详情，请参阅 Streaming Engine。

Streaming Engine 计算单元

使用基于资源的结算模式时，Streaming Engine 资源按 Streaming Engine 计算单元来衡量。Dataflow 会计量每个作业使用的 Streaming Engine 资源，然后根据该作业使用的总资源量进行结算。如需为作业启用基于资源的结算模式，请参阅使用基于资源的结算模式。使用基于资源的结算模式时，系统会自动应用现有折扣。

当您将 Dataflow Prime 与基于资源的结算模式搭配使用时，系统会根据每个作业使用的总资源量向您收费，但使用的是数据计算单元 (DCU) SKU，而不是 Streaming Engine 计算单元 SKU。

处理的 Streaming Engine 数据（旧版）

Dataflow 将继续支持按处理的数据量结算的旧版结算方式。除非您启用基于资源的结算，否则作业将按处理的数据量结算。

Streaming Engine 数据处理费用按处理的流式数据量计费，具体取决于以下因素：

提取到流式传输流水线中的数据量
流水线的复杂性
包含 shuffle 操作或有状态 DoFn 的流水线阶段数

以下是处理的字节的示例：

输入来自数据源的流
数据从一个融合流水线阶段流向另一个融合阶段
在用户定义的状态中保留或用于窗口处理的数据流
将消息输出到数据接收器，例如 Pub/Sub 或 BigQuery

Dataflow 计算资源

Dataflow 计算资源价格 - 批量处理

下表包含 Batch 的工作器资源和 Shuffle 数据处理的价格详情。

作业类型	默认（美元）
vCPU	US$0.056 / 1 hour
内存	US$0.003557 / 1 gibibyte hour
shuffle 期间处理的数据	US$0.011 / 1 gibibyte

批处理工作器默认配置：1 个 vCPU、3.75 GB 内存、250 GB 永久性磁盘（如果未使用 Dataflow Shuffle），25 GB 永久性磁盘（如果使用 Dataflow Shuffle）

Dataflow 计算资源价格 - FlexRS

下表包含 FlexRS 作业的工作器资源和 Shuffle 数据处理的价格详情。

资源	默认（美元）
vCPU	US$0.0336 / 1 hour
内存	US$0.0021342 / 1 gibibyte hour
shuffle 期间处理的数据	US$0.011 / 1 gibibyte

FlexRS 工作器默认配置：2 个 vCPU、7.50 GB 内存、每个工作器 25 GB 永久性磁盘（最少两个工作器）

Dataflow 计算资源价格 - 流式处理

下表包含工作器资源、Streaming Engine 处理的数据（旧版）和 Streaming Engine 计算单元的流式作业价格详情。

显示折扣选项

资源	Default^* (USD)	Dataflow CUD - 1 Year^* (USD)	Dataflow CUD - 3 Year^* (USD)
vCPU	US$0.069 / 1 hour	US$0.0552 / 1 hour	US$0.0414 / 1 hour
内存	US$0.003557 / 1 gibibyte hour	US$0.0028456 / 1 gibibyte hour	US$0.0021342 / 1 gibibyte hour
shuffle 期间处理的数据	US$0.018 / 1 gibibyte	US$0.0144 / 1 gibibyte	US$0.0108 / 1 gibibyte
Streaming Engine	US$0.089 / 1 count	US$0.0712 / 1 count	US$0.0534 / 1 count

^* 每种消费模式都具有唯一 ID。您可能需要选择加入，才能享受消费模式折扣。点击此处了解详情。

如果您使用非美元货币付费，请参阅 Cloud Platform SKU 上以您的币种列出的价格。

³流式处理工作器默认配置：4 个 vCPU、15 GB 内存、400 GB Persistent Disk（如果未使用 Streaming Engine），30 GB Persistent Disk（如果使用了 Streaming Engine）。在运行流处理作业时，Dataflow 服务目前仅支持每个工作器实例 15 个永久性磁盘。最低资源配额是工作器数量与磁盘数量之比为 1:1。

⁴Dataflow Shuffle 价格根据用量调整幅度（应用到在数据集重排过程中执行读写操作期间处理的数据量）计算。如需了解详情，请参阅 Dataflow Shuffle 价格详情。Dataflow Shuffle 价格不适用于使用基于资源的结算模式的 Streaming Engine 作业。

⁵Streaming Engine 计算单元：适用于使用 Streaming Engine 和基于资源的结算模式的流式作业。这些作业不会针对 shuffle 期间处理的数据收费。

Dataflow Shuffle 处理的数据的用量调整幅度

费用按 Dataflow 作业计算，以用量调整幅度为基础（应用到在 Dataflow Shuffle 操作期间处理的数据总量）。处理的 Dataflow Shuffle 数据的实际账单费用等于调整后数据量（小于 Dataflow 作业处理的实际数据量）的全价费用。这种差异会导致可计费的 Shuffle 处理数据量指标小于总 Shuffle 处理数据量指标。

下表说明了系统如何进行此类调整：

处理的 Dataflow Shuffle 数据	账单调整项
前 250 GiB	缩减 75%
后续的 4870 GiB	缩减 50%
超过 5120 GiB (5 TiB) 的部分	无

例如，如果您的流水线总共处理了 1024 GiB (1 TiB) 的 Dataflow Shuffle 数据，则计费数额的计算方式如下：

250 GiB * 25% + 774 GiB * 50% = 449.5 GiB * 地区 Dataflow Shuffle 数据处理速率

如果您的流水线总共处理了 10240 GiB (10 TiB) 的 Dataflow Shuffle 数据，则计费的数据量如下：

250 GiB * 25% + 4870 GiB * 50% + 5120 GiB = 7617.5 GiB

Dataflow Prime 计算资源价格

Dataflow Prime 是一个基于 Dataflow 构建的数据处理平台，可改进资源利用率和分布式诊断结果。

Dataflow Prime 作业使用的计算资源按数据计算单元 (DCU) 的数量计费。DCU 表示为运行流水线而分配的计算资源。Dataflow Prime 作业使用的其他 Dataflow 资源（例如 Persistent Disk、GPU 和快照）将单独收费。

如需详细了解可用的区域及其可用区，请参阅 Compute Engine 区域和可用区页面。

数据计算单元

数据计算单元 (DCU) 是一种 Dataflow 用量计量单元，用于跟踪您的作业消耗的计算资源量。DCU 跟踪的资源包括 vCPU、内存、处理的 Dataflow Shuffle 数据（对于批处理作业）和处理的 Streaming Engine 数据（对于流式作业）。与消耗较少资源的作业相比，消耗更多资源的作业可以看到更多的 DCU 使用量。一个 DCU 相当于在 1 vCPU 4GB 工作器上运行一小时的 Dataflow 作业所使用的资源。

数据计算单元结算

您需要为作业消耗的 DCU 总数付费。单个 DCU 的价格因作业类型（批量作业或流式作业）而异。当您将 Dataflow Prime 与基于资源的结算模式搭配使用时，系统会根据使用的总资源量结算费用，而不是根据处理的字节数结算。

显示折扣选项

作业类型	Default^* (USD)	Dataflow CUD - 1 Year^* (USD)	Dataflow CUD - 3 Year^* (USD)
批量	US$0.06 / 1 count	-	-
在线播放	US$0.089 / 1 count	US$0.0712 / 1 count	US$0.0534 / 1 count

^* 每种消费模式都具有唯一 ID。您可能需要选择加入，才能享受消费模式折扣。点击此处了解详情。

如果您使用非美元货币付费，请参阅 Cloud Platform SKU 上以您的币种列出的价格。

优化数据计算单元的使用

您无法设置作业的 DCU 数量。DCU 由 Dataflow Prime 计数。不过，您可以通过管理作业的以下几个方面来减少 DCU 的使用量：

减少内存消耗
使用过滤条件、组合器和高效编码器，减少在重排步骤中处理的数据量

如需确定这些优化，请使用 Dataflow 监控界面和执行详情界面。

Dataflow Prime 价格与 Dataflow 价格有何不同？

在 Dataflow 中，您需要为作业消耗的不同资源付费，包括 vCPU、内存、Persistent Disk 以及 Dataflow Shuffle 或 Streaming Engine 处理的数据量。

数据计算单元将除存储空间之外的所有资源整合到一个计量单元中。您需要为永久性磁盘资源付费，并根据服务类型（批量或流式）为使用的 DCU 数量付费。如需了解详情，请参阅使用 Dataflow Prime。

使用 Dataflow 定价模式的现有作业会怎样？

您现有的批量作业和流处理作业将继续使用 Dataflow 模型计费。当您将作业更新为使用 Dataflow Prime 时，作业将使用 Dataflow Prime 定价模式，您需要为永久性磁盘资源和所用的 DCU 付费。

其他 Dataflow 资源

Dataflow 和 Dataflow Prime 的存储空间、GPU、快照和其他资源的计费方式相同。

存储资源价格

对于流式处理、批处理和 FlexRS 作业，存储资源按相同费率计费。您可以使用流水线选项来更改默认磁盘大小或磁盘类型。对于 Hyperdisk Balanced 预配 IOPS 和预配吞吐量（以 MBps 为单位）超出基准值（每月 3,000 IOPS 和 140 MBps 吞吐量）的使用量，您需要按月付费。Dataflow Prime 会根据下表中的价格单独对永久性磁盘计费。

计费项	默认（美元）
存储 - 标准永久性磁盘	US$0.000054 / 1 gibibyte hour
存储 - SSD 永久性磁盘	US$0.000298 / 1 gibibyte hour
存储 - Hyperdisk Balanced 预配空间	US$0.000109589 / 1 gibibyte hour
存储 - Hyperdisk Balanced 预配 IOPS	US$0.000006849 / 1 hour
存储 - Hyperdisk Balanced 预配吞吐量	US$0.000054795 / 1 hour

如果您使用非美元货币付费，请参阅 Cloud Platform SKU 上以您的币种列出的价格。

在运行流处理作业时，Dataflow 服务目前仅支持每个工作器实例 15 个永久性磁盘。每个永久性磁盘是单个 Compute Engine 虚拟机的本地磁盘。最低资源配额是工作器数量与磁盘数量之比为 1:1。

使用 Streaming Engine 的作业使用 30 GB 启动磁盘。使用 Dataflow Shuffle 的作业使用 25 GB 启动磁盘。对于不使用这些产品的作业，每个永久性磁盘的默认大小为 250 GB（对于批处理模式）和 400 GB（对于流处理模式）。

Compute Engine 用量是根据平均工作器数量来计算，而 Persistent Disk 用量则是以 --maxNumWorkers 的确切数量为准。系统会重新分配永久性磁盘，使每个工作器都会挂接相同数量的磁盘。

GPU 资源价格

对于流式作业和批处理作业，GPU 资源按相同费率计费。GPU 工作器还会产生批量作业和流式作业的 vCPU 和内存费用。FlexRS 目前不支持 GPU。如需了解 GPU 的可用区域和可用区，请参阅 Compute Engine 文档中的 GPU 区域和可用区可用性。

计费项	默认（美元）
NVIDIA® Tesla® P100 GPU	US$1.752 / 1 hour
NVIDIA® Tesla® V100 GPU	US$2.976 / 1 hour
NVIDIA® Tesla® T4 GPU	US$0.42 / 1 hour
NVIDIA® Tesla® P4 GPU	US$0.72 / 1 hour
NVIDIA® Tesla® L4 GPU	US$0.672048 / 1 hour
NVIDIA® Tesla® A100 (40 GB) GPU	US$3.72 / 1 hour
NVIDIA® Tesla® A100 (80 GB) GPU	US$4.713696 / 1 hour
NVIDIA ® Tesla ® H100 GPU	US$11.7558607 / 1 hour
NVIDIA ® Tesla ® H100 Mega GPU	US$12.4131309 / 1 hour
NVIDIA ® Tesla ® RTX PRO 6000	US$1.315 / 1 hour

如果您使用非美元货币付费，请参阅 Cloud Platform SKU 上以您的币种列出的价格。

TPU 资源价格

TPU 资源按相同的费率向流式作业和批处理作业收费。由于 Dataflow 的 TPU 价格包含 TPU、vCPU 和内存的费用，因此 TPU 工作器在 Dataflow 中不会产生单独的 vCPU 和内存费用。此外，FlexRS 目前不支持 TPU。如需了解 TPU 的可用区域和可用区，请参阅 Compute Engine 文档中的 TPU 区域和可用区。如需在 Dataflow 中使用 TPU，请与您的客户支持团队联系。

计费项	默认（美元）
TPU V5E	US$1.44 / 1 hour
TPU V5P	US$5.04 / 1 hour
TPU V6E	US$3.24 / 1 hour

GPU/TPU 预留的管理溢价

当您将特定目标 Compute Engine GPU 或 TPU 预留与 Dataflow 搭配使用时，系统会根据 Compute Engine 价格向您收费，包括任何适用的承诺使用折扣 (CUD)。您还需要为 Dataflow 中消耗的计算资源支付管理溢价。如需了解详情，请参阅将 Compute Engine 预留与 Dataflow 搭配使用。

下表列出了在 Dataflow 中使用 Compute Engine GPU 或 TPU 预留时所消耗的计算资源的管理费用。请注意，Dataflow 流式处理承诺使用折扣 (CUD) 仅适用于流式处理作业的 vCPU 和内存管理附加费。

GPU/TPU 预留的管理溢价 - 流式传输

显示折扣选项

资源	Default^* (USD)	Dataflow CUD - 1 Year^* (USD)	Dataflow CUD - 3 Year^* (USD)
vCPU Premium	US$0.0178405 / 1 hour	US$0.0142724 / 1 hour	US$0.0107043 / 1 hour
Memory Premium	US$0.0020901 / 1 gibibyte hour	US$0.00167208 / 1 gibibyte hour	US$0.00125406 / 1 gibibyte hour

^* 每种消费模式都具有唯一 ID。您可能需要选择加入，才能享受消费模式折扣。点击此处了解详情。

GPU/TPU 预留的管理溢价 - 批量、GPU 和 TPU

资源	价格 (USD)
Batch vCPU 高级版	US$0.0111508 / 1 hour
批量内存高级版	US$0.0013063 / 1 gibibyte hour
V100 GPU 高级版	US$0.496 / 1 hour
P100 GPU 高级版	US$0.292 / 1 hour
T4 GPU 高级版	US$0.07 / 1 hour
L4 GPU 高级版	US$0.112008 / 1 hour
RTX PRO 6000 Premium	US$0.219 / 1 hour
A100 40GB GPU 高级版	US$0.5867816 / 1 hour
A100 80GB GPU 高级版	US$0.785616 / 1 hour
H100 GPU 高级版	US$1.9593101 / 1 hour
H100 Mega GPU 高级版	US$2.0688551 / 1 hour
TPU V5E Premium	US$0.24 / 1 hour
TPU V5P 高级版	US$0.84 / 1 hour
TPU V6E Premium	US$0.54 / 1 hour

快照

为了帮助您管理流式传输流水线的可靠性，您可以使用快照来保存和恢复流水线状态。快照使用量按存储的数据量计费，具体取决于以下因素：

提取到流式传输流水线中的数据量
您的窗口逻辑
流水线阶段数

您可以使用 Dataflow 控制台或 Google Cloud CLI，获取流式传输作业的快照。使用快照创建作业来恢复流水线状态不会产生额外费用。如需了解详情，请参阅使用 Dataflow 快照。

快照价格

计费项	默认（美元）
存储	US$0.000205479 / 1 gibibyte hour

如果您使用非美元货币付费，请参阅 Cloud Platform SKU 上以您的币种列出的价格。

机密虚拟机

Dataflow 的机密虚拟机可加密工作器 Compute Engine 虚拟机上的使用中数据。如需了解详情，请参阅机密虚拟机概览。

使用机密虚拟机进行 Dataflow 会产生额外的每 vCPU 和每 GB 固定费用。

机密虚拟机价格

价格是全球统一价格，不会因 Google Cloud 区域不同而出现差异。

计费项	默认（美元）
vCPU	US$0.005479 / 1 hour
内存	US$0.0007342 / 1 gibibyte hour

非 Dataflow 资源

除了 Dataflow 用量外，作业还可能使用以下资源（均按各自的价格计费），包括但不限于：

Cloud Storage - Dataflow 作业在流水线执行期间使用 Cloud Storage 来存储临时文件。为避免支付不必要的存储费用，请为 Dataflow 作业用作临时存储区的存储分区关闭软删除功能。如需了解详情，请参阅从存储分区中移除软删除政策。
Pub/Sub
Datastore
Bigtable
BigQuery
VPC
Cloud Logging - 您可以将日志路由到其他目的地，或从注入中排除日志。如需了解如何优化 Dataflow 作业的日志量，请参阅控制 Dataflow 日志量。

查看资源使用情况

您可以在资源指标下的作业信息面板中查看特定作业使用的 vCPU、内存和永久性磁盘资源总量。您可以在 Dataflow 监控界面中跟踪以下指标：

vCPU 总运行时长
总内存用量时长
永久性磁盘总使用时间
处理的流式传输数据总量
处理的 Shuffle 数据总量
处理的可计费 shuffle 数据

您可以使用已处理 Shuffle 数据总量指标评估流水线的性能，并使用可计费的已处理 Shuffle 数据量指标确定 Dataflow 作业的费用。

对于 Dataflow Prime，您可以在资源指标下的作业信息面板中查看作业消耗的 DCU 总数。

价格计算器

您可以使用 Google Cloud 价格计算器来帮助了解账单费用的计算方式。

如果您使用非美元货币付费，请参阅 Cloud Platform SKU 上以您的币种列出的价格。

后续步骤

获取定制报价

Google Cloud 采用随用随付的价格模式，您只需为实际使用的服务付费。请与我们的销售团队联系，获取为贵组织量身定制的报价。