Dataflow 价格

本页面介绍了 Dataflow 的价格。如需查看其他产品的价格,请参阅价格文档

价格概览

虽然费率按小时计算,但 Dataflow 服务的用量却是以为单位,且每个作业分开计算。为了便于将按秒计算的用量转换为以小时结算,我们会以小时来表示用量(例如 30 分钟表示为 0.5 小时)。工作器和作业消耗资源的方式详见以下部分所述。

工作器和工作器资源

每个 Dataflow 作业至少使用一个 Dataflow 工作器。Dataflow 服务提供两种工作器类型:批量处理和流式处理。批量处理和流式处理工作器的服务费用分别收取。

Dataflow 工作器会使用以下资源,每项资源都按秒计费。

批量处理和流式处理工作器都是使用 Compute Engine 的特殊资源。不过,Dataflow 作业不会因为使用 Dataflow 服务管理的 Compute Engine 资源而产生 Compute Engine 使用费。Dataflow 服务费用将包含这些 Compute Engine 资源的使用费。

您可以替换作业的默认工作器数量。如果您使用自动扩缩,还可以指定可分配给某个作业的最大工作器数量。系统将根据自动扩缩激发机制,自动添加和移除工作器及相关资源。

此外,您可以使用流水线选项来替换分配给每个工作器的默认资源设置(机器类型、磁盘类型和磁盘大小),并使用 GPU。

Dataflow 服务

Dataflow Shuffle 操作能够以可扩缩、高效且可容错的方式,按键值对数据进行分区和分组。默认情况下,Dataflow 使用的重排操作完全是在工作器虚拟机上运行,此操作会使用工作器 CPU、内存和 Persistent Disk 存储空间等资源。

Dataflow 另外还提供了一个扩缩能力极强的可选功能:Dataflow Shuffle。此功能仅可用于批量处理流水线,并且会在工作器外部对数据进行重排。Shuffle 按照处理的数据量收取费用。您可以通过指定 Shuffle 流水线参数,指示 Dataflow 使用 Shuffle。

与 Shuffle 类似,Dataflow Streaming Engine 将流式数据重排和状态处理从工作器虚拟机移到 Dataflow 服务后端进行。您可以通过指定 Streaming Engine 流水线参数,指示 Dataflow 将 Streaming Engine 用于流式处理流水线。Streaming Engine 的使用按处理的流式数据量计费,这取决于提取到流式处理流水线中的数据量以及流水线暂存区的复杂性和数量。将计入处理数据量的数据包括:来自数据源的输入数据流、从一个融合流水线暂存区流入另一个融合暂存区的数据流、始终维持用户定义状态的数据流或用于窗口化的数据流,以及向数据接收器(比如 Pub/Sub 或 BigQuery)发送的输出消息。

Dataflow 还为批量处理提供了 CPU 和内存折扣价格选项。Flexible Resource Scheduling (FlexRS) 在单个 Dataflow 工作器池中结合使用常规和抢占式虚拟机,让用户可以使用更便宜的处理资源。FlexRS 还会在 6 小时的窗口期内推迟执行 Dataflow 批量处理作业,以根据可用资源确定启动作业的最佳时间点。虽然 Dataflow 使用一组工作器执行 FlexRS 作业,但您只需按一个统一折扣价付费(与 Dataflow 常规价格相比),而无需考虑工作器类型。您可以通过指定 FlexRS 参数,指示 Dataflow 对自动扩缩的批量处理流水线使用 FlexRS。

为了帮助您管理流式传输流水线的可靠性,Dataflow 快照允许您保存和恢复流水线状态。快照使用量按存储的数据量计费,具体取决于提取到流式传输流水线中的数据量、数据选取逻辑以及流水线暂存的数量。您可以使用 Dataflow 网络界面或 gcloud 命令行工具,获取流式传输作业的快照。使用快照创建作业来恢复流水线状态不会产生额外费用。如需了解详情,请参阅使用 Dataflow 快照

Dataflow Prime

Dataflow Prime 是一个基于 Dataflow 构建的全新数据处理平台,可改进资源利用率和分布式诊断结果。

运行 Dataflow Prime 的作业按作业使用的 Dataflow 处理单元 (DPU) 数量计费。DPU 表示为运行流水线而分配的计算资源。

什么是 Dataflow 处理单元?

Dataflow 处理单元 (DPU) 是一种 Dataflow 用量计量单元,用于跟踪您的作业消耗的资源量。DPU 会跟踪各种资源的用量,包括计算、内存、磁盘存储、重排的数据(对于批量作业)和处理的流式数据(对于流式作业)。与消耗较少资源的作业相比,消耗更多资源的作业可以看到更多的 DPU 使用量。虽然您的作业使用的各种资源与 DPU 之间没有一对一的映射,但 1 DPU 相当于在 1 vCPU 4 GB 工作器和 250 GB 永久磁盘上运行一小时的 Dataflow 作业所使用的资源。

如何优化作业使用的 Dataflow 处理单元数量?

您无法设置作业的 DPU 数量;DPU 由 Dataflow Prime 计数。不过,您可以通过专注于作业的以下几个方面来减少 DPU 的使用量:

  • 减少内存消耗。
  • 使用过滤条件、组合器和高效编码器,减少在重排步骤中处理的数据量。

您可以使用 Dataflow 监控界面执行详情界面来确定这些优化。

Dataflow 处理单元如何计费?

系统会按小时计算您的作业在给定小时内使用的 DPU 总数。单个 DPU 的价格因作业类型(批量或流式)而异。

如何限制作业消耗的 Dataflow 处理单元数量?

您的作业可以使用的 DPU 总数受作业可以使用的资源数量上限的限制。您还可以为作业设置工作器数量上限,从而限制作业可以使用的 DPU 数量。

Dataflow Prime 价格与 Dataflow 价格模式有何不同?

在 Dataflow 模型中,您需要为作业消耗的不同资源付费,包括 vCPU、内存、存储空间以及 Dataflow Shuffle 或 Streaming Engine 处理的数据量。

Dataflow 处理单元会将这些资源整合到一个计量单元中。然后,您可以根据作业类型(批量或流式)为使用的 DPU 数量付费。将 DPU 与物理资源分离后,可以更轻松地比较作业的费用和随时间的跟踪 Dataflow 使用情况。如需了解详情,请参阅使用 Dataflow Prime

使用 Dataflow 定价模式的现有作业会怎样?

您现有的批量作业和流处理作业将继续由 Dataflow 模型计费。当您将作业更新为使用 Dataflow Prime 时,需要为它们使用的 DPU 付费。

其他作业资源

除了工作器资源用量外,作业还可能使用以下资源(均按各自的价格收费),包括但不限于:

价格详情

Dataflow 今后的版本可能采用不同的服务收费和/或提供不同的相关服务套装。

如需详细了解可用的地区及其区域,请参阅 Compute Engine 地区和区域页面。

工作器资源价格

其他资源价格

对于流式插入、批处理和 FlexRS 作业,这些资源按相同费率计费。

1 批量处理工作器默认配置:1 个 vCPU、3.75 GB 内存、250 GB Persistent Disk

2 FlexRS 工作器默认配置:2 个 vCPU、7.50 GB 内存、每个工作器 25 GB Persistent Disk,最少两个工作器

3 流式处理工作器默认配置:4 个 vCPU、15 GB 内存、400 GB Persistent Disk

4 此功能适用于支持 Dataflow 的所有区域。如要查看可用位置,请参阅 Dataflow 位置

Dataflow Shuffle 价格根据用量调整幅度(应用到在数据集重排过程中执行读写操作期间处理的数据量)计算。如需了解详情,请参阅 Dataflow Shuffle 价格详情

5 此功能适用于支持 Dataflow 的所有区域。如要查看可用位置,请参阅 Dataflow 位置

Dataflow Shuffle 价格详情

费用按 Dataflow 作业计算,以用量调整幅度为基础(应用到在 Dataflow Shuffle 操作期间处理的数据总量)。处理的 Dataflow Shuffle 数据的实际帐单费用等于调整后数据量(小于 Dataflow 作业处理的实际数据量)的全价费用。这种差异会导致 Dataflow Shuffle 计费数据量指标小于 Dataflow Shuffle 总数据量指标。

下表说明了系统如何进行此类调整:

某个作业处理的数据量 结算调整幅度
前 250 GB 缩减 75%
后续的 4870 GB 缩减 50%
超过 5120 GB (5 TB) 的部分

例如,如果您的流水线总共处理了 1024 GB (1 TB) 的 Dataflow Shuffle 数据,则计费数额的计算方式如下:250 GB * 25% + 774 GB * 50% = 449.5 GB * 地区 Dataflow Shuffle 数据处理速率。如果您的流水线总共处理了 10240 GB (10 TB) 的 Dataflow Shuffle 数据,则计费的数据量如下:250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB。

快照价格

Dataflow 快照将在正式版推出后在其他区域提供。

查看用量

您可以通过 Google Cloud Consolegcloud 命令行工具查看特定作业使用的 vCPU、内存和 Persistent Disk 资源总量。您可以在 Dataflow 监控界面上跟踪实际的和计费的已处理 Shuffle 数据量和流式数据量指标。您可以使用实际的已处理 Shuffle 数据量评估流水线的性能,使用计费的已处理 Shuffle 数据量确定该项 Dataflow 作业的费用。对于已处理流式数据量,实际数据量和计费数据量指标相同。

价格计算器

使用 Google Cloud 价格计算器来帮助了解帐单的计算方式。

后续步骤

申请自定义报价

Google Cloud 采用随用随付的价格结构,您只需为实际使用的服务付费。请与我们的销售团队联系,获取为贵组织量身定制的报价。
与销售人员联系