Dataflow 价格

本页面介绍了 Dataflow 的价格。如需查看其他产品的价格,请参阅价格文档

如需了解如何通过三年承诺节省 40% 的费用,或者通过一年承诺节省 20% 的费用,请参阅我们的承诺使用折扣 (CUD) 页面。

概览

您需要为作业使用的资源支付 Dataflow 用量费用。 资源的计量和计费方式因您使用的价格模式而异。

Dataflow 计算资源 Dataflow Prime 计算资源
数据计算单元 (DCU)
(批量和流式)

针对所有作业计费的其他 Dataflow 资源包括 Persistent Disk、GPU 和快照。

其他服务中的资源可能会用于 Dataflow 作业。与 Dataflow 搭配使用的服务可能包括 BigQuery、Pub/Sub、Cloud Storage 和 Cloud Logging 等。

虽然价格费率按小时计算,但 Dataflow 用量是按增量为每个作业分别计算的。用量以小时为单位,以便为按秒计算的用量应用每小时价格。例如,30 分钟等于 0.5 小时。工作器和作业可能会消耗资源,如以下部分所述。

Dataflow 今后的版本可能采用不同的服务收费标准或相关服务捆绑包。

Dataflow 计算资源

计算资源的 Dataflow 结算包括以下组件:

如需详细了解可用的区域及其可用区,请参阅 Compute Engine 区域和可用区页面。

工作器 CPU 和内存

每个 Dataflow 作业至少使用一个 Dataflow 工作器。Dataflow 服务提供两种工作器类型:批量处理和流式处理。批量处理和流式处理工作器的服务费用分开计算。

Dataflow 工作器会使用以下资源,每项资源都按秒计费:

  • CPU
  • 内存

批量处理和流式处理工作器都是使用 Compute Engine 的特殊资源。不过,Dataflow 作业不会为由 Dataflow 服务管理的 Compute Engine 资源发出 Compute Engine 费用。Dataflow 服务费用涵盖这些 Compute Engine 资源的使用费。

您可以替换作业的默认工作器数量。如果您使用自动扩缩,则可以指定要分配给作业的工作器数量上限。系统会根据自动扩缩执行情况自动添加和移除工作器及相关资源。

此外,您可以使用流水线选项来替换分配给每个工作器并使用 GPU 的默认资源设置,例如机器类型、磁盘类型和磁盘大小。

FlexRS

Dataflow 为批处理提供了 CPU 和内存折扣价格选项。Flexible Resource Scheduling (FlexRS) 在单个 Dataflow 工作器池中结合使用常规和抢占式虚拟机,让用户可以使用更便宜的处理资源。FlexRS 还会在 6 小时的窗口期内延迟执行 Dataflow 批量作业,以根据可用资源确定启动作业的最佳时间点。

虽然 Dataflow 使用一组工作器来执行 FlexRS 作业,但无论工作器类型如何,CPU 和内存费用均按约 40% 的 CPU 和内存费用统一折扣价计费。您可以通过指定 FlexRS 参数,指示 Dataflow 对自动扩缩的批量处理流水线使用 FlexRS。

处理的 Dataflow Shuffle 数据

对于批处理流水线,Dataflow 提供了伸缩能力极强的功能 Dataflow Shuffle,可在工作器之外对数据进行重排。如需了解详情,请参阅 Dataflow Shuffle

Dataflow Shuffle 按 shuffle 期间处理的数据量收费。

Streaming Engine 价格

对于流处理流水线,Dataflow Streaming Engine 将流式 Shuffle 和状态处理从工作器虚拟机移至 Dataflow 服务后端。如需了解详情,请参阅 Streaming Engine

Streaming Engine 计算单元

采用基于资源的结算方式时,Streaming Engine 资源以 Streaming Engine Compute 单元为单位进行计量。Dataflow 会计算每个作业使用的 Streaming Engine 资源,然后根据该作业使用的资源总量计费。 如需为作业启用基于资源的结算,请参阅使用基于资源的结算。当您使用基于资源的结算时,系统会自动应用现有折扣。

当您将 Dataflow Prime 与基于资源的结算方式搭配使用时,系统会根据每个作业使用的总资源向您收取费用,但系统会使用数据计算单元 (DCU) SKU,而不是 Streaming Engine Compute Unit SKU。

处理的 Streaming Engine 数据(旧版)

Dataflow 继续支持旧的数据处理结算方式。除非您启用基于资源的结算,否则作业将采用数据处理结算的方式进行结算。

Streaming Engine 的数据处理结算方式按处理的流式数据量来衡量用量,具体取决于以下因素:

  • 注入到流式流水线的数据量
  • 流水线的复杂性
  • 采用重排操作或有状态 DoFn 的流水线阶段数

以下是计为已处理的字节数的示例:

  • 来自数据源的输入流
  • 从一个融合流水线阶段到另一个融合阶段的数据流
  • 持久保留用户定义的状态或用于窗口化的数据流
  • 将消息输出到数据接收器(例如 Pub/Sub 或 BigQuery)

Dataflow 计算资源价格 - Batch 和 FlexRS

下表包含工作器资源以及为批量作业和 FlexRS 作业处理的 Shuffle 数据的价格详情。

1 批量工作器默认配置:1 个 vCPU、3.75 GB 内存、250 GB 永久性磁盘(如果未使用 Dataflow Shuffle)、25 GB 永久性磁盘(如果使用 Dataflow Shuffle)

2 FlexRS 工作器默认配置:2 个 vCPU、7.50 GB 内存、每个工作器 25 GB Persistent Disk,最少两个工作器

Dataflow 计算资源价格 - 流式处理

下表包含工作器资源、处理的 Streaming Engine 数据(旧版)以及流式作业的 Streaming Engine 计算单元的价格详情。

如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。

3 流处理工作器默认配置:4 个 vCPU、15 GB 内存、400 GB 永久性磁盘(如果未使用 Streaming Engine)或 30 GB 永久性磁盘(如果使用 Streaming Engine)。目前,在运行流处理作业时,Dataflow 服务针对每个工作器实例只能有 15 个永久性磁盘。最低资源配额是工作器数量与磁盘数量之比为 1:1。

4 Dataflow Shuffle 价格取决于对数据集进行读写操作期间处理的数据量调整量。如需了解详情,请参阅 Dataflow Shuffle 价格详情。Dataflow Shuffle 价格不适用于使用按资源计费的 Streaming Engine 作业。

5 Streaming Engine 计算单元:适用于使用 Streaming Engine 和基于资源的结算模式的流式作业。这些作业无需为 shuffle 期间处理的数据付费。

处理的 Dataflow Shuffle 数据量调整

费用按 Dataflow 作业计算,通过调整用量(应用于 Dataflow Shuffle 操作期间处理的数据总量)的方式计算费用。处理的 Dataflow Shuffle 数据的实际账单费用等于调整后数据量(小于 Dataflow 作业处理的实际数据量)的全价费用。这种差异会导致处理的计费 shuffle 数据指标小于处理的总 shuffle 数据指标。

下表说明了系统如何进行此类调整:

处理的 Dataflow Shuffle 数据 结算调整项
前 250 GB 缩减 75%
后续的 4870 GB 缩减 50%
超过 5120 GB (5 TB) 的部分

例如,如果您的流水线总共处理了 1024 GB (1 TB) 的 Dataflow Shuffle 数据,则计费金额按如下方式计算:

250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate

如果您的流水线总共处理了 10240 GB (10 TB) 的 Dataflow Shuffle 数据,则计费数据量如下:

250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB

Dataflow Prime 计算资源价格

Dataflow Prime 是一个基于 Dataflow 构建的数据处理平台,可改进资源利用率和分布式诊断结果。

Dataflow Prime 作业使用的计算资源按数据计算单元 (DCU) 数量计费。DCU 表示为运行流水线而分配的计算资源。Dataflow Prime 作业使用的其他 Dataflow 资源(例如 Persistent Disk、GPU 和快照)单独计费。

如需详细了解可用的区域及其可用区,请参阅 Compute Engine 区域和可用区页面。

数据计算单元

数据计算单元 (DCU) 是一种 Dataflow 用量计量单元,用于跟踪您的作业使用的计算资源数量。DCU 跟踪的资源包括处理的 vCPU、内存、处理的 Dataflow Shuffle 数据(适用于批量作业)和处理的 Streaming Engine 数据(适用于流式作业)。与消耗资源较少的作业相比,消耗更多资源的作业具有更多的 DCU 使用量。一个 DCU 相当于 Dataflow 作业在 1 个 vCPU、4GB 工作器上运行一小时所使用的资源。

数据计算单元结算

您需要为作业消耗的 DCU 总数付费。单个 DCU 的价格取决于您是属于批量作业还是流式作业。当您将 Dataflow Prime 与基于资源的结算方式搭配使用时,我们会按所用资源总量(而非字节进程)向您收费。

如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。

优化数据计算单元用量

您无法设置作业的 DCU 数量。DCU 由 Dataflow Prime 计算。但是,您可以通过管理作业的以下方面来减少使用的 DCU 数量:

  • 减少内存消耗
  • 使用过滤器、组合器和高效的编码器减少重排步骤中处理的数据量

如需确定这些优化措施,请使用 Dataflow 监控界面执行详情界面

Dataflow Prime 价格与 Dataflow 价格有何不同?

在 Dataflow 中,您需要为作业使用的不同资源(例如 vCPU、内存、Persistent Disk,以及 Dataflow Shuffle 或 Streaming Engine 处理的数据量)付费。

数据计算单元将除存储之外的所有资源合并到一个计量单元中。您需要为 Persistent Disk 资源以及所使用的 DCU 数量(基于作业类型、批量或流式)付费。如需了解详情,请参阅使用 Dataflow Prime

使用 Dataflow 价格模式的现有作业会受到什么影响?

您现有的批量作业和流式作业将继续使用 Dataflow 模型计费。当您将作业更新为使用 Dataflow Prime 时,这些作业将采用 Dataflow Prime 定价模式,根据这种定价模式收取 Persistent Disk 资源和消耗的 DCU 费用。

其他 Dataflow 资源

存储空间、GPU、快照和其他资源的计费方式与 Dataflow 和 Dataflow Prime 相同。

存储资源价格

流式处理、批量作业和 FlexRS 作业按相同的费率结算存储资源。您可以使用流水线选项更改默认磁盘大小或磁盘类型。Dataflow Prime 根据下表中的价格单独对 Persistent Disk 收费。

如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。

运行流处理作业时,Dataflow 服务目前只允许为每个工作器实例创建 15 个永久性磁盘。每个永久性磁盘都是单个 Compute Engine 虚拟机的本地磁盘。最小资源配额是工作器和磁盘之间的比例为 1:1。

使用 Streaming Engine 的作业使用 30 GB 启动磁盘。使用 Dataflow Shuffle 的作业使用 25 GB 的启动磁盘。对于不使用这些产品的作业,每个永久性磁盘的默认大小为 250 GB(批处理模式)和 400 GB(流处理模式)。

Compute Engine 用量基于平均工作器数量,而 Persistent Disk 用量则基于 --maxNumWorkers 的确切值。系统会重新分配永久性磁盘,以使每个工作器挂接的磁盘数量相等。

GPU 资源价格

GPU 资源按相同的费率为流式作业和批量作业计费。FlexRS 目前不支持 GPU。如需了解 GPU 的可用区域和可用区,请参阅 Compute Engine 文档中的 GPU 区域和可用区可用性

如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。

快照

为帮助您管理流处理流水线的可靠性,您可以使用快照保存和恢复流水线状态。快照用量按存储的数据量计费,具体取决于以下因素:

  • 注入到流式流水线的数据量
  • 您的窗口逻辑
  • 流水线阶段的数量

您可以使用 Dataflow 控制台或 Google Cloud CLI 截取流式作业的快照。使用快照创建作业来恢复流水线状态不会产生额外费用。如需了解详情,请参阅使用 Dataflow 快照

快照价格

如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。

机密虚拟机

适用于 Dataflow 的机密虚拟机会对工作器 Compute Engine 虚拟机上使用的数据进行加密。如需了解详情,请参阅机密计算概念

为 Dataflow 使用机密虚拟机会产生额外的每 vCPU 和每 GB 固定费用。

机密虚拟机价格

价格为全球价格,不会因 Google Cloud 区域而异。

非 Dataflow 资源

除了 Dataflow 用量之外,作业还可能会使用以下资源(均按各自的价格收费),包括但不限于:

查看资源使用情况

您可以在资源指标下的作业信息面板中查看与作业相关的 vCPU、内存和 Persistent Disk 资源总数。您可以在 Dataflow 监控界面上跟踪以下指标:

  • vCPU 总运行时长
  • 总内存使用时间
  • 永久性磁盘总使用时间
  • 处理的流式传输数据总量
  • 处理的 shuffle 数据总量
  • 处理的计费 shuffle 数据量

您可以使用处理的 shuffle 数据总数指标来评估流水线的性能,并使用已处理的计费重排数据量指标来确定 Dataflow 作业的费用。

对于 Dataflow Prime,您可以在资源指标下的作业信息面板中查看作业使用的 DCU 总数。

价格计算器

使用 Google Cloud 价格计算器来帮助了解账单的计算方式。

如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。

后续步骤

申请自定义报价

Google Cloud 采用随用随付的价格模式,您只需为实际使用的服务付费。请与我们的销售团队联系,获取为贵组织量身定制的报价。
与销售人员联系