Dataflow 价格
本页面介绍了 Dataflow 的价格。如需查看其他产品的价格,请参阅价格文档。
了解如何三年承诺可节省 40% 的费用,或一年承诺可节省 20% 请参阅我们的承诺使用折扣 (CUD) 页面。
概览
您需要为作业使用的资源支付 Dataflow 使用费。 根据您使用的定价模式, 资源的计量和计费方式不同
Dataflow 计算资源 | Dataflow Prime 计算资源 |
|
数据计算单元 (DCU) (批量和流式) |
其他 Dataflow 资源 包括 Persistent Disk、GPU 和快照等。
来自其他服务的资源可能会用于 Dataflow 作业。与 Dataflow 搭配使用的服务可能包括 BigQuery、Pub/Sub、 Cloud Storage、Cloud Logging 等等。
虽然价格费率是按小时计算的 用量以秒为单位,每个作业计算。用量现为 以小时为单位,才能对按秒计算的用量应用每小时价格。 例如,30 分钟为 0.5 小时。工作器和作业可能会以如下方式使用资源: 具体说明。
Dataflow 今后的版本可能采用不同的服务费用 或捆绑相关服务
Dataflow 计算资源
计算资源的 Dataflow 结算 包括以下组件:
如需详细了解可用的区域及其可用区,请参阅 Compute Engine 区域和可用区 页面。
工作器 CPU 和内存
每个 Dataflow 作业至少使用一个 Dataflow 工作器。Dataflow 服务提供两种工作器类型:批量处理和流式处理。批量处理和流式处理工作器的服务费用分开计算。
Dataflow 工作器会使用以下资源,每项资源均需付费 按秒计费:
- CPU
- 内存
批量处理和流式处理工作器都是使用 Compute Engine 的特殊资源。但是,Dataflow 作业不会发出 由以下对象管理的 Compute Engine 资源的 Compute Engine 结算: Dataflow 服务。相反,Dataflow 服务 费用涵盖这些 Compute Engine 资源的使用费。
您可以替换作业的默认工作器数量。如果您使用的是 自动扩缩,您可以 指定要分配给作业的最大工作器数量。Workers 和 系统会根据实例自动添加和移除相应资源 自动扩缩执行。
此外,您还可以使用 流水线选项 覆盖默认资源设置,例如机器类型、磁盘类型和磁盘 使用 GPU 数量限制,分配给每个工作器。
FlexRS
Dataflow 提供 CPU 和内存有折扣的选项 批量处理价格。Flexible Resource Scheduling (FlexRS) 在单个 Dataflow 工作器池中结合使用常规和抢占式虚拟机,让用户可以使用更便宜的处理资源。FlexRS 还会延迟一个批次的执行, 6 小时内的 Dataflow 作业,以确定最佳运行点, 启动作业所用的时间。
虽然 Dataflow 使用一组工作器执行 FlexRS 作业,系统会向您收取统一费用 CPU 和内存费用比普通处理费用高 40% 左右 Dataflow 价格,不考虑 工作器类型。您可以通过指定 FlexRS 参数,指示 Dataflow 对自动扩缩的批量处理流水线使用 FlexRS。
处理的 Dataflow Shuffle 数据
对于批处理流水线,Dataflow 提供了可伸缩性极强的功能, Dataflow Shuffle,即在工作器外部对数据进行重排。 如需了解详情,请参阅 Dataflow Shuffle。
Dataflow Shuffle 按数据量收费 在重排时处理。
Streaming Engine 价格
对于流处理流水线,Dataflow Streaming Engine 会将 流式传输重排和状态处理,从工作器虚拟机传输到 Dataflow 服务后端。如需了解详情,请参阅 Streaming Engine。
Streaming Engine 计算单元
使用基于资源的结算时,Streaming Engine 资源会以 Streaming Engine 计算单元。 Dataflow 会对每个作业使用的 Streaming Engine 资源进行计量 然后根据该作业使用的资源总量计费。 如需为作业启用基于资源的结算,请参阅 使用基于资源的结算方式。 当您使用基于资源的结算时,系统会自动应用现有折扣。
当您将 Dataflow Prime 与基于资源的结算方案搭配使用时,将按照 每个作业使用的总资源量,但 使用数据计算单元 (DCU) SKU,而不是 Streaming Engine 计算单元 SKU。
处理的 Streaming Engine 数据(旧版)
Dataflow 继续 支持旧版数据处理式结算方式。除非您 启用基于资源的结算, 作业使用数据处理式结算模式进行结算。
Streaming Engine 基于数据处理的结算方式会按照 处理的流式数据,这取决于以下因素:
- 注入流处理流水线的数据量
- 流水线的复杂性
- 执行 shuffle 操作或 有状态 DoFn
系统会将以下内容计为一个字节处理示例:
- 来自数据源的输入流
- 从一个融合流水线阶段到另一个融合阶段的数据流
- 保持在用户定义的状态或用于数据选取的数据流
- 向数据接收器(例如 Pub/Sub 或 BigQuery)输出消息
Dataflow 计算资源价格 - 批量和FlexRS
下表包含工作器资源和 Shuffle 的价格详情 处理批量作业和 FlexRS 作业的数据。
1 批处理工作器默认配置:1 个 vCPU、3.75 GB 内存、250 GB 永久性磁盘(如果未使用 Dataflow) Shuffle,25 GB 永久性磁盘(如果使用 Dataflow Shuffle)
2 FlexRS 工作器默认配置:2 个 vCPU、7.50 GB 内存、每个工作器 25 GB Persistent Disk,最少两个工作器
Dataflow 计算资源价格 - 流式处理
下表包含工作器资源(流式)的价格详情 处理的引擎数据(旧版),以及用于流式传输的 Streaming Engine 计算单元 作业。
3 流处理工作器默认配置:4 个 vCPU、15 GB 内存、400 GB 永久性磁盘 如果不使用 Streaming Engine,则为 30 GB 永久性磁盘(如果使用 Streaming Engine)。通过 目前,在创建 Dataflow 服务时,每个工作器实例最多只能使用 15 个永久性磁盘 运行流式作业的方法。最低资源配额是工作器数量与磁盘数量之比为 1:1。
4 Dataflow Shuffle 价格基于对处理的数据量进行的数据量调整 对数据集进行重排时所需的资源。如需了解详情,请参阅 Dataflow Shuffle 价格详情。Dataflow Shuffle 价格不适用于使用基于资源的结算方式的 Streaming Engine 作业。
5 Streaming Engine 计算单元:适用于使用 Streaming Engine 和基于资源的结算模式的流式作业。这些作业在 shuffle 期间处理的数据不会产生费用。
处理的 Dataflow Shuffle 数据量调整
费用按 Dataflow 作业计算,方法是在 Dataflow Shuffle 操作期间处理的数据。处理的 Dataflow Shuffle 数据的实际账单费用等于调整后数据量(小于 Dataflow 作业处理的实际数据量)的全价费用。这种差异会导致 “可计费的 Shuffle 处理数据量”指标小于 处理的 shuffle 数据总数指标。
下表说明了系统如何进行此类调整:
处理的 Dataflow Shuffle 数据 | 结算调整项 |
前 250 GB | 缩减 75% |
后续的 4870 GB | 缩减 50% |
超过 5120 GB (5 TB) 的部分 | 无 |
例如,如果您的流水线处理的总 Dataflow Shuffle 数据量为 1024 GB (1 TB),那么可计费量的计算方式如下:
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
如果您的流水线处理的总 Dataflow Shuffle 数据量达到 10240 GB (10 TB),则计费数据量为:
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Dataflow Prime 计算资源价格
Dataflow Prime 是一个基于 Dataflow 构建的数据处理平台, 资源利用率和分布式诊断方面的改进。
Dataflow Prime 作业使用的计算资源按数据量计费 计算单元 (DCU)。DCU 表示分配的计算资源 来运行流水线其他 Dataflow 资源 例如 Persistent Disk、GPU 和快照等 Dataflow Prime 作业所用的数据, 单独计费。
如需详细了解可用的区域及其可用区,请参阅 Compute Engine 区域和可用区 页面。
数据计算单元
数据计算单元 (DCU) 是一种 Dataflow 用量计量单元, 跟踪您的作业消耗的计算资源数量。跟踪的资源 按 DCU 包括 vCPU、内存、处理的 Dataflow Shuffle 数据 处理的 Streaming Engine 数据(用于流式作业)和处理的 Streaming Engine 数据。求职招聘 与消耗更多资源的作业相比,消耗更多资源的作业具有更多 DCU 用量 可以减少资源。一个 DCU 相当于一个 在 1 个 vCPU、4GB 工作器上运行一小时的 Dataflow 作业。
数据计算单元结算
您需要为作业使用的 DCU 总数付费。 单个 DCU 的价格因 批量作业或流处理作业使用 Dataflow Prime 时 采用基于资源的结算方式, 根据使用的资源总量(而不是字节数)计费。
优化数据计算单元用量
您无法为作业设置 DCU 数量。DCU 由 Dataflow Prime 计数。 不过,您可以通过管理以下各项来减少 DCU 的数量 工作的各个方面:
- 减少内存消耗
- 使用过滤器、组合器和高效的编码器减少重排步骤中处理的数据量
要找出这些优化措施,请使用 Dataflow 监控界面 以及执行详情界面。
Dataflow Prime 的价格与 Dataflow 价格有何不同?
在 Dataflow 中,您需要为不同的资源付费 例如 vCPU、内存、Persistent Disk,以及 Google Cloud 工作负载 Dataflow Shuffle 或 Streaming Engine。
数据计算单元将除存储之外的所有资源整合到一个 单个计量单位您需要为 Persistent Disk 资源和 基于作业类型(批量作业或流式作业)所使用的 DCU 数量。 如需了解详情,请参阅使用 Dataflow Prime。
使用 Dataflow 价格模式的现有作业会受到什么影响?
您现有的批量作业和流式作业将继续使用 Dataflow 模型。将作业更新为 使用 Dataflow Prime,作业将 然后使用 Dataflow Prime 定价模式,他们根据 Persistent Disk 用量计费 和所用 DCU 的对应关系。
其他 Dataflow 资源
存储、GPU、快照和其他资源 Dataflow 和 Dataflow Prime 采用相同方式。
存储资源价格
流式、批量和 FlexRS 存储资源按相同的费率计费 作业。您可以使用 流水线选项更改默认磁盘大小或磁盘类型。 Dataflow Prime 根据 表格。
Dataflow 服务目前最多只能使用 15 个永久性磁盘 。每个永久性磁盘都是本地磁盘 单个 Compute Engine 虚拟机两者的宽高比为 1:1 工作器和磁盘数量是最小资源配额。
使用 Streaming Engine 的作业使用 30 GB 启动磁盘。使用 Dataflow Shuffle 的作业 使用 25 GB 启动磁盘。对于不使用这类产品或服务的职位, 在批处理模式下,每个永久性磁盘的默认大小为 250 GB; 流处理模式下为 400 GB。
Compute Engine 用量基于平均工作器数量,而
Persistent Disk 用量根据 --maxNumWorkers
的确切值计算得出。永久性磁盘
让每个工作器都挂接相同数量的磁盘。
GPU 资源价格
GPU 资源以相同的费率计费,适用于流式作业和批量作业。FlexRS 目前不支持 GPU。有关可用区域和 请参阅 GPU 区域和可用区可用性 。
快照
为了帮助您管理流处理流水线的可靠性,您可以使用 快照以保存和恢复流水线状态。 快照用量按存储的数据量计费,具体取决于以下因素:
- 注入流处理流水线的数据量
- 数据选取逻辑
- 流水线阶段的数量
您可以使用 Dataflow 截取流处理作业的快照 控制台或 Google Cloud CLI使用快照创建作业来恢复流水线状态不会产生额外费用。如需了解详情,请参阅 使用 Dataflow 快照。
快照价格
机密虚拟机
用于 Dataflow 的机密虚拟机会对 工作器 Compute Engine 虚拟机。有关详情,请参阅 机密虚拟机概览。
使用适用于 Dataflow 的机密虚拟机会导致额外的平面资源 按 vCPU 和 GB 计算的费用。
机密虚拟机价格
价格为全球价格,不会因 Google Cloud 区域而异。
非 Dataflow 资源
除了 Dataflow 用量外,作业可能还会消耗以下数据 每个资源均按各自的价格收费,包括但不限于:
-
Dataflow 作业在流水线执行期间使用 Cloud Storage 来存储临时文件。为避免支付不必要的存储费用,请在 Dataflow 作业用于临时存储的存储桶上关闭软删除功能。如需了解详情,请参阅 从存储桶中移除软删除政策。
-
您可以将日志路由到其他目标位置或 从注入中排除日志。 有关如何优化 Dataflow 日志量的信息 请参阅控制 Dataflow 日志量。
查看资源使用情况
您可以查看所有关联的 vCPU、内存和 Persistent Disk 资源 在资源指标下的作业信息面板中创建作业。您 可以在 Dataflow 监控界面:
- vCPU 总运行时长
- 总内存使用时间
- 永久性磁盘总使用时间
- 处理的流式传输数据总量
- 处理的 Shuffle 数据总量
- 处理的计费 Shuffle 数据
您可以使用处理的 Shuffle 数据总数指标来评估 根据流水线和处理的计费重排数据指标来确定 Dataflow 作业的状态。
对于 Dataflow Prime,您可以查看作业使用的 DCU 总数 资源指标下的作业信息面板中查看相关信息。
价格计算器
使用 Google Cloud 价格计算器来帮助了解账单的计算方式。
如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。
后续步骤
- 阅读 Dataflow 文档。
- 开始使用 Dataflow。
- 试用价格计算器。
- 了解 Dataflow 解决方案和使用场景。