Dataflow の料金

Google Cloud Next Tokyo：7/30、31 東京ビッグサイトにて開催！

Dataflow の料金

このページでは、Dataflow の料金について説明します。他のプロダクトの料金を確認するには、料金のドキュメントをご覧ください。

3 年間の確約で 40% の割引、1 年間の確約で 20% の割引を受ける方法については、確約利用割引（CUD）のページをご覧ください。

概要

Dataflow の使用で課金対象となるのは、ジョブで使用するリソースです。使用する料金モデルに応じて、リソースの測定方法と課金方法が異なります。

Dataflow コンピューティングリソース	Dataflow Prime のコンピューティングリソース
ワーカーの vCPU とメモリ（バッチ、ストリーミング、FlexRS） Dataflow Shuffle によるデータの処理（バッチと FlexRS） Streaming Engine コンピューティング単位数または以前の Streaming Engine データ処理量（ストリーミングのみ）	データコンピューティングユニット（DCU）（バッチとストリーミング）

Dataflow コンピューティングリソース

Dataflow Prime のコンピューティングリソース

ワーカーの vCPU とメモリ（バッチ、ストリーミング、FlexRS）
Dataflow Shuffle によるデータの処理（バッチと FlexRS）
Streaming Engine コンピューティング単位数または以前の Streaming Engine データ処理量（ストリーミングのみ）

データコンピューティングユニット（DCU）

（バッチとストリーミング）

すべてのジョブに対して課金されるその他の Dataflow リソースには、永続ディスク、GPU、スナップショットなどがあります。

他のサービスのリソースが Dataflow ジョブに使用される場合があります。Dataflow で使用されるサービスには、BigQuery、Pub/Sub、Cloud Storage、Cloud Logging などがあります。

料金設定は時間単位ですが、Dataflow の使用量はジョブごとに秒単位で課金されます。秒単位での使用に対して時間単位の料金設定を適用するため、使用時間は時間単位で表されます。たとえば、30 分は 0.5 時間です。ワーカーとジョブは、以降のセクションで説明するようにリソースを消費します。

Dataflow の今後のリリースでは、異なるサービス料や関連サービスのバンドルが導入される可能性があります。

Dataflow コンピューティングリソース

コンピューティングリソースに対する Dataflow の料金には、次のコンポーネントが含まれます。

使用可能なリージョンとゾーンの詳細については、Compute Engine のリージョンとゾーンのページをご覧ください。

ワーカー vCPU とメモリ

各 Dataflow ジョブは、少なくとも 1 つの Dataflow ワーカーを使用します。Dataflow サービスは、バッチとストリーミングの 2 つのワーカータイプを提供します。バッチワーカーとストリーミングワーカーでは、それぞれ別のサービス料が設定されています。

Dataflow ワーカーは次のリソースを消費し、それぞれ秒単位で課金されます。

vCPU
メモリ

バッチワーカーとストリーミングワーカーは、Compute Engine を使用する特殊なリソースです。一方、Dataflow ジョブでは Dataflow サービスによって管理される Compute Engine リソースに対して Compute Engine 課金が発生しません。Dataflow サービスの料金には、このような Compute Engine リソースの使用料金が含まれます。

ジョブのデフォルトのワーカー数をオーバーライドできます。自動スケーリングを使用している場合は、ジョブに割り当てられるワーカーの最大数を指定できます。ワーカーとそれぞれのリソースは、自動スケーリングの作動に基づいて自動的に追加および削除されます。

また、パイプラインオプションを使用して、各ワーカーに割り当てられ、GPU を使用するデフォルトのリソース設定（マシンタイプ、ディスクタイプ、ディスクサイズ）をオーバーライドできます。

FlexRS

Dataflow には、バッチ処理に使用する vCPU とメモリに割引料金を適用できるオプションも用意されています。Flexible Resource Scheduling（FlexRS）では、処理リソースの使用料を抑えられるよう、通常の VM とプリエンプティブル VM を単一の Dataflow ワーカープールにまとめています。また、利用可能なリソースに基づいてジョブを開始するのに最適な時点を特定するために、FlexRS は 6 時間の枠内で Dataflow のバッチジョブの実行を遅延させます。

Dataflow では複数のワーカーを組み合わせて FlexRS ジョブを実行しますが、ワーカーのタイプにかかわらず、通常の Dataflow の料金と比べると、vCPU とメモリの費用が約 40% 割引された均一料金で課金されます。Dataflow で、自動スケーリングされるバッチパイプラインに FlexRS を使用するには、FlexRS パラメータを指定します。

Dataflow Shuffle によるデータの処理

バッチパイプラインの場合、Dataflow には、ワーカー外部でデータをシャッフルする、スケーラビリティの高い Dataflow Shuffle 機能が用意されています。詳しくは、Dataflow Shuffleをご覧ください。

Dataflow Shuffle では、シャッフル中に処理されたデータの量に基づいて課金されます。

Streaming Engine の料金

ストリーミングパイプラインの場合、Dataflow Streaming Engine は、ストリーミングシャッフルと状態処理をワーカー VM から Dataflow サービスのバックエンドに移動します。詳細については、Streaming Engine をご覧ください。

Streaming Engine コンピューティング単位数

リソースベースの課金では、Streaming Engine リソースは Streaming Engine コンピューティング単位数で測定されます。Dataflow は、各ジョブで使用される Streaming Engine リソースを計測し、そのジョブで使用されるリソースの合計に基づいて課金します。ジョブのリソースベースの課金を有効にするには、リソースベースの課金を使用するをご覧ください。リソースベースの課金を使用すると、既存の割引が自動的に適用されます。

リソースベースの課金で Dataflow Prime を使用する場合、各ジョブで使用されたリソースの合計に基づいて課金されますが、Streaming Engine コンピューティング単位数 SKU の代わりに Data Compute Unit（DCU）SKU が使用されます。

処理された Streaming Engine データ（以前のバージョン）

Dataflow は、従来のデータ処理量に基づく課金を引き続きサポートします。リソースベースの課金を有効にしない限り、ジョブはデータ処理課金を使用して課金されます。

Streaming Engine のデータ処理量に対する課金は、処理されたストリーミングデータの量に基づいて使用量を測定します。この量は、次の要因によって異なります。

ストリーミングパイプラインに取り込まれたデータ量
パイプラインの複雑さ
シャッフルオペレーションまたはステートフル DoFn を含むパイプラインステージの数

処理されたバイト数としてカウントされるものの例を以下に示します。

データソースからの入力フロー
融合されたパイプラインステージから別の融合されたステージへのデータの流れ
ユーザー定義の状態に永続化されたデータフロー、またはウィンドウ処理に使用されるデータフロー
Pub/Sub や BigQuery などのデータシンクにメッセージを出力する

Dataflow コンピューティングリソース

Dataflow コンピューティングリソースの料金 - バッチ

次の表に、Batch で処理されるワーカーリソースとシャッフルデータの料金の詳細を示します。

ジョブタイプ	デフォルト（米ドル）
vCPU	$0.056 / 1 hour
メモリ	$0.003557 / 1 gibibyte hour
シャッフル中に処理されたデータ	$0.011 / 1 gibibyte

バッチワーカーのデフォルト: vCPU 1 個、メモリ 3.75 GB、永続ディスク 250 GB（Dataflow Shuffle を使用しない場合）、永続ディスク 25 GB（Dataflow Shuffle を使用する場合）

Dataflow コンピューティングリソースの料金 - FlexRS

次の表に、FlexRS ジョブで処理されるワーカーリソースとシャッフルデータの料金の詳細を示します。

リソース	デフォルト（米ドル）
vCPU	$0.0336 / 1 hour
メモリ	$0.0021342 / 1 gibibyte hour
シャッフル中に処理されたデータ	$0.011 / 1 gibibyte

FlexRS ワーカーのデフォルト: 1 ワーカーあたり vCPU 2 個、メモリ 7.50 GB、永続ディスク 25 GB（最小 2 つのワーカー）

Dataflow コンピューティングリソースの料金 - ストリーミング

次の表に、ストリーミングジョブのワーカーリソース、Streaming Engine のデータ処理量（旧）、Streaming Engine コンピューティング単位数の料金の詳細を示します。

割引オプションを表示する

リソース	Default^* (USD)	Dataflow CUD - 1 Year^* (USD)	Dataflow CUD - 3 Year^* (USD)
vCPU	$0.069 / 1 hour	$0.0552 / 1 hour	$0.0414 / 1 hour
メモリ	$0.003557 / 1 gibibyte hour	$0.0028456 / 1 gibibyte hour	$0.0021342 / 1 gibibyte hour
シャッフル中に処理されたデータ	$0.018 / 1 gibibyte	$0.0144 / 1 gibibyte	$0.0108 / 1 gibibyte
Streaming Engine	$0.089 / 1 count	$0.0712 / 1 count	$0.0534 / 1 count

^* 各使用量モデルには一意の ID が割り当てられます。使用量モデルの割引を受けるには、オプトインが必要な場合があります。詳しくはこちらをご覧ください。

米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。

³ストリーミングワーカーのデフォルト: Streaming Engine を使用しない場合は vCPU 4 個、メモリ 15 GB、永続ディスク 400 GB。Streaming Engine を使用する場合は永続ディスク 30 GB。Dataflow サービスは、ストリーミングジョブの実行時に、ワーカーインスタンスあたり 15 個の永続ディスクに制限されています。リソース割り当てでは、ワーカーとディスクの 1:1 の比率が最小要件になります。

⁴Dataflow Shuffle の料金は、データセットのシャッフルの読み取り操作と書き込み操作で処理されたデータの量に適用されるボリューム調整に基づいて計算されます。詳しくは、Dataflow Shuffle 料金の詳細をご覧ください。リソースベースの課金を使用する Streaming Engine ジョブには、Dataflow Shuffle の料金は適用されません。

⁵Streaming Engine コンピューティング単位数: Streaming Engine とリソースベースの課金モデルを使用するストリーミングジョブの場合。これらのジョブでは、シャッフル中に処理されたデータに対して課金されません。

Dataflow Shuffle によるデータ処理のボリューム調整

請求額は、Dataflow Shuffle の操作で処理された合計データ量に適用されるボリューム調整に基づいて、Dataflow ジョブごとに計算されます。処理された Dataflow Shuffle データに対する実際の請求額は、Dataflow ジョブで処理された合計データ量よりも少ない量に対する正規料金と同じになります。この違いにより、処理された課金対象のシャッフルデータの指標は、処理されたシャッフルデータの合計の指標よりも小さくなります。

次の表で、この調整の適用方法を説明します。

Dataflow Shuffle によるデータの処理	請求額の調整
最初の 250 GiB	75% 削減
次の 4,870 GiB	50% 削減
5,120 GiB（5 TiB）を超えた分	なし

たとえば、パイプラインで合計 1,024 GiB（1 TiB）の Dataflow Shuffle データを処理した場合、請求額は次のように計算されます。

250 GiB × 25% + 774 GiB × 50% = 449.5 GiB × リージョンの Dataflow Shuffle データ処理レート

合計 10, 240 GiB（10 TiB）の Dataflow Shuffle データを処理した場合、課金対象のデータ量は次のようになります。

250 GiB × 25% + 4,870 GiB × 50% + 5,120 GiB = 7,617.5 GiB

Dataflow Prime のコンピューティングリソースの料金

Dataflow Prime は、Dataflow を基盤とするデータ処理プラットフォームであり、リソース使用率と分散診断が改善されています。

Dataflow Prime ジョブで使用されるコンピューティングリソースの料金は、Data Compute Unit（DCU）の数によって決まります。DCU は、パイプラインを実行するために割り当てられるコンピューティングリソースを表します。Dataflow Prime ジョブで使用されるその他の Dataflow リソース（Persistent Disk、GPU、スナップショットなど）は、別途課金されます。

使用可能なリージョンとゾーンの詳細については、Compute Engine のリージョンとゾーンのページをご覧ください。

データ計算装置

データコンピューティングユニット（DCU）は、ジョブによって消費されたコンピューティングリソースの数を追跡するための、Dataflow 使用状況測定ユニットです。DCU で追跡されるリソースには、vCPU、メモリ、処理された Dataflow Shuffle データ（バッチジョブの場合）、処理された Streaming Engine データ（ストリーミングジョブの場合）などがあります。リソース消費量が多いジョブほど、リソース消費量が少ないジョブよりも DCU 使用量が多くなります。1 DCU は、1 個の vCPU および 4 GB ワーカーの条件で 1 時間実行される Dataflow ジョブで使用されるリソースと同等です。

データコンピューティングユニットの課金

ジョブが消費した DCU の合計数に対して課金されます。単一の DCU の料金は、バッチジョブかストリーミングジョブかによって異なります。リソースベースの課金で Dataflow Prime を使用する場合、処理されたバイト数ではなく、使用されたリソースの合計に基づいて課金されます。

割引オプションを表示する

ジョブタイプ	Default^* (USD)	Dataflow CUD - 1 Year^* (USD)	Dataflow CUD - 3 Year^* (USD)
バッチ	$0.06 / 1 count	-	-
ストリーミング	$0.089 / 1 count	$0.0712 / 1 count	$0.0534 / 1 count

米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。

データ計算ユニットの使用率を最適化する

ジョブの DCU 数は設定できません。DCU は Dataflow Prime によってカウントされます。ただし、ジョブの次の側面を管理することで、消費される DCU の数を減らすことができます。

メモリ消費量を削減する
フィルタ、コンバイナ、効率的なコーダーを使用して、シャッフルの際に処理されるデータ量を削減する

これらの最適化を特定するには、Dataflow モニタリングインターフェースと実行の詳細インターフェースを使用します。

Dataflow Prime の料金と Dataflow の料金との違い

Dataflow では、ジョブが使用する異種リソース（vCPU、メモリ、Persistent Disk、Dataflow Shuffle や Streaming Engine によって処理されたデータ量など）について課金されます。

データコンピューティングユニットは、ストレージを除くすべてのリソースを 1 つの測定単位に統合します。Persistent Disk リソースと、サービスの種類（バッチまたはストリーミング）に基づいて消費された DCU の数が課金されます。詳細については、Dataflow Prime の使用をご覧ください。

Dataflow 料金モデルを使用している既存のジョブへの影響

既存のバッチジョブとストリーミングジョブは引き続き Dataflow モデルを使用して課金されます。Dataflow Prime を使用するようにジョブを更新すると、ジョブは Dataflow Prime の料金モデルを使用するようになり、永続ディスクリソースと消費された DCU に対して課金されます。

その他の Dataflow リソース

ストレージ、GPU、スナップショット、その他のリソースは、Dataflow と Dataflow Prime で同じように課金されます。

ストレージリソースの料金

ストレージリソースは、ストリーミング、バッチ、FlexRS ジョブと同じレートで課金されます。パイプラインオプションを使用して、デフォルトのディスクサイズまたはディスクタイプを変更できます。Hyperdisk Balanced のプロビジョニングされた IOPS とプロビジョニングされたスループット（MBps）の消費量に対して、ベースライン値の 3,000 IOPS と 140 MBps のスループットを上回る分について月額料金が課金されます。Dataflow Prime では、永続ディスクの料金は次の表の料金に基づいて別途請求されます。

項目	デフォルト（米ドル）
ストレージ - 標準永続ディスク	$0.000054 / 1 gibibyte hour
ストレージ - SSD 永続ディスク	$0.000298 / 1 gibibyte hour
ストレージ - Hyperdisk Balanced プロビジョニング容量	$0.000109589 / 1 gibibyte hour
ストレージ - Hyperdisk Balanced プロビジョンド IOPS	$0.000006849 / 1 hour
ストレージ - Hyperdisk Balanced プロビジョンドスループット	$0.000054795 / 1 hour

米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。

Dataflow サービスは、ストリーミングジョブの実行時に、ワーカーインスタンスあたり 15 個の永続ディスクに制限されています。各永続ディスクは、個々の Compute Engine 仮想マシンに対してローカルです。リソース割り当てでは、ワーカーとディスクの 1:1 の比率が最小要件になります。

Streaming Engine を使用するジョブでは、30 GB のブートディスクが使用されます。Dataflow Shuffle を使用するジョブでは、25 GB のブートディスクが使用されます。これらの製品を使用していないジョブの場合、各永続ディスクのデフォルトサイズはバッチモードで 250 GB、ストリーミングモードで 400 GB です。

Compute Engine の使用量は平均ワーカー数に基づき、永続ディスクの使用量は --maxNumWorkers の値に基づきます。永続ディスクは、各ワーカーにアタッチされたディスク数が等しくなるように再配布されます。

GPU リソースの料金

GPU リソースは、ストリーミングジョブとバッチジョブで同じ料金で課金されます。GPU ワーカーには、バッチジョブとストリーミングジョブの vCPU とメモリの料金も発生します。現在、FlexRS は GPU をサポートしていません。GPU で使用可能なリージョンとゾーンについては、Compute Engine ドキュメントの GPU のリージョンとゾーンの可用性をご覧ください。

項目	デフォルト（米ドル）
NVIDIA® Tesla® P100 GPU	$1.752 / 1 hour
NVIDIA® Tesla® V100 GPU	$2.976 / 1 hour
NVIDIA® Tesla® T4 GPU	$0.42 / 1 hour
NVIDIA® Tesla® P4 GPU	$0.72 / 1 hour
NVIDIA® Tesla® L4 GPU	$0.672048 / 1 hour
NVIDIA® Tesla® A100（40 GB）GPU	$3.72 / 1 hour
NVIDIA® Tesla® A100（80 GB）GPU	$4.713696 / 1 hour
NVIDIA ® Tesla ® H100 GPU	$11.7558607 / 1 hour
NVIDIA ® Tesla ® H100 Mega GPU	$12.4131309 / 1 hour
NVIDIA ® Tesla ® RTX PRO 6000	$1.315 / 1 hour

米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。

TPU リソースの料金

TPU リソースは、ストリーミングジョブとバッチジョブで同じ料金で課金されます。TPU の Dataflow 料金には、TPU、vCPU、メモリの費用が含まれているため、TPU ワーカーには Dataflow で vCPU とメモリの料金が別途発生することはありません。また、FlexRS は現在 TPU をサポートしていません。TPU を使用可能なリージョンとゾーンについては、Compute Engine ドキュメントの TPU のリージョンとゾーンをご覧ください。Dataflow で TPU を使用するには、アカウントチームにお問い合わせください。

項目	デフォルト（米ドル）
TPU V5E	$1.44 / 1 hour
TPU V5P	$5.04 / 1 hour
TPU v6e	$3.24 / 1 hour

GPU/TPU 予約の管理プレミアム

Dataflow で対象となる特定の Compute Engine GPU または TPU の予約を使用すると、適用される確約利用割引（CUD）を含む Compute Engine の料金に従って課金されます。また、Dataflow で使用されるコンピューティングリソースの管理プレミアムも課金されます。詳細については、Dataflow で Compute Engine の予約を使用するをご覧ください。

Dataflow で Compute Engine GPU または TPU の予約を使用する際に消費されるコンピューティングリソースの管理プレミアムを以下の表に示します。Dataflow ストリーミング確約利用割引（CUD）は、ストリーミングジョブの vCPU とメモリ管理のプレミアム料金にのみ適用されます。

GPU/TPU 予約の管理プレミアム - ストリーミング

割引オプションを表示する

リソース	Default^* (USD)	Dataflow CUD - 1 Year^* (USD)	Dataflow CUD - 3 Year^* (USD)
vCPU Premium	$0.0178405 / 1 hour	$0.0142724 / 1 hour	$0.0107043 / 1 hour
Memory Premium	$0.0020901 / 1 gibibyte hour	$0.00167208 / 1 gibibyte hour	$0.00125406 / 1 gibibyte hour

GPU/TPU 予約の管理プレミアム - バッチ、GPU、TPU

リソース	料金（米ドル）
Batch vCPU プレミアム	$0.0111508 / 1 hour
バッチメモリプレミアム	$0.0013063 / 1 gibibyte hour
V100 GPU プレミアム	$0.496 / 1 hour
P100 GPU プレミアム	$0.292 / 1 hour
T4 GPU プレミアム	$0.07 / 1 hour
L4 GPU プレミアム	$0.112008 / 1 hour
RTX PRO 6000 Premium	$0.219 / 1 hour
A100 40 GB GPU プレミアム	$0.5867816 / 1 hour
A100 80 GB GPU プレミアム	$0.785616 / 1 hour
H100 GPU プレミアム	$1.9593101 / 1 hour
H100 Mega GPU プレミアム	$2.0688551 / 1 hour
TPU V5E プレミアム	$0.24 / 1 hour
TPU V5P プレミアム	$0.84 / 1 hour
TPU V6E プレミアム	$0.54 / 1 hour

スナップショット

ストリーミングパイプラインの信頼性を管理するため、スナップショットを使用してパイプラインの状態を保存して復元できます。スナップショットの使用量は、保存されたデータ量によって課金されますが、これは次の要因に依存します。

ストリーミングパイプラインに取り込まれたデータ量
ウィンドウ処理ロジック
パイプラインステージの数

Dataflow コンソールまたは Google Cloud CLI を使用して、ストリーミングジョブのスナップショットを取得できます。スナップショットからジョブを作成して、パイプラインの状態を復元する場合、追加料金は発生しません。詳細については、Dataflow スナップショットの使用をご覧ください。

スナップショットの料金

項目	デフォルト（米ドル）
ストレージ	$0.000205479 / 1 gibibyte hour

米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。

Confidential VMs

Dataflow の Confidential VM は、ワーカー Compute Engine VM で使用中のデータを暗号化します。詳しくは、Confidential VMs の概要をご覧ください。

Dataflow で Confidential VMs を使用すると、定額の vCPU あたりの料金と GB あたりの料金が追加で発生します。

Confidential VMs の料金

料金は全世界共通で、Google Cloud リージョンによって変わることはありません。

項目	デフォルト（米ドル）
vCPU	$0.005479 / 1 hour
メモリ	$0.0007342 / 1 gibibyte hour

Dataflow 以外のリソース

Dataflow の使用に加え、ジョブで次のリソースが消費される可能性もあります（ただし、これらに限定されません）。これらのリソースは、それぞれ独自の料金設定で課金されます。

Cloud Storage - Dataflow ジョブでは、パイプライン実行中に一時ファイルを格納するために Cloud Storage を使用します。不要なストレージ費用が発生しないようにするには、Dataflow ジョブが一時ストレージに使用するバケットで削除（復元可能）機能をオフにします。詳細については、バケットから削除（復元可能）ポリシーを削除するをご覧ください。
Pub/Sub
Datastore
Bigtable
BigQuery
VPC
Cloud Logging - ログを他の宛先にルーティングするか、ログを取り込みから除外できます。Dataflow ジョブのログボリュームの最適化については、Dataflow ログボリュームの制御を参照してください。

リソースの使用状況を表示する

ジョブに関連する vCPU、メモリ、永続ディスクリソースの合計使用量は、[リソース指標] の下の [ジョブ情報] パネルで確認できます。Dataflow Monitoring Interface で次の指標を追跡できます。

合計 vCPU 時間
合計メモリ使用時間
永続ディスクの合計使用時間
処理されたストリーミングデータの合計量
処理された Shuffle データの合計量
課金対象となる Shuffle データの処理量

合計シャッフルデータ処理量指標を使用してパイプラインのパフォーマンスを評価し、課金対象シャッフルデータ処理量指標を使用して Dataflow ジョブの費用を判断できます。

Dataflow Prime の場合、ジョブで消費された DCU の合計数は、[リソース指標] の下の [ジョブ情報] パネルで確認できます。

料金計算ツール

Google Cloud 料金計算ツールを使用すると、請求金額の算出方法を確認できます。

米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。

次のステップ

Dataflow のドキュメントを読む。
Dataflow を使ってみる。
料金計算ツールを試す。
Dataflow のソリューションとユースケースについて学習する。

カスタム見積もりをリクエストする

Google Cloud の従量課金制では、使用したサービスに対してのみ料金が発生します。カスタム見積もりをご希望の場合は、Google のセールスチームにお問い合わせください。