Dataflow の料金
このページでは、Dataflow の料金について説明します。他のプロダクトの料金を確認するには、料金についてのドキュメントをご覧ください。
3 年間の確約で 40%、1 年間の確約で 20% の割引を受ける方法については、確約利用割引(CUD)ページをご覧ください。
概要
Dataflow の使用で課金対象となるのは、ジョブで使用するリソースです。使用する料金モデルに応じて、リソースの測定と課金は異なります。
Dataflow のコンピューティング リソース | Dataflow Prime のコンピューティング リソース |
|
データ コンピューティング ユニット(DCU) (バッチとストリーミング) |
すべてのジョブに対して課金されるその他の Dataflow リソース には、永続ディスク、GPU、スナップショットなどがあります。
他のサービスのリソースが Dataflow ジョブに使用されることがあります。Dataflow で使用されるサービスには、BigQuery、Pub/Sub、Cloud Storage、Cloud Logging などがあります。
料金設定は時間単位ですが、Dataflow の使用量はジョブごとに秒単位で課金されます。秒単位での使用に対して時間単位の料金設定を適用するため、使用時間は時間単位で表されます。たとえば、30 分は 0.5 時間です。ワーカーとジョブは、以降のセクションで説明するようにリソースを消費します。
Dataflow の今後のリリースでは、異なるサービス料や関連サービスのバンドルが導入される可能性があります。
Dataflow コンピューティング リソース
Dataflow のコンピューティング リソースの課金には、次のコンポーネントが含まれます。
- ワーカーの CPU とメモリ
- Dataflow Shuffle によるバッチ ワークロードのデータ処理
- Streaming Engine コンピューティング単位数
- 処理された Streaming Engine データ
使用可能なリージョンとゾーンの詳細については、 Compute Engine のリージョンとゾーン のページをご覧ください。
ワーカーの CPU とメモリ
各 Dataflow ジョブは、少なくとも 1 つの Dataflow ワーカーを使用します。Dataflow サービスは、バッチとストリーミングの 2 つのワーカータイプを提供します。バッチワーカーとストリーミング ワーカーでは、それぞれ別のサービス料が設定されています。
Dataflow ワーカーは次のリソースを消費し、それぞれ秒単位で課金されます。
- CPU
- メモリ
バッチワーカーとストリーミング ワーカーは、Compute Engine を使用する特殊なリソースです。一方、Dataflow ジョブでは Dataflow サービスによって管理される Compute Engine リソースに対して Compute Engine 課金が発生しません。Dataflow サービスの料金には、このような Compute Engine リソースの使用料金が含まれます。
ジョブのデフォルトのワーカー数をオーバーライドできます。自動スケーリングを使用している場合は、ジョブに割り当てられるワーカーの最大数を指定できます。ワーカーとそれに付随するリソースは、自動スケーリングの作動に基づいて自動的に追加および削除されます。
また、パイプライン オプションを使用して、各ワーカーに割り当てられ、GPU を使用するデフォルトのリソース設定(マシンタイプ、ディスクタイプ、ディスクサイズ)をオーバーライドできます。
FlexRS
Dataflow には、バッチ処理に使用する CPU とメモリに割引料金を適用できるオプションも用意されています。Flexible Resource Scheduling(FlexRS)では、処理リソースの使用料を抑えられるよう、通常の VM とプリエンプティブル VM を単一の Dataflow ワーカープールにまとめています。また、利用可能なリソースに基づいてジョブを開始するのに最適な時点を特定するために、FlexRS は 6 時間の枠内で Dataflow のバッチジョブの実行を遅延させます。
Dataflow では複数のワーカーを組み合わせて FlexRS ジョブを実行しますが、ワーカーのタイプにかかわらず、CPU とメモリの費用は通常の Dataflow の料金と比べて約 40% 割引された均一料金で課金されます。Dataflow で、自動スケーリングされるバッチ パイプラインに FlexRS を使用するには、FlexRS パラメータを指定します。
Dataflow Shuffle によるデータの処理
バッチ パイプラインの場合、Dataflow は、ワーカー外部でデータをシャッフルする、スケーラビリティの高い機能である Dataflow Shuffle を提供します。詳しくは、Dataflow Shuffle をご覧ください。
Dataflow Shuffle では、シャッフル中に処理されたデータの量に基づいて課金されます。
Streaming Engine の料金
ストリーミング パイプラインの場合、Dataflow Streaming Engine は、ストリーミング シャッフルと状態処理をワーカー VM から Dataflow サービスのバックエンドに移動します。詳細については、Streaming Engine をご覧ください。
Streaming Engine コンピューティング単位数
リソースベースの課金では、Streaming Engine リソースが Streaming Engine コンピューティング単位数で測定されます。Dataflow は、各ジョブが使用する Streaming Engine リソースを測定し、そのジョブで使用されたリソースの合計に基づいて課金します。ジョブにリソースベースの課金を有効にするには、リソースベースの課金を使用するをご覧ください。リソースベースの課金を使用すると、既存の割引が自動的に適用されます。
リソースベースの課金で Dataflow Prime を使用する場合、各ジョブが使用するリソースの合計に基づいて課金されますが、 Streaming Engine コンピューティング ユニット SKU ではなく、Data Compute Unit(DCU)SKU が使用されます。
処理された Streaming Engine データ(従来型)
Dataflow は、従来のデータ処理による課金を引き続きサポートします。リソースベースの課金を有効にしない限り、ジョブはデータ処理課金を使用して課金されます。
Streaming Engine のデータ処理の課金は、処理されたストリーミング データの量に基づいて使用量を測定します。この量は、次の要因によって決まります。
- ストリーミング パイプラインに取り込まれたデータの量
- パイプラインの複雑さ
- シャッフル操作またはステートフル DoFn を使用するパイプライン ステージの数
処理されたバイトとしてカウントされる例を以下に示します。
- データソースからの入力フロー
- 1 つの融合パイプライン ステージから別の融合ステージへのデータのフロー
- ユーザー定義の状態に永続化されたデータフローの流れ、またはウィンドウ処理に使用されるデータフロー
- メッセージを Pub/Sub や BigQuery などのデータシンクに出力する
Dataflow コンピューティング リソースの料金 - バッチと FlexRS
次の表は、バッチジョブと FlexRS ジョブで処理されるワーカー リソースとシャッフル データの料金の詳細を示しています。
1 バッチワーカーのデフォルト: vCPU 1 個、メモリ 3.75 GB、Dataflow Shuffle を使用していない場合は永続ディスク 250 GB、Dataflow Shuffle を使用している場合は永続ディスク 25 GB
2 FlexRS ワーカーのデフォルト: 1 ワーカーあたり vCPU 2 個、メモリ 7.50 GB、永続ディスク 25 GB(最小 2 つのワーカー)
Dataflow コンピューティング リソースの料金 - ストリーミング
次の表に、ワーカー リソース、Streaming Engine データ処理(従来型)、Streaming Engine コンピューティング単位数(ストリーミング ジョブ用)の料金の詳細を示します。
3 ストリーミング ワーカーのデフォルト: vCPU 4 個、メモリ 15 GB、永続ディスク 400 GB (Streaming Engine を使用していない場合)または 30 GB の永続ディスク(Streaming Engine を使用している場合)。Dataflow サービスは、ストリーミング ジョブの実行時に、ワーカー インスタンスあたり 15 個の永続ディスクに制限されています。リソース割り当てでは、ワーカーとディスクの 1:1 の比率が最小要件になります。
4 Dataflow Shuffle の料金は、データセットのシャッフルの読み取り操作と書き込み操作で処理されたデータの量に適用されるボリューム調整に基づいて計算されます。詳しくは、Dataflow Shuffle 料金の詳細をご覧ください。Dataflow Shuffle の料金は、リソースベースの課金を使用する Streaming Engine ジョブには適用されません。
5 Streaming Engine コンピューティング単位数: Streaming Engine とリソースベースの課金モデルを使用するストリーミング ジョブ向け。これらのジョブでは、シャッフル中に処理されたデータに対して課金されません。
Dataflow Shuffle によるデータの処理のボリューム調整
請求額は、Dataflow Shuffle の操作で処理された合計データ量に適用されるボリューム調整に基づいて、Dataflow ジョブごとに計算されます。処理された Dataflow Shuffle データに対する実際の請求額は、Dataflow ジョブで処理された合計データ量よりも少ない量に対する正規料金と同じになります。この違いにより、処理された課金対象シャッフル データの指標は、処理された合計シャッフル データの指標よりも小さくなります。
次の表で、この調整の適用方法を説明します。
Dataflow Shuffle によるデータの処理 | 請求額の調整 |
最初の 250 GB | 75% 削減 |
次の 4,870 GB | 50% 削減 |
5,120 GB(5 TB)を超えた分 | なし |
たとえば、パイプラインで合計 1,024 GB(1 TB)の Dataflow Shuffle データを処理した場合、請求額は次のように計算されます。
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
合計 10,240 GB(10 TB)の Dataflow Shuffle データを処理した場合、課金対象のデータ量は 250 GB × 25% + 4,870 GB × 50% + 5,120 GB = 7,617.5 GB です。
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Dataflow Prime のコンピューティング リソースの料金
Dataflow Prime は Dataflow を基盤とするデータ処理プラットフォームであり、リソース使用率と分散診断が改善されています。
Dataflow Prime ジョブで使用されるコンピューティング リソースは、データ コンピューティング ユニット(DCU)の数に基づいて料金が決まります。DCU は、パイプラインを実行するために割り当てられるコンピューティング リソースを表します。Dataflow Prime ジョブで使用されるその他の Dataflow リソース(永続ディスク、GPU、スナップショットなど)は、別途課金されます。
使用可能なリージョンとゾーンの詳細については、 Compute Engine のリージョンとゾーン のページをご覧ください。
データ計算装置
データ コンピューティング ユニット(DCU)は、ジョブによって消費されたコンピューティング リソースの量を追跡するための、Dataflow 使用状況測定ユニットです。DPU によって追跡されるリソースには、vCPU、メモリ、処理された Dataflow Shuffle データ(バッチジョブの場合)、処理された Streaming Engine データ(ストリーミング ジョブの場合)が含まれます。リソース消費量が多いジョブほど、リソース消費量が少ないジョブよりも DCU 使用量が多くなります。1 DCU は、1 vCPU 4 GB ワーカーで 1 時間実行される Dataflow ジョブで使用されるリソースに相当します。
データ計算単位の課金
ジョブで消費した DPU の合計数に対して課金されます。単一の DCU の料金は、バッチジョブかストリーミング ジョブかによって異なります。リソースベースの課金で Dataflow Prime を使用する場合、処理したバイト数ではなく、使用したリソースの合計に基づいて課金されます。
データ コンピューティング ユニットの使用量を最適化する
ジョブの DPU 数は設定できません。DCU は Dataflow Prime によってカウントされます。ただし、ジョブの次の側面を管理することで、消費される DPU の数を減らすことができます。
- メモリ消費量を削減する
- フィルタ、コンバイナ、効率的なコーダーを使用して、シャッフルの際に処理されるデータ量を削減する
これらの最適化を特定するには、Dataflow モニタリング インターフェースと実行の詳細インターフェースを使用します。
Dataflow Prime の料金と Dataflow の料金との違い
Dataflow では、ジョブが使用する異種リソース(vCPU、メモリ、Persistent Disk、Dataflow Shuffle や Streaming Engine によって処理されたデータ量)について課金されます。
Data Compute Unit は、ストレージを除くすべてのリソースを 1 つの測定単位に統合します。ジョブの種類(バッチまたはストリーミング)に基づいて、消費された DPU の数が課金されます。詳細については、Dataflow Prime の使用をご覧ください。
Dataflow 料金モデルを使用している既存のジョブへの影響
既存のバッチジョブとストリーミング ジョブは引き続き Dataflow モデルを使用して課金されます。Dataflow Prime を使用するようにジョブを更新すると、ジョブは Dataflow Prime 料金モデルを使用し、Persistent Disk リソースと消費した DCU に対して課金されます。
その他の Dataflow リソース
ストレージ、GPU、スナップショット、その他のリソースは、Dataflow と Dataflow Prime で同じ方法で課金されます。
ストレージ リソースの料金
ストレージ リソースは、ストリーミング、バッチ、FlexRS ジョブと同じレートで課金されます。パイプライン オプションを使用して、デフォルトのディスクサイズやディスクタイプを変更できます。Dataflow Prime では、次の表の料金に基づいて永続ディスクを個別に課金します。
Dataflow サービスは、ストリーミング ジョブの実行時に、ワーカー インスタンスあたり 15 個の永続ディスクに制限されています。各永続ディスクは、個々の Compute Engine 仮想マシンに対してローカルです。リソース割り当てでは、ワーカーとディスクの 1:1 の比率が最小要件になります。
Streaming Engine を使用するジョブでは、30 GB のブートディスクが使用されます。Dataflow Shuffle を使用するジョブでは、25 GB のブートディスクが使用されます。これらのプロダクトを使用していないジョブの場合、各永続ディスクのデフォルト サイズは、バッチモードで 250 GB、ストリーミング モードで 400 GB です。
Compute Engine の使用量は平均ワーカー数に基づき、永続ディスクの使用量は --maxNumWorkers
の値に基づきます。永続ディスクは、各ワーカーにアタッチされたディスク数が等しくなるように再配布されます。
GPU リソースの料金
GPU リソースは、ストリーミング ジョブとバッチ ジョブで同じ料金で課金されます。現在、FlexRS は GPU をサポートしていません。GPU で使用可能なリージョンとゾーンについては、Compute Engine ドキュメントの GPU のリージョンとゾーンの可用性をご覧ください。
スナップショット
ストリーミング パイプラインの信頼性を管理するために、スナップショットを使用してパイプラインの状態を保存し、復元できます。スナップショットの使用量は、保存されたデータ量によって課金されますが、これは以下の要因によって決まります。
- ストリーミング パイプラインに取り込まれたデータの量
- ウィンドウ処理ロジック
- パイプライン ステージの数
Dataflow コンソールまたは Google Cloud CLI を使用して、ストリーミング ジョブのスナップショットを取得できます。スナップショットからジョブを作成して、パイプラインの状態を復元する場合、追加料金は発生しません。詳細については、Dataflow スナップショットの使用をご覧ください。
スナップショットの料金
Confidential VMs
Dataflow 向け Confidential VM は、ワーカー Compute Engine VM で使用中のデータを暗号化します。詳しくは、Confidential VMs の概要をご覧ください。
Dataflow で Confidential VM を使用すると、vCPU あたりと GB あたりの定額料金が追加で発生します。
Confidential VMs の料金
料金はグローバルで、Google Cloud リージョンに基づいて変更されることはありません。
Dataflow 以外のリソース
Dataflow の使用に加え、ジョブで次のリソースが消費される可能性もあります(ただし、これらに限定されません)。これらのリソースは、それぞれ独自の料金設定で課金されます。
-
Dataflow ジョブでは、パイプライン実行中に一時ファイルを格納するために Cloud Storage を使用します。不要なストレージ費用が発生しないようにするには、Dataflow ジョブで一時的なストレージに使用するバケットで削除(復元可能)機能をオフにします。詳細については、バケットから削除(復元可能)ポリシーを削除するをご覧ください。
-
ログを他の宛先にルーティングするか、ログを取り込みから除外できます。Dataflow ジョブのログボリュームの最適化については、Dataflow ログボリュームの制御を参照してください。
リソースの使用状況を確認する
ジョブに関連する vCPU、メモリ、永続ディスク リソースの合計使用量は、[Job info] パネルの [Resource metrics] で確認できます。Dataflow モニタリング インターフェースでは、次の指標を追跡できます。
- 合計 vCPU 時間
- 合計メモリ使用時間
- 永続ディスクの合計使用時間
- 処理されたストリーミング データの合計量
- 処理された Shuffle データの合計量
- 課金対象となる Shuffle データの処理量
処理されたシャッフル データの合計指標を使用すると、パイプラインのパフォーマンスを評価できます。また、処理された課金対象シャッフル データ指標を使用すると、Dataflow ジョブのコストを判断できます。
Dataflow Prime では、ジョブ情報パネルのリソース指標で、ジョブで消費された DCU の合計数を確認できます。
料金計算ツール
Google Cloud 料金計算ツールを使用すると、請求金額の算出方法を確認できます。
米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。
次のステップ
- Dataflow のドキュメントを読む。
- Dataflow を使ってみる。
- 料金計算ツールを試す。
- Dataflow のソリューションとユースケースについて学習する。