Dataflow の料金
このページでは、Dataflow の料金について説明します。他のプロダクトの料金を確認するには、料金についてのドキュメントをご覧ください。
3 年間のコミットメントで 40%、1 年間のコミットメントで 20% の割引を行う方法を確認する 確約利用割引(CUD)ページをご確認ください。
概要
Dataflow の使用は、ジョブで使用するリソースに対して課金されます。 使用する料金モデルに応じて リソースの測定と課金の方法は異なります
Dataflow コンピューティング リソース | Dataflow Prime コンピューティング リソース |
|
データ コンピューティング単位数(DCU) (バッチおよびストリーミング) |
すべてのジョブに対して課金されるその他の Dataflow リソース には、永続ディスク、GPU、スナップショットなどがあります。
Dataflow に他のサービスのリソースを使用できる場合があります。 できます。Dataflow で使用されるサービスには、BigQuery、Pub/Sub、 Cloud Logging などがあります。
料金は時間単位ですが、Dataflow は ジョブごとに秒単位で課金されます。使用量は 秒単位での使用に時間単位の料金を適用するには、時間単位の時間で記載する必要があります。 たとえば、30 分は 0.5 時間です。ワーカーとジョブは、リソースの消費、 以下で説明します。
Dataflow の今後のリリースでは、別のサービス料金が適用される可能性があります 一括で管理することもできます
Dataflow のコンピューティング リソース
コンピューティング リソースに対する Dataflow の課金 次のコンポーネントが含まれます。
- ワーカーの CPU とメモリ
- バッチ ワークロード用に処理される Dataflow Shuffle データ
- Streaming Engine コンピューティング単位数
- Streaming Engine で処理されたデータ
使用可能なリージョンとゾーンについては、このモジュールの Compute Engine のリージョンとゾーン できます。
ワーカーの CPU とメモリ
各 Dataflow ジョブは、少なくとも 1 つの Dataflow ワーカーを使用します。Dataflow サービスは、バッチとストリーミングの 2 つのワーカータイプを提供します。バッチワーカーとストリーミング ワーカーでは、サービス料金が別々に発生します。
Dataflow ワーカーは次のリソースを消費し、それぞれが課金対象 次のように指定されています。
- CPU
- メモリ
バッチワーカーとストリーミング ワーカーは、Compute Engine を使用する特殊なリソースです。ただし Dataflow ジョブは Compute Engine で管理される Compute Engine リソースに対する Compute Engine の課金 読み取ります代わりに Dataflow サービスは 料金にはこれらの Compute Engine リソースの使用が含まれます。
ジョブのデフォルトのワーカー数をオーバーライドできます。以下を使用している場合: 自動スケーリングを使用して、 ジョブに割り当てるワーカーの最大数を指定するワーカーと リソースが自動的に追加、削除されます。 自動スケーリングの作動
また、 パイプライン オプション デフォルトのリソース設定(マシンタイプ、ディスクタイプ、ディスク 各ワーカーに割り当てられる GPU サイズです。
FlexRS
Dataflow では、CPU とメモリを割引料金で利用するオプションが 費用を節約できますFlexible Resource Scheduling(FlexRS)では、処理リソースの使用料を抑えられるよう、通常の VM とプリエンプティブル VM を単一の Dataflow ワーカープールにまとめています。FlexRS ではバッチの実行を遅延させることもできます。 Dataflow ジョブを実行して 6 時間の時間枠内で最適なポイントを ジョブを開始するまでの時間を指定します。
Dataflow は、 ワーカーを組み合わせて FlexRS ジョブを実行する場合、 正規料金と比べて CPU とメモリの費用が約 40% 割引 Dataflow の料金も、料金に関係なく ワーカータイプを指定しますDataflow で、自動スケーリングされるバッチ パイプラインに FlexRS を使用するには、FlexRS パラメータを指定します。
Dataflow Shuffle によるデータの処理
バッチ パイプラインの場合、Dataflow はスケーラビリティに優れており、 ワーカーの外部にあるデータをシャッフルする Dataflow Shuffle。 詳細については、次をご覧ください: Dataflow Shuffle。
Dataflow Shuffle ではデータ量に基づいて課金 シャッフル中に処理されます。
Streaming Engine の料金
ストリーミング パイプラインの場合、Dataflow Streaming Engine は ワーカー VM からクラスタへのストリーミング シャッフルと状態処理 Dataflow サービスのバックエンドです詳細については、次をご覧ください: Streaming Engine。
Streaming Engine コンピューティング単位数
リソースベースの課金では、Streaming Engine のリソースは Streaming Engine コンピューティング単位数 Dataflow が各ジョブが使用する Streaming Engine リソースを測定する そのジョブで使用した合計リソースに基づいて課金されます。 ジョブでリソースベースの課金を有効にするには、以下をご覧ください。 リソースベースの課金を使用する。 リソースベースの課金を使用すると、既存の割引が自動的に適用されます。
リソースベースの課金で Dataflow Prime を使用する場合、 各ジョブが使用するリソースの合計に 課金されますが 代わりに Data Compute Unit(DCU)SKU が使用されます。 Streaming Engine Compute Unit SKU。
Streaming Engine で処理されたデータ(レガシー)
Dataflow は引き続き 従来のデータ処理課金をサポートできますこれを行わない場合、 リソースベースの課金を有効にする データ処理課金によって課金されます
Streaming Engine のデータ処理課金では、使用したリソースの量によって使用量が測定されます。 処理されるストリーミング データの変動は、次の要因に左右されます。
- ストリーミング パイプラインに取り込まれるデータの量
- パイプラインの複雑さ
- シャッフル オペレーションまたは ステートフル DoFn
処理されたバイト数としてカウントされるものの例を以下に示します。
- データソースからの入力フロー
- 融合されたパイプライン ステージから別の融合ステージへのデータフロー
- ユーザー定義の状態で保持されるか、ウィンドウ処理に使用されるデータのフロー
- Pub/Sub や BigQuery などのデータシンクへのメッセージ出力
Dataflow コンピューティング リソースの料金 - バッチおよびFlexRS
次の表に、ワーカー リソースと Shuffle の料金の詳細を示します。 バッチジョブと FlexRS ジョブで処理される データに最適です
1 バッチワーカーのデフォルト: vCPU 1 個、メモリ 3.75 GB、永続ディスク 250 GB(Dataflow を使用しない場合) シャッフル。Dataflow Shuffle を使用する場合は 25 GB の永続ディスク
2 FlexRS ワーカーのデフォルト: 1 ワーカーあたり vCPU 2 個、メモリ 7.50 GB、永続ディスク 25 GB(最小 2 つのワーカー)
Dataflow コンピューティング リソースの料金 - ストリーミング
次の表に、ワーカー リソース、ストリーミング、 処理されたエンジン データ(レガシー)、ストリーミング用の Streaming Engine コンピューティング単位数 できます。
3 ストリーミング ワーカーのデフォルト: vCPU 4 個、メモリ 15 GB、永続ディスク 400 GB Streaming Engine を使用しない場合は、Streaming Engine を使用する場合は 30 GB の永続ディスク。「 Dataflow サービスは現在、ワーカー インスタンスごとに 15 個の永続ディスクに制限されています。 ストリーミングジョブの実行リソース割り当てでは、ワーカーとディスクの 1:1 の比率が最小要件になります。
4 Dataflow Shuffle の料金は、処理されたデータ量に適用されるボリューム調整に基づいています。 読み取り / 書き込みオペレーション中も高速になります。詳細については、Dataflow Shuffle の料金の詳細をご覧ください。Dataflow Shuffle の料金は、リソースベースの課金を使用する Streaming Engine ジョブには適用されません。
5 Streaming Engine コンピューティング単位数: Streaming Engine とリソースベースの課金モデルを使用するストリーミング ジョブの場合。これらのジョブは、シャッフル中に処理されたデータに対しては課金されません。
処理された Dataflow Shuffle データのボリューム調整
料金は、Dataflow ジョブごとに、 Dataflow Shuffle オペレーション中に処理されるデータの割合。処理された Dataflow Shuffle データに対する実際の請求額は、Dataflow ジョブで処理された合計データ量よりも少ない量に対する正規料金と同じになります。この違いにより、 請求対象シャッフル データの処理量指標が 処理されたシャッフル データの合計指標。
次の表で、この調整の適用方法を説明します。
Dataflow Shuffle によるデータの処理 | 請求額の調整 |
最初の 250 GB | 75% 削減 |
次の 4,870 GB | 50% 削減 |
5,120 GB(5 TB)を超えた分 | なし |
たとえば、パイプラインで Dataflow Shuffle データの合計が 1,024 GB(1 TB)処理される場合、請求額は次のように計算されます。
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
パイプラインで処理される Dataflow Shuffle データの合計が 10, 240 GB(10 TB)になった場合、課金対象のデータ量は次のようになります。
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Dataflow Prime コンピューティング リソースの料金
Dataflow Prime Dataflow を基盤とするデータ処理プラットフォームで リソース使用率と分散診断の改善。
Dataflow Prime ジョブで使用されるコンピューティング リソースは、データ コンピューティング単位数(DCU)。DCU は、割り当てられたコンピューティング リソースを表す パイプラインを実行しますその他の Dataflow リソース 永続ディスク、GPU、スナップショットなど、Dataflow Prime ジョブで使用される 別途請求されます。
使用可能なリージョンとゾーンについては、このモジュールの Compute Engine のリージョンとゾーン できます。
データ計算装置
データ コンピューティング ユニット(DCU)は、Dataflow 使用状況測定ユニットで、 ジョブで消費されたコンピューティング リソースの数を追跡します。追跡対象のリソース vCPU、メモリ、Dataflow Shuffle の処理データ (ストリーミング ジョブの場合)、処理された Streaming Engine データ(ストリーミング ジョブの場合)。人材サービス リソース消費量が多いジョブほど、DCU の使用量が多くなる リソースを削減できます。1 つの DCU は、アプリケーションが使用するリソースに 1 vCPU、4 GB のワーカーで 1 時間実行される Dataflow ジョブ。
データ コンピューティング ユニットの課金
ジョブで使用された DCU の合計数に対して課金されます。 1 つの DCU の料金は、 バッチジョブまたはストリーミングジョブを 定義できますDataflow Prime を使用する場合 リソースベースの課金では、 プロセスのバイト数ではなく、使用された合計リソースに基づいて課金されます。
データ コンピューティング ユニットの使用量を最適化する
ジョブの DCU の数は設定できません。DCU は Dataflow Prime でカウントされます。 ただし、以下を管理することで、使用する DCU の数を減らすことができます。 いくつかあります。
- メモリ消費量の削減
- フィルタ、コンバイナ、効率的なコーダーを使用して、シャッフル ステップで処理されるデータの量を削減する
これらの最適化を特定するには、 Dataflow モニタリング インターフェース 実行の詳細インターフェースをご覧ください。
Dataflow Prime の料金と Dataflow の料金の違いは何ですか?
Dataflow では、異種のリソースに対して課金される vCPU、メモリ、永続ディスク、CPU によって処理されたデータの量など、ジョブによって Dataflow Shuffle または Streaming Engine です
データ コンピューティング ユニットは、ストレージ以外のすべてのリソースを 単一の測定単位永続ディスクのリソースと 使用される DCU の数。ジョブタイプ、バッチまたはストリーミングに基づきます。 詳細については、Dataflow Prime の使用をご覧ください。
Dataflow の料金モデルを使用している既存のジョブはどうなりますか?
既存のバッチジョブとストリーミング ジョブは、引き続き Dataflow モデル。ジョブを Dataflow Prime を使用している場合、ジョブは Dataflow Prime の料金モデルを使用します。このモデルでは、永続ディスクの料金が請求されます。 使用した DCU の費用が削減されます。
その他の Dataflow リソース
ストレージ、GPU、スナップショット、その他のリソースは、 同様の方法で行えます
ストレージ リソースの料金
ストレージ リソースはストリーミング、バッチ、FlexRS で同じレートで課金される できます。次を使用: パイプライン オプションを使用して、デフォルトのディスクサイズやディスクタイプを変更します。 Dataflow Prime は、 表します
Dataflow サービスは現在、永続ディスクが 15 個までに制限されています。 ワーカー インスタンスあたり各永続ディスクはローカル 個々の Compute Engine 仮想マシンにアタッチできます。1:1 の比率 最小のリソース割り当てはワーカーとディスクです
Streaming Engine を使用するジョブ: 30 GB 使用します。Dataflow Shuffle を使用するジョブ 25 GB のブートディスクを使用します。これらのサービスを使用していない求人の場合、 バッチモードでは各永続ディスクのデフォルト サイズは 250 GB で、 ストリーミング モードで 400 GB。
Compute Engine の使用量は平均ワーカー数に基づきますが、
Persistent Disk の使用量は、--maxNumWorkers
の正確な値に基づきます。永続ディスク
各ワーカーにアタッチされるディスク数が等しくなるように、ワーカーが再分散されます。
GPU リソースの料金
GPU リソースは、ストリーミング ジョブとバッチジョブで同じレートで課金されます。FlexRS サポートしていません利用可能なリージョンと 詳細は、以下をご覧ください。 GPU のリージョンとゾーンの可用性 ドキュメントをご覧ください。
スナップショット
ストリーミング パイプラインの信頼性を管理するために、 パイプラインの状態を保存および復元できます スナップショットの使用量は、保存されているデータの量に応じて課金されます。この量は、次の要因によって決まります。
- ストリーミング パイプラインに取り込まれるデータの量
- ウィンドウ処理ロジック
- パイプラインのステージ数
Dataflow を使用して、ストリーミング ジョブのスナップショットを作成できます。 Google Cloud CLI を使用できますスナップショットからジョブを作成して、パイプラインの状態を復元する場合、追加料金は発生しません。詳細については、次をご覧ください: Dataflow スナップショットの使用
スナップショットの料金
Confidential VMs
Dataflow 用の Confidential VMs は、オンプレミスで使用中の ワーカー Compute Engine VM です。詳しくは、 Confidential VMs の概要
Dataflow に Confidential VMs を使用すると、追加のフラット 費用を最適化できます
Confidential VMs の料金
料金は全世界共通で、Google Cloud のリージョンによって変わることはありません。
Dataflow 以外のリソース
Dataflow のほかに、ジョブで次のような処理が消費されることがあります リソースにそれぞれ固有の料金が適用されます。これには次のものが含まれますが、これらに限定されません。
-
Dataflow ジョブでは、パイプライン実行中に一時ファイルを格納するために Cloud Storage を使用します。不要なストレージ費用が発生しないようにするには、Dataflow ジョブで一時的なストレージに使用するバケットで削除(復元可能)機能をオフにします。詳細については、バケットから削除(復元可能)ポリシーを削除するをご覧ください。
-
ログを他の宛先や Google Cloud サービスに 取り込みからログを除外する。 Dataflow のログボリュームの最適化については、 Dataflow ログボリュームの制御をご覧ください。
リソースの使用状況を表示する
関連付けられている vCPU、メモリ、永続ディスク リソースの合計を [ジョブ情報] パネルの [リソースの指標] にジョブが表示されます。マイページ 次の指標を Dataflow モニタリング インターフェース:
- 合計 vCPU 時間
- 合計メモリ使用時間
- Persistent Disk の合計使用時間
- 処理されたストリーミング データの合計量
- 処理されたシャッフル データの合計
- 処理された課金対象のシャッフル データ
処理されたシャッフル データの合計指標を使用して、 パイプラインと課金対象のシャッフル データ処理指標を使用して、費用を算出します。 確認します
Dataflow Prime では、ジョブで使用された DCU の合計数を確認できる [ジョブ情報] パネルの [リソース指標]。
料金計算ツール
Google Cloud 料金計算ツールを使用すると、請求金額の算出方法を確認できます。
米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。
次のステップ
- Dataflow のドキュメントを読む。
- Dataflow を使ってみる。
- 料金計算ツールを試す。
- Dataflow のソリューションとユースケースについて学習する。