Cloud Dataflow の料金

このページでは、Cloud Dataflow の料金について説明します。他のプロダクトの料金を確認するには、料金についてのドキュメントをご覧ください。

料金の概要

料金設定は時間単位ですが、Cloud Dataflow サービスはジョブごとに秒単位で課金されます。秒単位での使用に対して時間単位の料金設定を適用するため、使用時間は時間単位で表されます(例:30 分は 0.5 時間)。ワーカーとジョブは、以降のセクションで説明するようにリソースを消費します。

ワーカーとワーカー リソース

各 Cloud Dataflow ジョブは、少なくとも 1 つの Cloud Dataflow ワーカーを使用します。Cloud Dataflow サービスは、バッチとストリーミングの 2 つのワーカータイプを提供します。バッチワーカーとストリーミング ワーカーでは、それぞれ別のサービス料が設定されています。

Cloud Dataflow ワーカーは次のリソースを消費し、それぞれ秒単位で課金されます。

バッチワーカーとストリーミング ワーカーは、Compute Engine を使用する特殊なリソースです。一方、Cloud Dataflow ジョブでは Dataflow サービスによって管理される Compute Engine リソースに対して Compute Engine 課金が発生しません。Cloud Dataflow サービスの料金には、これらの Compute Engine リソースの使用料金が含まれます。

ジョブのデフォルトのワーカー数をオーバーライドできます。自動スケーリングを使用している場合は、ジョブに割り当てられるワーカーの最大数を指定できます。ワーカーとそれぞれのリソースは、自動スケーリングの作動に基づいて自動的に追加および削除されます。

また、パイプライン オプションを使用して、各ワーカーに割り当てられるデフォルトのリソース設定(マシンタイプ、データ型、ディスクサイズ)をオーバーライドできます。

Cloud Dataflow サービス

Cloud Dataflow Shuffle オペレーションは、スケーラブルで効率的、かつフォールト トレラントな方法で、キーごとにデータを分割してグループ化します。デフォルトでは、Cloud Dataflow はシャッフル実装を使用しています。シャッフル実装はすべてワーカー仮想マシンで実行され、ワーカーの CPU、メモリ、永続ディスク ストレージを消費します。

Cloud Dataflow には、オプションの機能として、スケーラビリティの高い Cloud Dataflow Shuffle も用意されています。この機能はバッチ パイプラインでのみ使用でき、ワーカー外部でデータをシャッフルします。Shuffle では、データの処理量に基づいて課金されます。Cloud Dataflow で Shuffle サービスを使用するには、Shuffle パイプライン パラメータを指定します。

Shuffle と同様に、Cloud Dataflow Streaming Engine では、ストリーミング シャッフルと状態処理がワーカー VM から Cloud Dataflow サービスのバックエンドに移動されます。Cloud Dataflow でストリーミング パイプラインに Streaming Engine を使用するには、Streaming Engine パイプライン パラメータを指定します。Streaming Engine の使用量は、ストリーミング データ処理量で課金されます。この処理量は、ストリーミング パイプラインに取り込まれたデータの量や、パイプライン ステージの複雑さと数に応じて決まります。処理されたバイトとしてカウントされるものの例には、データソースからの入力フロー、1 つの融合パイプライン ステージから別の融合ステージへのデータフロー、ユーザー定義の状態で保持されるデータフロー、ウィンドウ処理に使用されるデータフロー、Cloud Pub/Sub または BigQuery などのデータシンクへのメッセージ出力などが挙げられます。

Cloud Dataflow には、バッチ処理に使用する CPU とメモリに割引料金を適用できるオプションも用意されています。Flexible Resource Scheduling(FlexRS)では、処理リソースの使用料を抑えられるよう、通常の VM とプリエンプティブ VM を単一の Cloud Dataflow ワーカープールにまとめています。また、利用可能なリソースに基づいてジョブを開始するのに最適な時点を特定するために、FlexRS は 6 時間の枠内で Cloud Dataflow のバッチジョブを遅延させます。Cloud Dataflow では複数のワーカーを組み合わせて使用して FlexRS ジョブを実行しますが、ワーカーのタイプにかかわらず、通常の Dataflow の料金と比べると、課金には均一の割引料金が適用されます。Cloud Dataflow に対し、自動スケーリングされるバッチ パイプラインに FlexRS を使用するよう指示するには、FlexRS パラメータを使用します。

追加のジョブリソース

ワーカー リソースの使用に加え、ジョブで次のリソースが消費される可能性もあります(ただし、これらに限定されません)。これらのリソースは、それぞれ独自の料金設定で課金されます。

料金の詳細

Cloud Dataflow の今後のリリースでは、異なるサービス料や関連サービスのバンドルが導入される可能性があります。

使用可能なリージョンとゾーンの詳細については、Compute Engine のリージョンとゾーンのページをご覧ください。

アイオワ(us-central1) ロサンゼルス(us-west2) オレゴン(us-west1) 北バージニア(us-east4) サウスカロライナ(us-east1) モントリオール(northamerica-northeast1) サンパウロ(southamerica-east1) ベルギー(europe-west1) フィンランド(europe-north1) フランクフルト(europe-west3) ロンドン(europe-west2) オランダ(europe-west4) チューリッヒ(europe-west6) ムンバイ(asia-south1) シンガポール(asia-southeast1) シドニー(australia-southeast1) 香港(asia-east2) 台湾(asia-east1) 東京(asia-northeast1) 大阪(asia-northeast2)
Cloud Dataflow ワーカータイプ vCPU
(1 時間あたり)
メモリ
(GB/時間)
ストレージ - 標準永続ディスク
(GB/時間)
ストレージ - SSD 永続ディスク
(GB/時間)
データ処理量45
(GB あたり)6
バッチ1
FlexRS2
ストリーミング3

米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。

1 バッチワーカーのデフォルト: vCPU 1 個、メモリ 3.75 GB、永続ディスク 250 GB

2 FlexRS ワーカーのデフォルト: 1 ワーカーあたり vCPU 2 個、メモリ 7.50 GB、永続ディスク 25 GB(最小 2 つのワーカー)

3 ストリーミング ワーカーのデフォルト: vCPU 4 個、メモリ 15 GB、永続ディスク 420 GB

4 現在のところ、次のリージョンでバッチ パイプラインに Cloud Dataflow Shuffle を利用できます。

  • us-central1(アイオワ)
  • europe-west1(ベルギー)
  • europe-west4(オランダ)
  • asia-northeast1(東京)

他のリージョンでも今後公開していく予定です。

5 Cloud Dataflow Streaming Engine は、課金単位としてストリーミングのデータ処理量を使用します。現在 Streaming Engine を利用できるのは、次のリージョンです。

  • us-central1(アイオワ)
  • europe-west1(ベルギー)
  • asia-northeast1(東京)
  • europe-west4(オランダ)
他のリージョンでも今後公開していく予定です。

6 2018 年 5 月 3 日になるまでの Cloud Dataflow Shuffle の料金は、シャッフルされたデータ量に、シャッフルに要した時間と Shuffle メモリ内に保存されている時間をかけて計算されていました。料金は 1 時間あたり $0.0216/GB でした。2018 年 5 月 3 日以降は計算方法が変わり、Shuffle の料金は、データセットのシャッフル処理で Cloud Dataflow サービス インフラストラクチャが読み書きしたデータ量のみで計算されます。課金単位はギガバイトで、時間的な要素は考慮されなくなりました。大規模なデータセットを使用している場合、Shuffle 全体の大幅なコスト削減が見込まれます。
また、サービスベースの Shuffle の導入を促進するために、Shuffle データ処理量の最初の 5 TB については 50% 減の料金で課金されます。たとえば、パイプラインによる実際の Shuffle データの処理量が 1 TB になった場合、そのデータ量の 50%(0.5 TB)が課金対象になります。パイプラインによる実際の Shuffle データの処理量が 10 TB になった場合、最初の 5 TB は 50% の料金で課金されるため、7.5 TB 分の料金が請求されます。

使用量の確認

ジョブに関連する vCPU、メモリ、永続ディスク リソースの合計使用量は、Google Cloud Platform Console または gcloud コマンドライン ツールで確認できます。Shuffle とストリーミングの実際のデータ処理量と課金対象のデータ処理量の指標は、どちらも Cloud Dataflow Monitoring Interface で追跡できます。実際の Shuffle データ処理量を使用すると、パイプラインのパフォーマンスを評価できます。また、請求対象の Shuffle データ処理量を使用すると、Cloud Dataflow ジョブのコストを判断できます。ストリーミング データ処理量については、実際の指標と課金対象の指標は同一となります。

料金計算ツール

Google Cloud Platform 料金計算ツールを使用すると、請求金額の算出方法を確認できます。

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。