Cloud Dataflow

信頼性と表現力を損なうことなく、ストリーム データとバッチデータの処理を簡素化

無料トライアル

開発時間を短縮し、より管理しやすく

Cloud Dataflow は、データの信頼性と表現力を損なうことなく、ストリーム(リアルタイム)モードまたはバッチ(履歴)モードでデータを変換して拡充する、フルマネージド サービスです。このサービスを利用すれば、複雑な回避策を用意したり、妥協策を講じたりする必要はなくなります。さらに、サーバーレス アプローチによるリソースのプロビジョニングと管理により、実質無制限の容量を従量課金制で使用して、膨大な量のデータ処理の問題を解決できます。

Cloud Dataflow は、さまざまな業界に革新的なユースケースをもたらします。以下はその例です。

  • 小売でのクリックストリーム、POS、セグメントの分析
  • 金融サービスにおける不正行為の検出
  • ゲームでのユーザー エクスペリエンスのパーソナライズ
  • 製造、ヘルスケア、ロジスティクスでの IoT 分析
faster-development-easier-management

バッチ用途とストリーミング用途で開発を迅速化

Cloud Dataflow は、迅速かつ簡素化されたパイプライン開発をサポートするために、Apache Beam SDK に含まれる表現力豊かな SQL、Java、Python API を利用します。この SDK は、ウィンドウ処理とセッション分析のプリミティブの豊富なセットに加えて、ソースとシンクのコネクタからなるエコシステムも備えています。さらに、Beam 独自の統合開発モデルにより、ストリーミングとバッチ パイプライン全体で、より多くのコードを再利用できるようになっています。

今後の Dataflow SQL アルファ版の提供状況の通知をリクエストするには、こちらのフォームに記入してください。ご利用可能になった時点でご連絡差し上げます。

accelerate-development-with-no-compromises

運用と管理を簡素化

GCP のサーバーレス アプローチは、パフォーマンス、スケーリング、可用性、セキュリティ、コンプライアンスに自動的に対処することによって、運用上のオーバーヘッドを取り除きます。つまり、ユーザーはサーバー クラスタの管理ではなく、プログラミングに専念できるということです。 Stackdriver を統合した GCP のロギング、モニタリング ソリューションでは、実行中のパイプラインをモニタリングしてトラブルシューティングできます。優れた可視性、ロギング、高度なアラートにより、潜在的な問題を特定して対処できるようになります。

simplify-operations-and-management

機械学習を基盤とした構築

Cloud Dataflow は、予測分析の統合ポイントとしても役立ちます。Cloud Dataflow を使用して TensorFlow ベースの Cloud Machine Learning モデルと API をデータ処理パイプラインに追加すると、不正検出、リアルタイムのカスタマイズ、類似のユースケースなどに予測分析を導入できます。

build-on-a-foundation-for-machine-learning

お気に入りの使い慣れたツールを統合

Cloud Dataflow は、ストリーミング イベントの取り込み(Cloud Pub/Sub)、データ ウェアハウジング(BigQuery)、機械学習(Cloud Machine Learning)など、さまざまな GCP サービスとシームレスに統合されています。また、付属の Beam ベースの SDK を利用することで、デベロッパーがカスタム拡張機能を作成できるだけでなく、Cloud Dataproc またはオンプレミスを介した Apache Spark など、別の実行エンジンを選択することもできます。Apache Kafka ユーザーは、Cloud Dataflow コネクタを使用して簡単に GCP を統合できます。

use-your-favorite-and-familiar-tools

Cloud Dataflow によるデータの変換

diagram-dataflow

Cloud Dataflow の特長

自動リソース管理
Cloud Dataflow は、処理リソースのプロビジョニングと管理を自動化することで、レイテンシを最小限に抑えつつ、利用率を高いレベルで維持できます。したがって、手作業で追加のインスタンスを起動したり、予約したりする必要がなくなります。
動的作業再調整
作業配分の自動化と最適化により、遅れている作業の優先順位が動的に調整されます。もう最新状況を追跡したり、入力データを事前に処理したりする必要はありません。
信頼性の高い一貫した処理
Cloud Dataflow には、データサイズ、クラスタサイズ、処理パターン、パイプラインの複雑さを問わない、一貫性のある高精度のフォールト トレラント機能が組み込まれています
水平自動スケーリング
ワーカー リソースの水平自動スケーリング機能によりスループットが最適化され、処理性能に対する費用対効果が全体的に向上します。
統合型プログラミング モデル
Apache Beam SDK は、MapReduce に匹敵する充実したオペレーション、高度なデータ ウィンドウ処理、ストリーミング データやバッチデータなどといったデータのきめ細かな検証コントロールを可能にします。
コミュニティ ドリブンのイノベーション
Cloud Dataflow プログラミング モデルの拡張を目指すデベロッパーは、Apache Beam のコードを fork したり提供したりできます。
バッチ処理に適したフレキシブル リソース スケジューリング料金
深夜のジョブなど、スケジュールに柔軟性があるジョブの処理には、フレキシブル リソース スケジューリングをお使いください。低料金のバッチ処理が可能です。このようなフレキシブル ジョブはキューに入り、6 時間以内に確実にキューから取り出されて実行されます。

Cloud Dataflow と Cloud Dataproc のどちらを使用するか

Cloud Dataproc と Cloud Dataflow はどちらもデータ処理に使用できますが、双方のバッチ機能やストリーミング機能は重複しています。どちらのプロダクトがお使いの環境により適しているか、以下のフローでご確認ください。
Dataproc と Dataflow

Cloud Dataproc

Cloud Dataproc は、Apache ビッグデータ エコシステムの特定のコンポーネントに依存する環境での利用をおすすめします。

  • ツール / パッケージ
  • パイプライン
  • 既存リソースのスキルセット

Cloud Dataflow

Cloud Dataflow は制約のない環境での利用をおすすめします。

  • 運用上のオーバーヘッドが少ない
  • バッチ パイプラインまたはストリーミング パイプラインの開発に統合アプローチを採用
  • Apache Beam を使用
  • Cloud Dataflow、Apache Spark、Apache Flink の各ランタイム間でパイプラインを移植可能

推奨されるワークロード

ワークロード Cloud Dataproc Cloud Dataflow
ストリーム処理(ETL)
バッチ処理(ETL)
反復処理とノートブック
Spark ML での機械学習
機械学習の前処理 (Cloud ML Engine を使用)

パートナーとの統合

Google Cloud Platform のパートナーとサードパーティのデベロッパーが Dataflow との統合機能を開発しており、さまざまな規模での高性能なデータ処理の実装が迅速かつ容易に行えるようになっています。

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

Tamr

「パイプラインは Cloud Dataflow 上で実行しているので、私たちはコードを実行するためのインスタンスのデプロイや保守について考えることなく、プログラミングに専念できます(これは、GCP 全体にわたって言える特長です)。」

- Jibran Saithi 氏 Qubit 社主任アーキテクト

お手頃な価格

Cloud Dataflow ジョブは、Cloud Dataflow バッチまたはストリーミング ワーカーの実際の使用に基づき、秒単位で課金されます。他の GCP リソース(Cloud Storage や Cloud Pub/Sub など)を使用するジョブは、該当するサービスの料金に応じて、サービスごとに課金されます。

アイオワ(us-central1) ロサンゼルス(us-west2) オレゴン(us-west1) 北バージニア(us-east4) サウスカロライナ(us-east1) モントリオール(northamerica-northeast1) サンパウロ(southamerica-east1) ベルギー(europe-west1) フランクフルト(europe-west3) ロンドン(europe-west2) オランダ(europe-west4) チューリッヒ(europe-west6) ムンバイ(asia-south1) シンガポール(asia-southeast1) シドニー(australia-southeast1) 香港(asia-east2) 台湾(asia-east1) 東京(asia-northeast1) 大阪(asia-northeast2)
Cloud Dataflow ワーカータイプ vCPU
$/時間
メモリ
$ GB/時間
ストレージ - 標準永続ディスク
$ GB/時間
ストレージ - SSD 永続ディスク
$ GB/時間
データ処理量45
$ GB6
バッチ 1
FlexRS 2
ストリーミング 3
米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。

1 バッチワーカーのデフォルト: vCPU 1 個、メモリ 3.75 GB、永続ディスク 250 GB

2 FlexRS ワーカーのデフォルト: 1 ワーカーあたり vCPU 2 個、メモリ 7.50 GB、永続ディスク 25 GB(最小 2 つのワーカー)

3 ストリーミング ワーカーのデフォルト: vCPU 4 個、メモリ 15 GB、永続ディスク 420 GB

4 現在、バッチ パイプラインに Cloud Dataflow Shuffle を利用できるのは、次のリージョンです。

  • us-central1(アイオワ)
  • europe-west1(ベルギー)
  • europe-west4(オランダ)
  • asia-northeast1(東京)

他のリージョンでも今後公開していく予定です。

5 Cloud Dataflow Streaming Engine の料金単位は、ストリーミングのデータ処理量です。現在 Streaming Engine を利用できるのは、次のリージョンです。

  • us-central1(アイオワ)
  • europe-west1(ベルギー)
  • europe-west4(オランダ)
  • asia-northeast1(東京)
他のリージョンでも今後公開していく予定です。

6 データ処理量の詳細については、Cloud Dataflow の料金をご覧ください。

Cloud AI プロダクトはこちらに記載されている各種 SLA ポリシーに準拠しています。 これらの SLA ポリシーで保証されているレイテンシや可用性は、他の Google Cloud サービスとは異なる場合があります。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。