Cloud Dataflow

信頼性と表現力を損なうことなく、ストリーム データ処理とバッチデータ処理を簡素化

無料トライアル

開発時間を短縮し、より管理しやすく

Cloud Dataflow は、データの信頼性と表現力を損なうことなく、ストリーム(リアルタイム)モードまたはバッチ(履歴)モードでデータを変換して拡充する、フルマネージド サービスです。このサービスを利用すれば、複雑な回避策を用意したり、妥協策を講じたりする必要はなくなります。さらに、サーバーレス アプローチによるリソースのプロビジョニングと管理により、実質無制限の容量を従量課金制で使用して、膨大な量のデータ処理の問題を解決することができます。

Cloud Dataflow は、さまざまな業界に革新的なユースケースをもたらします。以下はその一例です。

  • check 小売でのクリックストリーム、POS、セグメンテーションの分析
  • check 金融サービスでの不正の検出
  • check ゲームでのユーザー エクスペリエンスのカスタマイズ
  • check 製造、ヘルスケア、ロジスティクスでの IoT 分析
faster-development-easier-management

バッチとストリーミングの開発を迅速化

Cloud Dataflow は、高速かつ簡素化されたパイプライン開発をサポートするために、Apache Beam SDK に含まれる表現力豊かな Java と Python API を利用します。この SDK には、ウィンドウ処理とセッション分析のプリミティブが豊富に用意され、ソースとシンクのコネクタからなるエコシステムも提供されます。さらに、Beam 独自の統合開発モデルにより、ストリーミングとバッチ パイプライン全体で、より多くのコードを再利用できるようになっています。

accelerate-development-with-no-compromises

運用と管理を簡素化

GCP のサーバーレス アプローチは、パフォーマンス、スケーリング、可用性、セキュリティ、コンプライアンスに自動的に対処することによって、運用上のオーバーヘッドを取り除きます。つまり、ユーザーはサーバー クラスタの管理ではなく、プログラミングに専念できるということです。Stackdriver を統合した GCP のロギングとモニタリング ソリューションでは、実行中のパイプラインをモニタリングしてトラブルシューティングすることができます。豊富な可視化、ロギング、高度なアラートにより、潜在的な問題を特定して対処できるようになります。

simplify-operations-and-management

機械学習を基盤とした構築

Cloud Dataflow は、予測分析の統合ポイントとしても役立ちます。Cloud Dataflow を使用して TensorFlow ベースの Cloud Machine Learning モデルと API をデータ処理パイプラインに追加すると、不正検出、リアルタイムのカスタマイズ、類似のユースケースなどに予測分析を導入することができます。

build-on-a-foundation-for-machine-learning

お気に入りの使い慣れたツールを統合

Cloud Dataflow は、ストリーミング イベントの取り込み(Cloud Pub/Sub)、データ ウェアハウジング(BigQuery)、機械学習(Cloud Machine Learning)をはじめ、さまざまな GCP サービスをシームレスに統合します。また、付属の Beam ベースの SDK を利用することで、デベロッパーがカスタム拡張機能を作成できるだけでなく、Cloud Dataproc またはオンプレミスを介した Apache Spark など、別の実行エンジンを選択することもできます。Apache Kafka ユーザーは、Cloud Dataflow コネクタを使用して簡単に GCP を統合できます。

use-your-favorite-and-familiar-tools

Cloud Dataflow によるデータの変換

diagram-dataflow

Cloud Dataflow の特長

自動リソース管理
Cloud Dataflow は、処理リソースのプロビジョニングと管理を自動化することで、レイテンシを最小限に抑えつつ、利用率を高いレベルで維持できます。したがって、手作業で追加のインスタンスを起動したり予約したりする必要がなくなります。
動的な作業再調整
作業配分の自動化と最適化により、遅れている作業の優先順位が動的に調整されます。もう最新状況を追跡したり、入力データを事前に処理したりする必要はありません。
信頼性の高い一貫した処理
Cloud Dataflow には、データサイズ、クラスタサイズ、処理パターン、パイプラインの複雑さを問わない、一貫性のある高精度のフォールト トレラント機能が組み込まれています
水平自動スケーリング
ワーカー リソースの水平自動スケーリング機能によりスループットが最適化され、処理性能に対するコスト パフォーマンスが全体的に向上します。
統合型プログラミング モデル
Apache Beam SDK は、MapReduce に匹敵する充実したオペレーション、高度なデータ ウィンドウ処理、ストリーミング データやバッチデータなどといったデータのきめ細かな検証コントロールを提供します。
コミュニティ主導のイノベーション
Cloud Dataflow プログラミング モデルの拡張を目指すデベロッパーは、Apache Beam のコードをフォークしたり貢献したりできます。

Cloud Dataflow と Cloud Dataproc のどちらを使用するか

Cloud Dataproc と Cloud Dataflow はどちらもデータ処理に使用でき、バッチとストリーミングは機能が重複しています。どちらのプロダクトがお使いの環境により適しているか、以下のフローでご確認ください。
Dataproc と Dataflow

Cloud Dataproc

Cloud Dataproc は、Apache ビッグデータ エコシステムの特定のコンポーネントに対応する環境での利用をおすすめします。

  • check ツール / パッケージ
  • check パイプライン
  • check 既存リソースのスキルセット

Cloud Dataflow

Cloud Dataflow は制約のない環境での利用をおすすめします。

  • check オペレーション上のオーバーヘッドが少ない
  • check バッチ パイプラインまたはストリーミング パイプラインの開発に統合アプローチを採用
  • check Apache Beam を使用
  • check Cloud Dataflow、Apache Spark、Apache Flink でランタイムとして使用でき、パイプラインのポータビリティに対応

推奨されるワークロード

ワークロード Cloud Dataproc Cloud Dataflow
ストリーム処理(ETL) check
バッチ処理(ETL) check check
反復処理とノートブック check
Spark ML での機械学習 check
機械学習の前処理 check(Cloud ML Engine 使用)

パートナーとの統合

Google Cloud Platform のパートナーとサードパーティのデベロッパーが Dataflow との統合機能を開発しており、さまざまな規模での高性能なデータ処理の実装が迅速かつ容易に行えるようになっています。

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

「パイプラインは Cloud Dataflow 上で実行しているので、私たちはコードを実行するためのインスタンスのデプロイや保守について考えることなく、プログラミングに専念することができます(これは、GCP 全体にわたって言える特徴です)。」

- Jibran Saithi 氏、Qubit 社主任アーキテクト

お手頃な価格

Cloud Dataflow ジョブは、Cloud Dataflow バッチまたはストリーミング ワーカーの実際の使用に基づき、秒単位で課金されます。他の GCP リソース(Cloud Storage や Cloud Pub/Sub など)を使用するジョブは、該当するサービスの価格設定に応じて、サービスごとに課金されます。

アイオワ(us-central1) ロサンゼルス(us-west2) オレゴン(us-west1) バージニア州北部(us-east4) サウスカロライナ(us-east1) モントリオール(northamerica-northeast1) サンパウロ(southamerica-east1) ベルギー(europe-west1) フィンランド(europe-north1) フランクフルト(europe-west3) ロンドン(europe-west2) オランダ(europe-west4) ムンバイ(asia-south1) シンガポール(asia-southeast1) シドニー(australia-southeast1) 台湾(asia-east1) 東京(asia-northeast1)
Cloud Dataflow ワーカータイプ vCPU
$/時間
メモリ
$ GB/時間
ストレージ - 標準永続ディスク
$ GB/時間
ストレージ - SSD 永続ディスク
$ GB/時間
データ処理量34
$ GB5
バッチ1
ストリーミング2
米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。

1 バッチワーカーのデフォルト: vCPU 1 個、メモリ 3.75 GB、永続ディスク 250 GB

2 ストリーミング ワーカーのデフォルト: vCPU 4 個、メモリ 15 GB、永続ディスク 420 GB

3 Cloud Dataflow Shuffle は現在、us-central1(アイオワ)リージョンと europe-west1(ベルギー)リージョンのバッチ パイプラインでのみ公開されています。他のリージョンでも今後公開していく予定です。

4 Cloud Dataflow Streaming Engine は、課金単位にストリーミングのデータ処理量を使用します。Streaming Engine は現在、us-central1(アイオワ)リージョンと europe-west1(ベルギー)リージョンのストリーミング パイプラインでのみ、ベータ版として公開されています。他のリージョンでも今後公開していく予定です。

5 データ処理量について詳しくは、Cloud Dataflow の料金をご覧ください。

フィードバックを送信...