Cloud Dataflow

信頼性と表現力を損なうことなく、ストリームとバッチデータ処理を簡素化

無料トライアル

開発時間を短縮し、より管理しやすく

Cloud Dataflow は、データの信頼性と表現力を損なうことなく、ストリーム(リアルタイム)モードまたはバッチ(履歴)モードでデータを変換して拡充する、フルマネージド サービスです。このサービスを利用すれば、複雑な回避策を用意したり、妥協策を講じたりする必要はなくなります。さらに、サーバーレス アプローチによるリソースのプロビジョニングと管理により、実質無制限の容量を従量課金制で使用して、膨大な量のデータ処理の問題を解決することができます。

Cloud Dataflow は、さまざまな業界に革新的なユースケースをもたらします。以下はその一例です。

  • check 小売でのクリックストリーム、POS、セグメンテーションの分析
  • check 金融サービスでの不正の検出
  • check ゲームでのカスタマイズされたユーザー エクスペリエンス
  • check 製造、ヘルスケア、ロジスティクスでの IoT 分析
faster-development-easier-management

バッチとストリーミングの開発を迅速化

Cloud Dataflow は、高速かつ簡素化されたパイプライン開発をサポートするために、Apache Beam SDK に含まれる表現力豊かな Java と Python API を利用します。この SDK は、ウィンドウ処理とセッション分析のプリミティブを豊富に揃えている他、ソースとシンクのコネクタからなるエコシステムも提供します。さらに、Beam 独自の統合開発モデルにより、ストリーミングとバッチ パイプライン全体で、より多くのコードを再利用できるようになっています。

accelerate-development-with-no-compromises

運用と管理を簡素化

GCP のサーバーレス アプローチは、パフォーマンス、スケーリング、可用性、セキュリティ、コンプライアンスに自動的に対処することによって、運用上のオーバーヘッドを取り除きます。つまり、ユーザーはサーバー クラスタの管理ではなく、プログラミングに専念できるということです。Stackdriver を統合した GCP のロギングおよびモニタリング ソリューションでは、実行中のパイプラインをモニタリングしてトラブルシューティングすることができます。豊富な可視化、ロギング、高度なアラートにより、潜在的な問題を特定して対処できるようになります。

simplify-operations-and-management

機械学習を基盤とした構築

Cloud Dataflow は、予測分析の統合ポイントとしても役立ちます。Cloud Dataflow を使用して TensorFlow ベースの Cloud Machine Learning モデルと API をデータ処理パイプラインに追加すると、不正検出、リアルタイムのカスタマイズ、および類似のユースケースに予測分析を導入することができます。

build-on-a-foundation-for-machine-learning

お気に入りの使い慣れたツールを統合

Cloud Dataflow は、ストリーミング イベントの取り込み(Cloud Pub/Sub)、データ ウェアハウジング(BigQuery)、機械学習(Cloud Machine Learning)をはじめ、さまざまな GCP サービスをシームレスに統合します。また、付属の Beam ベースの SDK を利用することで、デベロッパーがカスタム拡張機能を作成できるだけでなく、Cloud Dataproc またはオンプレミスを介した Apache Spark など、別の実行エンジンを選択することもできます。Apache Kafka ユーザーは、Cloud Dataflow コネクタを使用して簡単に GCP を統合できます。

use-your-favorite-and-familiar-tools

Cloud Dataflow によるデータの変換

diagram-dataflow

Cloud Dataflow の特長

自動リソース管理
Cloud Dataflow は、処理リソースのプロビジョニングと管理を自動化することで、レイテンシを最小限に抑えつつ、利用率を高いレベルで維持できます。したがって、手作業で追加のインスタンスを起動したり予約したりする必要がなくなります。
動的作業再調整
作業配分の自動化と最適化により、遅れている作業の優先順位が動的に調整されます。もう最新状況を追跡したり、入力データを事前に処理したりする必要はありません。
信頼性の高い一貫した処理
Cloud Dataflow には、データサイズ、クラスタサイズ、処理パターン、パイプラインの複雑さを問わない、一貫性のある高精度のフォールト トレラント機能が組み込まれています
水平自動スケーリング
ワーカー リソースの水平自動スケーリング機能によりスループットが最適化され、処理性能に対するコスト パフォーマンスが全体的に向上します。
統合型プログラミング モデル
Apache Beam SDK は、MapReduce に匹敵する充実した操作、高度なデータ ウィンドウ処理、ストリーミング データやバッチデータなどといったデータのきめ細かな検証コントロールを提供します。
コミュニティ主導のイノベーション
Cloud Dataflow プログラミング モデルの拡張を目指すデベロッパーは、Apache Beam のコードをフォークしたり貢献したりできます。

パートナーとの統合

Google Cloud Platform のパートナーおよびサードパーティのデベロッパーが Dataflow との統合機能を開発しており、さまざまな規模での高性能なデータ処理の実装が迅速かつ容易に行えるようになっています。

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

「パイプラインは Cloud Dataflow 上で実行しているので、私たちはコードを実行するためのインスタンスのデプロイや保守について考えることなく、プログラミングに専念することができます(これは、GCP 全体にわたって言える特徴です)。」

- Jibran Saithi 氏 Qubit の主任アーキテクト

お手頃な価格

Cloud Dataflow ジョブは、Cloud Dataflow バッチまたはストリーミング ワーカーの実際の使用に基づき、分単位で課金されます。他の GCP リソース(Cloud Storage や Cloud Pub/Sub など)を使用するジョブは、該当するサービスの価格設定に応じて、サービスごとに課金されます。

アイオワ オレゴン バージニア州北部 サウスカロライナ サンパウロ ベルギー ロンドン フランクフルト シンガポール シドニー 台湾 東京
Dataflow ワーカータイプ vCPU
ドル/時間
メモリ
ドル GB/時間
ローカル ストレージ(永続ディスク)
ドル GB/時間
ローカル ストレージ(SSD)
ドル GB/時間
Dataflow Shuffle 3
ドル GB/時間
バッチ 1
ストリーミング 2
米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている料金の通貨が適用されます。

1 バッチワーカーのデフォルト値: vCPU 1 個、メモリ 3.75 GB、PD 250 GB。

2 ストリーミング ワーカーのデフォルト値: vCPU 4 個、メモリ 15 GB、PD 420 GB。

3 サービスベースの Dataflow Shuffle は現在、us-central1(アイオワ)リージョンのバッチパイプラインでのみ、ベータ版として公開されています。他のリージョンでも今後公開していく予定です。