Cloud Dataflow

パイプラインのストリーミングとバッチ処理をサポートする、フルマネージド データ処理サービス

無料トライアル

統合型マネージド サービス

Cloud Dataflow は ETL、バッチ処理、継続的な計算処理などの幅広いデータ処理方法を開発、実行するための統合型プログラミング モデルのマネージド サービスです。 リソース管理やパフォーマンス最適化などの作業をデベロッパーが行う必要がなくなります。

フルマネージド

マネージド サービスによって、リソースのライフタイム管理が透過的に行われ、リソースの動的なプロビジョニングが提供されるため、レイテンシを最小限に抑えつつ、リソースの利用効率を高いレベルに維持できます。Dataflow のリソースはオンデマンドで割り当てられるため、ほぼ無制限にリソースを使用してビッグデータの処理の問題解決に取り組むことができます。

統合型プログラミング モデル

Apache Beam SDK で提供されるプログラミングの基本モデル(たとえば、高度なウィンドウ処理や検証コントロールなど)は、バッチおよびストリーム ベースのどちらのデータソースにも適用できます。デベロッパーがデータソースにとらわれることなくコンピューティング要件を指定できるため、バッチ処理とストリーム処理でプログラミング モデルを切り替えるコストを効果的に削減できます。

統合されたオープンソース

Google Compute Engine などのサービスをベースにして構築された Dataflow は、Cloud Storage、Cloud Pub/Sub、Cloud Datastore、Cloud Bigtable、BigQuery とシームレスに統合できる、運用しやすいコンピューティング環境を実現します。デベロッパーは Java および Python で提供される Apache Beam SDK を使用してカスタム拡張を実装し、別の実行エンジンを選択できます。

パートナーとの統合

Google Cloud Platform のパートナーおよびサードパーティのデベロッパーが Dataflow との統合機能を開発しており、さまざまな規模での高性能なデータ処理の実装が迅速かつ容易に行えるようになっています。 これらの統合は、Dataflow が提供するオープン API を使用して実装されます。

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

Cloud Dataflow の特長

大規模なデータ処理も確実に実行

リソース管理
Cloud Dataflow では、必要な処理リソースが完全に自動管理化されるため、インスタンスを手動で起動する必要がなくなります。
オンデマンド
すべてのリソースはオンデマンドで提供されるため、ビジネスニーズに合わせた拡張が可能になります。予約済みの Compute インスタンスを購入する必要はありません。
インテリジェントな作業スケジュール
作業配分の自動化と最適化により、遅れている作業の優先順位を動的に調整できます。もう最新状況を追跡したり、入力データを事前に処理したりする必要はありません。
自動スケーリング
ワーカー リソースの自動スケーリング機能により最適なスループット要件が満たされ、処理性能に対するコスト パフォーマンスが全体的に向上します。
統合型プログラミング モデル
Dataflow API を使って MapReduce のような命令、高度なデータ ウィンドウ処理、データソースを問わないきめ細かな検証コントロールを記述できます。
オープンソース
Dataflow のプログラミング モデルを拡張したい場合、デベロッパーは Apache Beam SDK でプルリクエストをフォークまたは送信できます。Dataflow パイプラインは、Spark や Flink などの代替ランタイム上でも実行できます。
監視
Cloud Dataflow は Google Cloud Platform コンソールに統合されているため、パイプラインのスループットや遅延などの統計情報に加え、ワーカーのログ検査の集計をほぼリアルタイムで提供することが可能です。
統合
Cloud Storage、Cloud Pub/Sub、Cloud Datastore、Cloud Bigtable、BigQuery と統合してシームレスなデータ処理を実現します。Apache Kafka や HDFS のような他のソースやシンクとやりとりするように拡張することもできます。
信頼性の高い一貫した処理
Cloud Dataflow には、データサイズ、クラスタサイズ、処理パターン、パイプラインの複雑さを問わない、一貫性のある高精度のフォールト トレラント機能が組み込まれています。

「Wix.com の時系列分析プラットフォームの要件には、スケーラビリティ、低レイテンシのデータ処理、フォールト トレラントなコンピューティングを備えた Google Cloud Dataflow のストリーミング処理がまさにぴったりでした。多岐にわたるデータ収集変換やグループ化オペレーションにより、複雑なストリーム データ処理アルゴリズムも実装することができます。」

- Gregory Bondar 氏 Ph.D.、データサービス プラットフォーム担当部長 Wix.com

Dataflow の料金の概要

Cloud Dataflow ジョブは、少なくとも 1 つの Cloud Dataflow バッチまたはストリーミング ワーカーの使用に基づき、分単位で課金されます。Dataflow ジョブは Cloud Storage、Cloud Pubsub などの追加の GCP リソースを消費し、それぞれ固有の料金で課金されます。詳しい料金情報については、料金ガイドをご覧ください。

アイオワ オレゴン サウスカロライナ ベルギー 台湾 東京
Dataflow ワーカータイプ vCPU
ドル/時間
メモリ
ドル GB/時間
ローカル ストレージ(永続ディスク)
ドル GB/時間
ローカル ストレージ(SSD)
ドル GB/時間
バッチ 1
ストリーミング 2

1 バッチワーカーのデフォルト値: vCPU 1 個、メモリ 3.75 GB、PD 250 GB。

2 ストリーミング ワーカーのデフォルト値: vCPU 4 個、メモリ 15 GB、PD 420 GB。

Apache®、Apache Beam、およびオレンジ色の「B」ロゴは、米国およびその他の国における Apache Software Foundation 登録商標または商標です。

外出先でもリソースをモニタリング

Google Cloud Console アプリを入手して、プロジェクトの管理にお役立てください。