高性能でスケーラブルな VM
高速で統合されたストリーム データ処理とバッチデータ処理

Dataflow は自動スケーリングとバッチ処理でレイテンシ、処理時間、コストを最小限に抑える、フルマネージド ストリーミング分析サービスです。サーバーレス アプローチによるリソースのプロビジョニングと管理により、実質無制限の容量を従量課金制で使用して、膨大な量のデータ処理の問題を解決できます。

  • 処理を実行するリソースの自動プロビジョニングと管理
  • リソース使用率を最大化する、ワーカー リソースの水平自動スケーリング
  • 統合されたストリーミング モデルとバッチ プログラミング モデル
  • Apache Beam SDK による、OSS コミュニティ ドリブンのイノベーション
  • 信頼性の高い一貫した 1 回限りの処理

高速なストリーミング データ分析

Dataflow を使用すると、データ転送のレイテンシを抑えた、高速で簡素化されたストリーミング データ パイプライン開発が可能になります。

操作と管理を簡素化する

Dataflow のサーバーレス アプローチにより、データ エンジニアリングのワークロードから運用上のオーバーヘッドが取り除かれるため、チームはサーバー クラスタの管理ではなく、プログラミングに専念できます。

総所有コストの低減

リソースの自動スケーリングとコスト最適化されたバッチ処理機能を組み合わせることにより、Dataflow で実質無制限の容量を利用できます。過剰な費用をかけずに、周期変動したり急変動するワークロードを管理できます。

主な機能

自動化されたリソース管理と動的作業再調整

Dataflow は、処理リソースのプロビジョニングと管理を自動化することで、レイテンシを最小限に抑え、使用率を高いレベルで維持します。そのため、手動で追加のインスタンスを起動したり、予約する必要がなくなります。作業配分も自動化、最適化されて、遅れている作業は動的に再調整されます。もう最新状況を追跡したり、入力データを事前に処理する必要はありません。

水平自動スケーリング

ワーカー リソースの水平自動スケーリング機能によりスループットが最適化され、全体として処理性能に対する費用対効果が改善します。

バッチ処理に適した、柔軟なリソース スケジューリング料金

深夜のジョブなど、スケジュールに柔軟性があるジョブの処理には、フレキシブル リソース スケジューリング(FlexRS)をお使いください。低料金のバッチ処理が可能です。このようなフレキシブル ジョブはキューに入り、6 時間以内に確実にキューから取り出されて実行されます。

すべての機能を表示

お客様の声

ハイライト

  • 構造化されていない、30 年分以上のニュースデータを合成して、主要なイベントの定性的ビジネス インパクトを評価

  • 複雑なネットワーク作業を定義して、隠れた関係性、洞察を引き出す

  • 10 週間で簡単に提供できる、プロトタイプ ナレッジグラフ

パートナー

その他の事例を見る

新機能

ドキュメント

チュートリアル
Python を用いた Dataflow のクイックスタート

Google Cloud プロジェクトと Python 開発環境を設定し、Apache Beam SDK を取得して、Dataflow サービスで WordCount サンプルを実行および変更します。

チュートリアル
Dataflow SQL の使用

SQL クエリを作成し、Dataflow ジョブをデプロイして、Dataflow SQL UI から SQL クエリを実行します。

チュートリアル
Apache Beam SDK のインストール

Apache Beam SDK をインストールして、Dataflow サービスでパイプラインを実行できるようにします。

チュートリアル
Apache Beam と TensorFlow による機械学習

Apache Beam、Dataflow、TensorFlow を使用して、分子エネルギー機械学習モデルの前処理、トレーニング、予測を行います。

一般的なユースケース

ストリーム分析

Google Cloud のストリーム分析では、データは生成された瞬間から整理され、便利で使いやすいものになります。Dataflow、Pub/Sub、BigQuery の自動スケーリング インフラストラクチャ上に構築された Google のストリーミング ソリューションにより、変動するリアルタイムのデータ ボリュームの取り込み、処理、分析に必要なリソースをプロビジョニングできるようになります。プロビジョニングが抽象化されており複雑さが軽減されるため、データ アナリストもデータ エンジニアも、シンプルで使い慣れたツールを用いてストリーム分析にアクセスできるようになります。

ストリーム分析を示すアーキテクチャTriggerAnalyzeActivateData StudioThird-party BlCreation FlowConfigure source to push event message to Pub/Sub Topic Create Pub/Sub Topic and Subscription Deploy streaming or batch Dataflow job using templates, CLI, or notebooksCreate dataset, tables, and models to receive streamBuild real-time dashboards and call external APIs IngestEnrichAnalyzeActivateEdgeMobileWebData StoreIoTPub/SubBigQueryAl PlatformBigtable Cloud FunctionsDataflow StreamingApache Beam (SDK)Dataflow BatchBackfill/ReprocessArchitecture
センサーとログデータ処理

デバイスのグローバルなネットワークからビジネスに有益な分析情報を導き出すインテリジェントな IoT プラットフォーム

リアルタイム AI

Dataflow により、Google Cloud の AI PlatformTensorFlowExtended(TFX)にストリーミング イベントが送信されます。これにより、予測分析、不正行為検出、リアルタイム パーソナライズなどの高度な分析ユースケースが可能となります。TFX は、分散データ処理エンジンとして Dataflow と Apache Beam を使用し、ML ライフサイクルの複数の段階を実現します。Kubeflow パイプラインを通じて、CI/CD for ML ですべてサポートされています。

すべての機能

自動スケーリング 自動スケーリングを有効にすると、Dataflow サービスはジョブの実行に必要な適切な数のワーカー インスタンスを自動的に選択します。また、Dataflow サービスは、実行時にジョブの特性を考慮して、より多くのワーカーまたは少数のワーカーを動的に再割り当てします。
Streaming Engine Streaming Engine は、コンピューティングとステート ストレージを分離し、パイプライン実行の一部をワーカー VM から Dataflow サービス バックエンドに移動させることで、自動スケーリングとデータ転送のレイテンシを大幅に改善します。
Dataflow Shuffle サービスベースの Dataflow Shuffle は、データのグルーピングや結合で使用されるシャッフル オペレーションを、ワーカー VM からバッチ パイプラインの Dataflow サービス バックエンドに移行します。バッチ パイプラインにより、数百 TB までシームレスにスケーリングされます。チューニングは必要ありません。
Dataflow SQL Dataflow SQL では、SQL スキルを使用して BigQuery ウェブ UI から直接ストリーミング Dataflow パイプラインを開発できます。Pub/Sub からのストリーミング データを Cloud Storage のファイルまたは BigQuery のテーブルに結合し、結果を BigQuery に書き込み、Google スプレッドシートまたは他の BI ツールを使用してリアルタイムのダッシュボードを構築できます。
柔軟なリソース スケジューリング(FlexRS) Dataflow FlexRS は、高度なスケジューリング技術、Dataflow Shuffle サービス、プリエンプティブル仮想マシン(VM)インスタンスと通常の VM の組み合わせを使用することで、バッチ処理コストを削減します。
Dataflow テンプレート Dataflow テンプレートで、パイプラインをチームメンバーや組織全体で簡単に共有できます。また、Google が提供する多くのテンプレートを利用して、シンプルながら便利なデータ処理タスクを実装することもできます。
インライン モニタリング Dataflow のインライン モニタリングでジョブを操作し、ジョブの指標に直接アクセスできます。古いデータ、システム上の大きなレイテンシなど、状態に関するアラートを設定することもできます。
顧客管理の暗号鍵 顧客管理の暗号鍵(CMEK)で保護されたバッチまたはストリーミング パイプラインを作成できます。また、ソースとシンクで CMEK で保護されたデータにアクセスできます。
Dataflow VPC Service Controls Dataflow の VPC Service Controls と統合することで、データ流出リスクが軽減され、データ処理環境のセキュリティが強化されます。
プライベート IP パブリック IP を使用しないことで、データ処理インフラストラクチャのセキュリティを強化できます。Dataflow ワーカーにパブリック IP アドレスを使用しないことで、Google Cloud プロジェクトの割り当てに対して消費されるパブリック IP アドレスの数も削減できます。

料金

Dataflow ジョブは、Dataflow バッチまたはストリーミング ワーカーの実際の使用量に基づき、秒単位で課金されます。他の Google Cloud リソース(Cloud Storage や Pub/Sub など)を使用するジョブは、該当するサービスの料金に応じて、サービスごとに課金されます。

料金の詳細を表示

パートナー

Google Cloud のパートナーとサードパーティのデベロッパーが Dataflow との統合機能を開発しており、さまざまな規模での高性能なデータ処理の実装が迅速かつ容易に行えるようになっています。