Dataflow

Google Cloud は 2023 Forrester Wave: Streaming Data Platforms でリーダーに選出されました。詳細

移動

Dataflow

サーバーレスかつ高速で、費用対効果の高い、統合されたストリームデータ処理とバッチデータ処理。

新規のお客様には、Dataflow で使用できる無料クレジット $300 分を差し上げます。

Dataflow の無料トライアルお問い合わせ

データストリーミングと機械学習によるリアルタイムの分析情報と有効活用
フルマネージドのデータ処理サービス
処理を実行するリソースの自動プロビジョニングと管理
リソース使用率を最大化する、ワーカーリソースの水平および垂直自動スケーリング
Apache Beam SDK による、OSS コミュニティドリブンのイノベーション

大きな建物の上に Daflowflow アイコン、右側には Pub/Sub、Cloud Storage、Cloud AutoML のアイコンでジャグリングをする男性のサムネイル画像

動画

Dataflow の仕組みや一般的なユースケースなど、その概要が 1 分でわかります。

1:48

利点

高速なストリーミングデータ分析

Dataflow を使用すると、データ転送のレイテンシを抑えた、高速で簡素化されたストリーミングデータパイプライン開発が可能になります。

操作と管理を簡素化する

Dataflow のサーバーレスアプローチにより、データエンジニアリングのワークロードから運用上のオーバーヘッドが取り除かれるため、チームはサーバークラスタの管理ではなく、プログラミングに専念できます。

総所有コストの低減

リソースの自動スケーリングとコスト最適化されたバッチ処理機能を組み合わせることにより、Dataflow で実質無制限の容量を利用できます。過剰な費用をかけずに、時季変動したり急変動したりするワークロードを管理できます。

主な機能

すぐに使えるリアルタイム AI

NVIDIA GPU やすぐに使用できるパターンなど、すぐに使える ML 機能によって実現される Dataflow のリアルタイム AI 機能により、大量のイベントに対する人間に近い知性によるリアルタイムの応答が可能になります。

お客様は、予測分析や異常検出から、リアルタイムパーソナライズなどの高度な分析のユースケースまで、インテリジェントなソリューションを構築できます。

バッチパイプラインとストリーミングパイプラインを使用したローカルおよびリモートの推論など、完全な機械学習（ML）パイプラインをトレーニング、デプロイ、管理します。

リソースの自動スケーリングと動的作業再調整

データアウェアリソースの自動スケーリングにより、パイプラインのレイテンシの最小化、リソース使用率の最大化、データレコードあたりの処理コストの削減を実現します。データ入力は、自動的にパーティション分割され、常にリバランスされることで、ワーカーリソース使用率が均等化され、パイプラインのパフォーマンスに対する「ホットキー」の影響が軽減されます。

モニタリングとオブザーバビリティ

Dataflow パイプラインの各ステップでデータを監視します。実際のデータのサンプルを使用して問題を診断し、効果的にトラブルシューティングを行います。ジョブの異なる実行を比較して、問題を簡単に特定します。

すべての機能を表示

動画

リアルタイムのカスタムクーポン機能でオンラインショップのエクスペリエンスを改善: デモ

7:18

導入事例

Dataflow を利用しているお客様

Blog post

ルノーはいかにして Dataflow と BigQuery を利用してスケーリングと費用面の課題を解決したか

所要時間: 5 分

Case study

Dow Jones は Dataflow を使用して、重要な歴史的イベントのデータセットを十二分に活用しています。

所要時間: 5 分

Case study

Sky は、ビッグデータプラットフォームを更新し、次世代製品のニーズに応えています。

所要時間: 5 分

Case study

Unity は、Dataflow と Google Cloud を、情報分析、意思決定、製品開発に役立てています。

46:29

すべてのお客様を表示

Serverless Data Processing with Dataflow: Foundations

Dataflow について知っておくべきことに関する基礎トレーニング。

詳細

Tutorial

Python を用いた Dataflow のクイックスタート

Google Cloud プロジェクトと Python 開発環境を設定し、Apache Beam SDK を取得して、Dataflow サービスで WordCount サンプルを実行および変更します。

詳細

Tutorial

Dataflow SQL の使用

SQL クエリを作成し、Dataflow ジョブをデプロイして、Dataflow SQL UI から SQL クエリを実行します。

詳細

Tutorial

Apache Beam SDK のインストール

Apache Beam SDK をインストールして、Dataflow サービスでパイプラインを実行できるようにします。

詳細

Tutorial

Apache Beam と TensorFlow による機械学習

Apache Beam、Dataflow、TensorFlow を使用して、分子エネルギー機械学習モデルの前処理、トレーニング、予測を行います。

詳細

Tutorial

Java を使用した Dataflow 単語数カウントチュートリアル

このチュートリアルでは、Apache Beam Java SDK を使用して簡単なサンプルパイプラインを実行することにより、Cloud Dataflow サービスの基本を学習します。

詳細

Tutorial

ハンズオンラボ: Google Cloud Dataflow によるデータ処理

Python と Dataflow を使用してリアルタイムでテキストベースのデータセットを処理し、BigQuery に保存する方法を学習します。

詳細

Tutorial

ハンズオンラボ: Pub/Sub と Dataflow を使用したストリーム処理

Dataflow を使って、Pub/Sub トピックにパブリッシュされたメッセージを読み取り、タイムスタンプでウィンドウ処理を行って、Cloud Storage に書き込む方法を説明します。

詳細

Google Cloud Basics

Dataflow リソース

料金、リソースの割り当て、よくある質問、その他の情報を検索できます。

詳細

お探しのものが見つからない場合

すべてのプロダクトドキュメントを見る

リリースノート

Dataflow の最新リリースノートを読む

ユースケース

使用例

ストリーム分析

Google Cloud のストリーム分析は、データを生成された瞬間から整理され、便利で使いやすいものにします。Dataflow、Pub/Sub、BigQuery 上に構築されたストリーミングソリューションにより、変動するリアルタイムのデータボリュームの取り込み、処理、分析に必要なリソースをプロビジョニングして、リアルタイムにビジネス分析情報を取得できるようになります。プロビジョニングが抽象化されて複雑さが軽減されるため、データアナリストとデータエンジニアのいずれもストリーム分析にアクセスできます。

トリガーから取り込み、拡張、分析、有効化へと 5 つの列を通ります。各列には上部と下部があります。一番上のトリガー列はエッジデバイス（モバイル、ウェブ、データストア、IoT）で、そこから取り込み列の Pub/Sub、拡張列と Apache Beam / Dataflow ストリーミング、分析、有効化の各ボックスに順に送られ、そして最初の列であるエッジデバイスに戻ります。3 番目の列の Apache Beam から分析列までを行き来し、BigQuery、AI Platform、Bigtable に送られます。これら 3 つはすべて、バックフィル/再処理によって Dataflow バッチに送られます。BigQuery から有効化列のデータポータル、サードパーティ BI、Cloud Functions に送られ、それから 1 列目のエッジデバイスに戻ります。列の下部では作成フローを示しています。トリガーで「イベントメッセージを Pub/Sub トピックに push するようにソースを構成」します。取り込みで「Pub/Sub トピックとサブスクリプションを作成」します。拡張で「テンプレート、CLI、ノートブックを使用してストリーミングまたはバッチの Dataflow ジョブをデプロイ」します。分析で「ストリームを受信するデータセット、テーブル、モデルを作成」します。有効化で「リアルタイムダッシュボードを作成して外部 API を呼び出します」。

使用例

リアルタイム AI

Dataflow により、Google Cloud の Vertex AI と TensorFlow Extended（TFX）にストリーミングイベントが送信されます。これにより、予測分析、不正行為検出、リアルタイムパーソナライズなどの高度な分析ユースケースが可能となります。TFX は、分散データ処理エンジンとして Dataflow と Apache Beam を使用し、ML ライフサイクルの複数の段階を実現します。これらはすべて Kubeflow パイプラインを通じて、ML の CI / CD でサポートされています。

Pattern

異常検出

マルウェア、アカウントアクティビティ、金融取引などの外れ値検出によって、問題をリアルタイムで特定し、解決します。

詳細

Pattern

パターン認識

画像、動画、データのパターン検出により、運用とカスタマーエクスペリエンスの効率を高めます。

詳細

Pattern

見通し予測

問題をプロアクティブに解決するために、ユーザーのアクティビティから機器の状態までの時系列データストリームを予測します。

詳細

使用例

センサーとログデータ処理

デバイスのグローバルなネットワークからビジネスインサイトを引き出すインテリジェントな IoT プラットフォーム。

すべての技術ガイドを見る

すべての機能

Dataflow ML	機械学習（ML）パイプラインを簡単にデプロイして管理できます。ML モデルを使用して、バッチパイプラインとストリーミングパイプラインでローカルとリモートの推論を行います。データ処理ツールを使用して、モデルのトレーニング用のデータを準備し、モデルの結果を処理します。
Dataflow GPU	GPU 使用のパフォーマンスとコストのために最適化されたデータ処理システム。幅広い NVIDIA GPU をサポート。
垂直自動スケーリング	各ワーカーに割り振られたコンピューティング容量を、使用率に基づいて動的に調整します。垂直自動スケーリングは水平自動スケーリングと連携し、パイプラインのニーズに最適なワーカーをシームレスにスケールします。
水平自動スケーリング	水平自動スケーリングを有効にすると、Dataflow サービスはジョブの実行に必要な適切な数のワーカーインスタンスを自動的に選択します。また、Dataflow サービスは、実行時にジョブの特性を考慮して、より多くのワーカーまたは少数のワーカーを動的に再割り当てします。
Right Fitting	Right fitting を行うと、ステージごとに最適化されたリソースプールが作成され、リソースの無駄を削減できます。
スマート診断	一連の機能には、以下のようなものがあります。1）SLO ベースのデータパイプライン管理、2）視覚的にジョブグラフを調べてボトルネックを特定するためのジョブ可視化機能、3）パフォーマンスや可用性の問題を特定して調整する自動レコメンデーション機能。
Streaming Engine	Streaming Engine は、コンピューティングとステートストレージを分離し、パイプライン実行の一部をワーカー VM から Dataflow サービスバックエンドに移動させることで、自動スケーリングとデータ転送のレイテンシを大幅に改善します。
Dataflow Shuffle	サービスベースの Dataflow Shuffle は、データのグルーピングや結合で使用されるシャッフルオペレーションを、ワーカー VM からバッチパイプラインの Dataflow サービスバックエンドに移行します。バッチパイプラインにより、数百 TB までシームレスにスケーリングされます。チューニングは必要ありません。
Dataflow SQL	Dataflow SQL では、SQL スキルを使用して BigQuery ウェブ UI から直接ストリーミング Dataflow パイプラインを開発できます。Pub/Sub からのストリーミングデータを Cloud Storage のファイルまたは BigQuery のテーブルに結合し、結果を BigQuery に書き込み、Google スプレッドシートまたは他の BI ツールを使用してリアルタイムのダッシュボードを構築できます。
柔軟なリソーススケジューリング（FlexRS）	Dataflow FlexRS は、高度なスケジューリング技術、Dataflow Shuffle サービス、プリエンプティブル仮想マシン（VM）インスタンスと通常の VM の組み合わせを使用することで、バッチ処理コストを削減します。
Dataflow テンプレート	Dataflow テンプレートで、パイプラインをチームメンバーや組織全体で簡単に共有できます。また、Google が提供する多くのテンプレートを利用して、シンプルながら便利なデータ処理タスクを実装することもできます。これには、ストリーミング分析のユースケースのための変更データキャプチャテンプレートが含まれます。Flex テンプレートでは、任意の Dataflow パイプラインからテンプレートを作成できます。
Notebooks との統合	Vertex AI Notebooks でパイプラインを一からイテレーションを経て構築し、Dataflow ランナーでデプロイします。 Apache Beam パイプラインを段階的に作成するには、パイプラインのグラフを「入力、評価、出力」ループ（REPL）のワークフローで検査します。Google の Vertex AI を通じて利用できる Notebooks を使用すると、最新のデータサイエンスと機械学習フレームワークを備えた直感的な環境でパイプラインを記述できます。
リアルタイムの変更データキャプチャ	ストリーミング分析を強化するために、異種混合データソース全体でデータを確実に同期または複製し、レイテンシを最小限に抑えます。拡張可能な Dataflow テンプレートは Datastream と統合され、Cloud Storage から BigQuery、PostgreSQL、または Spanner にデータを複製します。Apache Beam の Debezium コネクタは、MySQL、PostgreSQL、SQL Server、Db2 からデータ変更を取り込むためのオープンソースオプションを提供します。
インラインモニタリング	Dataflow のインラインモニタリングでジョブの指標に直接アクセスして、バッチパイプラインとストリーミングパイプラインのトラブルシューティングに役立てることができます。モニタリンググラフにアクセスして、ステップレベルとワーカーレベルの両方で状況を把握し、古いデータや大きなシステムレイテンシなどの条件でアラートを設定できます。
顧客管理の暗号鍵	顧客管理の暗号鍵（CMEK）で保護されたバッチまたはストリーミングパイプラインを作成できます。また、ソースとシンクで CMEK で保護されたデータにアクセスできます。
Dataflow VPC Service Controls	Dataflow の VPC Service Controls と統合することで、データ流出リスクが軽減され、データ処理環境のセキュリティが強化されます。
プライベート IP	パブリック IP をオフにすると、データ処理インフラストラクチャのセキュリティを強化できます。Dataflow ワーカーにパブリック IP アドレスを使用しないことで、Google Cloud プロジェクトの割り当てに対して消費されるパブリック IP アドレスの数も削減できます。

料金

Dataflow ジョブは、Dataflow バッチまたはストリーミングワーカーの実際の使用量に基づき、秒単位で課金されます。他のリソース（Cloud Storage や Pub/Sub など）では、該当するサービスの料金に応じて、サービスごとに課金されます。

料金の詳細を表示

パートナー

パートナーソリューションを探す

Google Cloud のパートナーが Dataflow との統合機能を開発しており、さまざまな規模での強力なデータ処理タスクが迅速かつ容易に行えるようになっています。

すべてのパートナーを見る

Cloud AI プロダクトは、Google の SLA ポリシーに準拠しています。これらの SLA ポリシーで保証されているレイテンシや可用性は、他の Google Cloud サービスと異なる場合があります。

次のステップ

$300 分の無料クレジットと 20 以上の Always Free プロダクトを活用して、Google Cloud で構築を開始しましょう。

Dataflow の無料トライアル

開始にあたりサポートが必要な場合
お問い合わせ
信頼できるパートナーと連携する
パートナーを探す
もっと見る
すべてのプロダクトを見る