Dataflow
サーバーレスかつ高速で、費用対効果の高い、統合されたストリーム データ処理とバッチデータ処理。
新規のお客様には、Dataflow で使用できる無料クレジット $300 分を差し上げます。
-
フルマネージドのデータ処理サービス
-
処理を実行するリソースの自動プロビジョニングと管理
-
リソース使用率を最大化する、ワーカー リソースの水平自動スケーリング
-
Apache Beam SDK による、OSS コミュニティ ドリブンのイノベーション
-
信頼性の高い一貫した 1 回限りの処理
利点
高速なストリーミング データ分析
Dataflow を使用すると、データ転送のレイテンシを抑えた、高速で簡素化されたストリーミング データ パイプライン開発が可能になります。
操作と管理を簡素化する
Dataflow のサーバーレス アプローチにより、データ エンジニアリングのワークロードから運用上のオーバーヘッドが取り除かれるため、チームはサーバー クラスタの管理ではなく、プログラミングに専念できます。
総所有コストの低減
リソースの自動スケーリングとコスト最適化されたバッチ処理機能を組み合わせることにより、Dataflow で実質無制限の容量を利用できます。過剰な費用をかけずに、時季変動したり急変動したりするワークロードを管理できます。
主な機能
主な機能
リソースの自動スケーリングと動的作業再調整
データアウェア リソースの自動スケーリングにより、パイプラインのレイテンシの最小化、リソース使用率の最大化、データレコードあたりの処理コストの削減を実現します。データ入力は、自動的にパーティション分割され、常にリバランスされることで、ワーカー リソース使用率が均等化され、パイプラインのパフォーマンスに対する「ホットキー」の影響が軽減されます。
バッチ処理のための柔軟なスケジューリングと料金
深夜のジョブなど、スケジュールに柔軟性があるジョブの処理には、フレキシブル リソース スケジューリング(FlexRS)をお使いください。低料金のバッチ処理が可能です。このようなフレキシブル ジョブはキューに入り、6 時間以内に確実にキューから取り出されて実行されます。
すぐに使用できるリアルタイムの AI パターン
すぐに使用できるパターンにより有効化される Dataflow のリアルタイム AI 機能により、大量のイベントに対する人間に近い知性によるリアルタイムの応答が可能になります。お客様は、予測分析や異常検出から、リアルタイム パーソナライズなどの高度な分析のユースケースまで、インテリジェントなソリューションを構築できます。
ドキュメント
ドキュメント
Serverless Data Processing with Dataflow: Foundations
Dataflow について知っておくべきことに関する基礎トレーニング。
Python を用いた Dataflow のクイックスタート
Google Cloud プロジェクトと Python 開発環境を設定し、Apache Beam SDK を取得して、Dataflow サービスで WordCount サンプルを実行および変更します。
Dataflow SQL の使用
SQL クエリを作成し、Dataflow ジョブをデプロイして、Dataflow SQL UI から SQL クエリを実行します。
Apache Beam SDK のインストール
Apache Beam SDK をインストールして、Dataflow サービスでパイプラインを実行できるようにします。
Apache Beam と TensorFlow による機械学習
Apache Beam、Dataflow、TensorFlow を使用して、分子エネルギー機械学習モデルの前処理、トレーニング、予測を行います。
Java を使用した Dataflow 単語数カウント チュートリアル
このチュートリアルでは、Apache Beam Java SDK を使用して簡単なサンプル パイプラインを実行することにより、Cloud Dataflow サービスの基本を学習します。
ハンズオンラボ: Google Cloud Dataflow によるデータ処理
Python と Dataflow を使用してリアルタイムでテキストベースのデータセットを処理し、BigQuery に保存する方法を学習します。
ハンズオンラボ: Pub/Sub と Dataflow を使用したストリーム処理
Dataflow を使って、Pub/Sub トピックにパブリッシュされたメッセージを読み取り、タイムスタンプでウィンドウ処理を行って、Cloud Storage に書き込む方法を説明します。
Dataflow リソース
料金、リソースの割り当て、よくある質問、その他の情報を検索できます。
ユースケース
ユースケース
Google Cloud のストリーム分析は、データを生成された瞬間から整理され、便利で使いやすいものにします。Dataflow、Pub/Sub、BigQuery 上に構築されたストリーミング ソリューションにより、変動するリアルタイムのデータ ボリュームの取り込み、処理、分析に必要なリソースをプロビジョニングして、リアルタイムにビジネス分析情報を取得できるようになります。プロビジョニングが抽象化されて複雑さが軽減されるため、データ アナリストとデータ エンジニアのいずれもストリーム分析にアクセスできます。
Dataflow により、Google Cloud の Vertex AI と TensorFlow Extended(TFX)にストリーミング イベントが送信されます。これにより、予測分析、不正行為検出、リアルタイム パーソナライズなどの高度な分析ユースケースが可能となります。TFX は、分散データ処理エンジンとして Dataflow と Apache Beam を使用し、ML ライフサイクルの複数の段階を実現します。これらはすべて Kubeflow パイプラインを通じて、ML の CI / CD でサポートされています。
すべての機能
すべての機能
垂直自動スケーリング - Dataflow Prime の新機能 | 各ワーカーに割り振られたコンピューティング容量を、使用率に基づいて動的に調整します。垂直自動スケーリングは水平自動スケーリングと連携し、パイプラインのニーズに最適なワーカーをシームレスにスケールします。 |
Right fitting - Dataflow Prime の新機能 | Right fitting を行うと、ステージごとに最適化されたリソースプールが作成され、リソースの無駄を削減できます。 |
スマート診断 - Dataflow Prime の新機能 | 一連の機能には、以下のようなものがあります。1)SLO ベースのデータ パイプライン管理、2)視覚的にジョブグラフを調べてボトルネックを特定するためのジョブ可視化機能、3)パフォーマンスや可用性の問題を特定して調整する自動レコメンデーション機能。 |
Streaming Engine | Streaming Engine は、コンピューティングとステート ストレージを分離し、パイプライン実行の一部をワーカー VM から Dataflow サービス バックエンドに移動させることで、自動スケーリングとデータ転送のレイテンシを大幅に改善します。 |
水平自動スケーリング | 水平自動スケーリングを有効にすると、Dataflow サービスはジョブの実行に必要な適切な数のワーカー インスタンスを自動的に選択します。また、Dataflow サービスは、実行時にジョブの特性を考慮して、より多くのワーカーまたは少数のワーカーを動的に再割り当てします。 |
Dataflow Shuffle | サービスベースの Dataflow Shuffle は、データのグルーピングや結合で使用されるシャッフル オペレーションを、ワーカー VM からバッチ パイプラインの Dataflow サービス バックエンドに移行します。バッチ パイプラインにより、数百 TB までシームレスにスケーリングされます。チューニングは必要ありません。 |
Dataflow SQL | Dataflow SQL では、SQL スキルを使用して BigQuery ウェブ UI から直接ストリーミング Dataflow パイプラインを開発できます。Pub/Sub からのストリーミング データを Cloud Storage のファイルまたは BigQuery のテーブルに結合し、結果を BigQuery に書き込み、Google スプレッドシートまたは他の BI ツールを使用してリアルタイムのダッシュボードを構築できます。 |
柔軟なリソース スケジューリング(FlexRS) | Dataflow FlexRS は、高度なスケジューリング技術、Dataflow Shuffle サービス、プリエンプティブル仮想マシン(VM)インスタンスと通常の VM の組み合わせを使用することで、バッチ処理コストを削減します。 |
Dataflow テンプレート | Dataflow テンプレートで、パイプラインをチームメンバーや組織全体で簡単に共有できます。また、Google が提供する多くのテンプレートを利用して、シンプルながら便利なデータ処理タスクを実装することもできます。これには、ストリーミング分析のユースケースのための変更データ キャプチャ テンプレートが含まれます。Flex テンプレートでは、任意の Dataflow パイプラインからテンプレートを作成できます。 |
Notebooks との統合 | Vertex AI Notebooks でパイプラインを一からイテレーションを経て構築し、Dataflow ランナーでデプロイします。 Apache Beam パイプラインを段階的に作成するには、パイプラインのグラフを「入力、評価、出力」ループ(REPL)のワークフローで検査します。Google の Vertex AI を通じて利用できる Notebooks を使用すると、最新のデータ サイエンスと機械学習フレームワークを備えた直感的な環境でパイプラインを記述できます。 |
リアルタイムの変更データ キャプチャ | ストリーミング分析を強化するために、異種混合データソース全体でデータを確実に同期または複製し、レイテンシを最小限に抑えます。拡張可能な Dataflow テンプレートは Datastream と統合され、Cloud Storage から BigQuery、PostgreSQL、または Cloud Spanner にデータを複製します。Apache Beam の Debezium コネクタは、MySQL、PostgreSQL、SQL Server、Db2 からデータ変更を取り込むためのオープンソース オプションを提供します。 |
インライン モニタリング | Dataflow のインライン モニタリングでジョブの指標に直接アクセスして、バッチ パイプラインとストリーミング パイプラインのトラブルシューティングに役立てることができます。モニタリング グラフにアクセスして、ステップレベルとワーカーレベルの両方で状況を把握し、古いデータや大きなシステム レイテンシなどの条件でアラートを設定できます。 |
顧客管理の暗号鍵 | 顧客管理の暗号鍵(CMEK)で保護されたバッチまたはストリーミング パイプラインを作成できます。また、ソースとシンクで CMEK で保護されたデータにアクセスできます。 |
Dataflow VPC Service Controls | Dataflow の VPC Service Controls と統合することで、データ流出リスクが軽減され、データ処理環境のセキュリティが強化されます。 |
プライベート IP | パブリック IP をオフにすると、データ処理インフラストラクチャのセキュリティを強化できます。Dataflow ワーカーにパブリック IP アドレスを使用しないことで、Google Cloud プロジェクトの割り当てに対して消費されるパブリック IP アドレスの数も削減できます。 |
料金
料金
Dataflow ジョブは、Dataflow バッチまたはストリーミング ワーカーの実際の使用量に基づき、秒単位で課金されます。他のリソース(Cloud Storage や Pub/Sub など)では、該当するサービスの料金に応じて、サービスごとに課金されます。
Cloud AI プロダクトは、Google の SLA ポリシーに準拠しています。これらの SLA ポリシーで保証されているレイテンシや可用性は、他の Google Cloud サービスと異なる場合があります。