Dataflow の経済的メリット: 費用を最大 63% 削減し、ビジネス成果を向上させます。レポートを読む。

Dataflow

リアルタイムのデータインテリジェンス

リアルタイムデータの可能性を最大限に引き出します。Dataflow は、リアルタイムの意思決定とカスタマーエクスペリエンスを加速するのに役立つ、使いやすくてスケーラブルなフルマネージドストリーミングプラットフォームです。

新規のお客様には、Dataflow で使用できる無料クレジット $300 分を差し上げます。

機能

ストリーミング AI と ML を使用して、生成 AI モデルをリアルタイムで強化

リアルタイムデータにより、AI / ML モデルに最新情報を提供し、予測精度を高めます。Dataflow ML は、完全な ML パイプラインのデプロイと管理を簡素化します。パーソナライズされた推奨事項、不正行為の検出、脅威の防止などに、すぐに使用できるパターンが用意されています。Vertex AI、Gemini モデル、Gemma モデルを使用してストリーミング AI を構築し、リモート推論を実行し、MLTransform を使用してデータ処理を合理化します。Dataflow GPU と Right Fitting 機能を使用して、MLOps と ML ジョブの効率を高めます。

ブログ

Shopify が Dataflow を使用してリアルタイム ML で消費者の検索目的を改善した方法

全文を読む

エンタープライズ規模での高度なストリーミングのユースケースを実現

Dataflow は、オープンソースの Apache Beam SDK を使用してエンタープライズ規模での高度なストリーミングのユースケースを実現するフルマネージドサービスです。状態と時間、変換、I/O コネクタなどの豊富な機能を備えています。Dataflow はジョブあたり 4,000 ワーカーまでスケーリングでき、ペタバイト規模のデータを定期的に処理します。自動スケーリングにより、バッチパイプラインとストリーミングパイプラインの両方で最適なリソース使用率を実現できます。

Apache Beam と Dataflow の詳細

5:39

生成 AI 向けのマルチモーダルデータ処理をデプロイする

Dataflow では、画像、テキスト、音声などのマルチモーダルデータを並行して取り込み、変換できます。各モダリティに特化した特徴抽出を適用し、それらの特徴を統合表現に融合します。これにより、データフィードが生成 AI モデルに融合され、多様な入力から新しいコンテンツを作成できるようになります。Google 社内チームは Dataflow と FlumeJava を利用して、利用可能な大規模な入力データプールに対して、レイテンシ要件なしでモデル予測を整理して計算します。

テンプレートとノートブックで価値創出までの時間を短縮

Dataflow には、簡単に使い始めることができるツールがあります。Dataflow テンプレートは、ストリーム処理とバッチ処理用に事前に設計されたブループリントであり、効率的な CDC と BigQuery データ統合のために最適化されています。Vertex AI Notebooks を使用して、最新のデータサイエンスフレームワークでゼロからパイプラインを反復的に構築し、Dataflow ランナーを使用してデプロイします。Dataflow ジョブビルダーは、コードを記述せずに Google Cloud コンソールで Dataflow パイプラインを構築して実行するためのビジュアル UI です。

スマートな診断ツールとモニタリングツールで時間を節約

Dataflow には包括的な診断ツールとモニタリングツールが用意されています。ストラグラー検出によりパフォーマンスのボトルネックが自動的に特定され、データサンプリングにより各パイプラインステップでデータを観察できます。Dataflow の分析情報は、ジョブの改善に関する推奨事項を提供します。Dataflow UI には、ジョブグラフ、実行の詳細、指標、自動スケーリングダッシュボード、ロギングなどの豊富なモニタリングツールが用意されています。Dataflow には、費用を簡単に見積もることができるジョブ費用モニタリング UI も用意されています。

組み込みのガバナンスとセキュリティ

Dataflow では、Confidential VM のサポートによる使用中のデータの暗号化、顧客管理の暗号鍵（CMEK）、VPC Service Controls の統合、パブリック IP の無効化など、さまざまな方法でデータを保護できます。Dataflow 監査ロギングを使用すると、組織は Dataflow の使用状況を可視化し、「誰がいつどこで何をしたか」を調べられるようになり、ガバナンスが向上します。

仕組み

Dataflow は、バッチとストリーミングのデータ処理のためのフルマネージドプラットフォームです。スケーラブルな ETL パイプライン、リアルタイムストリーム分析、リアルタイム ML、Apache Beam の統合モデルを使用した複雑なデータ変換をすべてサーバーレスの Google Cloud インフラストラクチャで実現できます。

大きな建物の上に Daflowflow アイコン、右側には Pub/Sub、Cloud Storage、Cloud AutoML のアイコンでジャグリングをする男性のサムネイル画像

Dataflow の仕組みや一般的なユースケースなど、その概要が 1 分でわかります。

一般的な使用例

リアルタイム分析

リアルタイムの分析と運用パイプラインのためにストリーミングデータを取り込む

ストリーミングデータソース（Pub/Sub、Kafka、CDC イベント、ユーザークリックストリーム、ログ、センサーデータ）を BigQuery、Google Cloud Storage データレイク、Spanner、Bigtable、SQL ストア、Splunk、Datadog などに統合して、データストリーミングの取り組みを開始します。最適化された Dataflow テンプレートにより、数回のクリックでノーコードでパイプラインを設定できます。統合された UDF ビルダーを使用してテンプレートジョブにカスタムロジックを追加するか、Beam 変換と I/O コネクタのエコシステムの機能をフル活用して、カスタム ETL パイプラインをゼロから作成します。Dataflow は、ETL で処理されたデータを BigQuery から OLTP ストアに戻して、高速ルックアップとエンドユーザーへのサービスを提供するためにもよく使用されます。ストリーミングデータを複数のストレージロケーションに書き込むのは、Dataflow の一般的なパターンです。

Google Cloud アーキテクチャでのストリーミング分析

最初の Dataflow ジョブを起動し、Dataflow の基礎に関する自習型コースを受講してください。

チュートリアル、クイックスタート、ラボ

リアルタイムの分析と運用パイプラインのためにストリーミングデータを取り込む

ストリーミングデータソース（Pub/Sub、Kafka、CDC イベント、ユーザークリックストリーム、ログ、センサーデータ）を BigQuery、Google Cloud Storage データレイク、Spanner、Bigtable、SQL ストア、Splunk、Datadog などに統合して、データストリーミングの取り組みを開始します。最適化された Dataflow テンプレートにより、数回のクリックでノーコードでパイプラインを設定できます。統合された UDF ビルダーを使用してテンプレートジョブにカスタムロジックを追加するか、Beam 変換と I/O コネクタのエコシステムの機能をフル活用して、カスタム ETL パイプラインをゼロから作成します。Dataflow は、ETL で処理されたデータを BigQuery から OLTP ストアに戻して、高速ルックアップとエンドユーザーへのサービスを提供するためにもよく使用されます。ストリーミングデータを複数のストレージロケーションに書き込むのは、Dataflow の一般的なパターンです。

Google Cloud アーキテクチャでのストリーミング分析

最初の Dataflow ジョブを起動し、Dataflow の基礎に関する自習型コースを受講してください。

リアルタイム ETL とデータ統合

リアルタイムデータでデータプラットフォームをモダナイズ

リアルタイムの ETL と統合プロセス、即時のデータの書き込みにより、迅速な分析と意思決定を可能にします。Dataflow のサーバーレスアーキテクチャとストリーミング機能は、リアルタイム ETL パイプラインの構築に最適です。Dataflow の自動スケーリング機能により効率性とスケーラビリティが確保されると同時に、さまざまなデータソースと宛先がサポートされているため、統合が容易になります。

リアルタイム ETL アーキテクチャ

こちらの Google Cloud Skills Boost コースで、Dataflow でのバッチ処理の基礎知識を習得しましょう。

チュートリアル、クイックスタート、ラボ

リアルタイムデータでデータプラットフォームをモダナイズ

リアルタイムの ETL と統合プロセス、即時のデータの書き込みにより、迅速な分析と意思決定を可能にします。Dataflow のサーバーレスアーキテクチャとストリーミング機能は、リアルタイム ETL パイプラインの構築に最適です。Dataflow の自動スケーリング機能により効率性とスケーラビリティが確保されると同時に、さまざまなデータソースと宛先がサポートされているため、統合が容易になります。

リアルタイム ETL アーキテクチャ

こちらの Google Cloud Skills Boost コースで、Dataflow でのバッチ処理の基礎知識を習得しましょう。

リアルタイム ML と生成 AI

ストリーミング ML / AI でリアルタイムに対応

瞬時の判断はビジネスにおける価値を高めます。Dataflow のストリーミング AI と ML により、お客様は低レイテンシの予測と推論、リアルタイムパーソナライズ、脅威検出、不正行為防止など、リアルタイムインテリジェンスが重要となるさまざまなユースケースを実装できます。MLTransform を使用してデータを前処理する。これにより、複雑なコードの記述や基盤となるライブラリの管理からデータの変換に集中できます。RunInference を使用して生成 AI モデルに対して予測を行う。

チュートリアル、クイックスタート、ラボ

ストリーミング ML / AI でリアルタイムに対応

瞬時の判断はビジネスにおける価値を高めます。Dataflow のストリーミング AI と ML により、お客様は低レイテンシの予測と推論、リアルタイムパーソナライズ、脅威検出、不正行為防止など、リアルタイムインテリジェンスが重要となるさまざまなユースケースを実装できます。MLTransform を使用してデータを前処理する。これにより、複雑なコードの記述や基盤となるライブラリの管理からデータの変換に集中できます。RunInference を使用して生成 AI モデルに対して予測を行う。

マーケティングインテリジェンス

リアルタイムの分析情報でマーケティングを変革

リアルタイムのマーケティングインテリジェンスで、現在の市場、顧客、競合他社のデータを分析し、情報に基づいた迅速な意思決定を行います。これにより、トレンド、行動、競合アクションに対するアジャイルな対応を可能にし、マーケティングを変革します。次のような利点があります。

一人ひとりに合わせたサービスによるリアルタイムのオムニチャネルマーケティング
パーソナライズされたインタラクションによる顧客管理の改善
アジャイルなマーケティングミックスの最適化
動的ユーザーセグメンテーション
競争力を維持するための競合に関する情報
ソーシャルメディアでのプロアクティブな危機管理

マーケティングインテリジェンスアーキテクチャ

チュートリアル、クイックスタート、ラボ

リアルタイムの分析情報でマーケティングを変革

リアルタイムのマーケティングインテリジェンスで、現在の市場、顧客、競合他社のデータを分析し、情報に基づいた迅速な意思決定を行います。これにより、トレンド、行動、競合アクションに対するアジャイルな対応を可能にし、マーケティングを変革します。次のような利点があります。

一人ひとりに合わせたサービスによるリアルタイムのオムニチャネルマーケティング
パーソナライズされたインタラクションによる顧客管理の改善
アジャイルなマーケティングミックスの最適化
動的ユーザーセグメンテーション
競争力を維持するための競合に関する情報
ソーシャルメディアでのプロアクティブな危機管理

マーケティングインテリジェンスアーキテクチャ

クリックストリームの分析

ウェブとアプリのエクスペリエンスを最適化してパーソナライズする

リアルタイムのクリックストリーム分析を使用すると、企業はウェブサイトやアプリでのユーザーインタラクションを瞬時に分析できます。これにより、リアルタイムのパーソナライズ、A/B テスト、ファネルの最適化が可能になり、エンゲージメントの向上、プロダクト開発の迅速化、離脱の削減、サービスに関するサポートの強化につながります。最終的には、優れたユーザーエクスペリエンスを実現し、動的な価格設定とパーソナライズされたレコメンデーションを通じてビジネスの成長を促進します。

クリックストリームの分析

チュートリアル、クイックスタート、ラボ

ウェブとアプリのエクスペリエンスを最適化してパーソナライズする

リアルタイムのクリックストリーム分析を使用すると、企業はウェブサイトやアプリでのユーザーインタラクションを瞬時に分析できます。これにより、リアルタイムのパーソナライズ、A/B テスト、ファネルの最適化が可能になり、エンゲージメントの向上、プロダクト開発の迅速化、離脱の削減、サービスに関するサポートの強化につながります。最終的には、優れたユーザーエクスペリエンスを実現し、動的な価格設定とパーソナライズされたレコメンデーションを通じてビジネスの成長を促進します。

クリックストリームの分析

リアルタイムのログレプリケーションと分析

一元化されたログ管理と分析

Dataflow を使用して Splunk などのサードパーティプラットフォームに Google Cloud のログをレプリケートし、準リアルタイムのログ処理と分析を行うことができます。このソリューションは、ログ管理、コンプライアンス、監査、分析機能を一元化しながら、費用を削減し、パフォーマンスを向上させます。

ログ分析のアーキテクチャ

チュートリアル、クイックスタート、ラボ

一元化されたログ管理と分析

Dataflow を使用して Splunk などのサードパーティプラットフォームに Google Cloud のログをレプリケートし、準リアルタイムのログ処理と分析を行うことができます。このソリューションは、ログ管理、コンプライアンス、監査、分析機能を一元化しながら、費用を削減し、パフォーマンスを向上させます。

ログ分析のアーキテクチャ

料金

Dataflow の料金の仕組み	Dataflow の課金とリソースモデルについて学習する。
サービスと用途	説明	料金
Dataflow のコンピューティングリソース	Dataflow のコンピューティングリソースに対する課金には、以下が含まれます。ワーカーの CPU とメモリバッチワークロード用に処理される Dataflow Shuffle データ Streaming Engine コンピューティング単位数処理された Streaming Engine データ	詳しくは、料金ページをご覧ください
その他の Dataflow リソース	すべてのジョブに対して課金されるその他の Dataflow リソースには、Persistent Disk、GPU、スナップショットなどがあります。	詳しくは、料金ページをご覧ください
Dataflow の確約利用割引（CUD）	Dataflow CUD では、コミットメント期間に応じた 2 つのレベルの割引が用意されています。 1 年間の CUD では、オンデマンド料金から 20% 割引となります。 3 年間の CUD では、オンデマンド料金から 40% 割引となります。	Dataflow CUD の詳細

Dataflow の料金の詳細すべての料金の詳細を見る。

Dataflow の料金の仕組み

Dataflow の課金とリソースモデルについて学習する。

Dataflow のコンピューティングリソース

説明

Dataflow のコンピューティングリソースに対する課金には、以下が含まれます。

料金

詳しくは、料金ページをご覧ください

その他の Dataflow リソース

説明

すべてのジョブに対して課金されるその他の Dataflow リソースには、Persistent Disk、GPU、スナップショットなどがあります。

料金

詳しくは、料金ページをご覧ください

Dataflow の確約利用割引（CUD）

説明

Dataflow CUD では、コミットメント期間に応じた 2 つのレベルの割引が用意されています。

1 年間の CUD では、オンデマンド料金から 20% 割引となります。
3 年間の CUD では、オンデマンド料金から 40% 割引となります。

料金

Dataflow CUD の詳細

Dataflow の料金の詳細すべての料金の詳細を見る。

料金計算ツール

リージョン固有の料金と手数料を含む、GKE の毎月の費用を試算する

カスタムの見積もり

カスタム見積もりをご希望の場合は、Google のセールスチームにお問い合わせください。

概念実証を開始する

新規のお客様には、Dataflow を $300 でお試しいただけます

大規模なプロジェクトがある場合は、

Dataflow の使用方法

事前構築された Dataflow テンプレート

Dataflow コードサンプルを参照する

ビジネスケース

業界をリードするお客様が Dataflow を選ぶ理由

ANZ Bank、Google Cloud SRE 担当プロダクトオーナー Namitha Vijaya Kumar 氏

「Dataflow は、バッチ処理とリアルタイムデータ処理の両方に対応しており、エンタープライズのデータレイクにおいてデータを適宜、最新の状態に維持できます。その結果、分析/意思決定のためのダウンストリームデータの使用や、小売業のお客様へのリアルタイム通知の配信が促進されます。」

Dataflow のメリット

ストリーミング ML が簡単に

AI / ML にストリーミングを導入するターンキー機能: 推論のための RunInference、モデルトレーニングの前処理のための MLTransform、特徴量ストアの検索のための拡充、動的 GPU のサポートはすべて、限られた GPU リソースに無駄な費用をかけずにトイルを削減します。

堅牢なツールで最適なコストパフォーマンスを実現

Dataflow は、パフォーマンスとリソース使用量を最大化する自動最適化により、費用対効果に優れたストリーミングを提供します。あらゆるワークロードに合わせて簡単にスケーリングでき、AI による自己回復機能を備えています。堅牢なツールが運用と理解に役立ちます。

オープン、移植可能、拡張可能

Dataflow はオープンソースの Apache Beam 向けに構築されており、バッチとストリーミングの統合をサポートするため、クラウド、オンプレミス、エッジデバイス間でワークロードを移植できます。

パートナーとインテグレーション

Dataflow パートナー

Google Cloud パートナーが Dataflow との統合機能を開発しており、さまざまな規模での強力なデータ処理タスクが迅速かつ容易に行えるようになっています。すべてのパートナーを参照し、今すぐストリーミングを始めましょう。

Dataflow

リアルタイムのデータ インテリジェンス

Dataflow の特長

ストリーミング AI と ML を使用して、生成 AI モデルをリアルタイムで強化

エンタープライズ規模での高度なストリーミングのユースケースを実現

生成 AI 向けのマルチモーダル データ処理をデプロイする

テンプレートとノートブックで価値創出までの時間を短縮

スマートな診断ツールとモニタリング ツールで時間を節約

組み込みのガバナンスとセキュリティ

リアルタイム分析

リアルタイムの分析と運用パイプラインのためにストリーミング データを取り込む

チュートリアル、クイックスタート、ラボ

リアルタイムの分析と運用パイプラインのためにストリーミング データを取り込む

リアルタイム ETL とデータ統合

リアルタイム データでデータ プラットフォームをモダナイズ

チュートリアル、クイックスタート、ラボ

リアルタイム データでデータ プラットフォームをモダナイズ

リアルタイム ML と生成 AI

ストリーミング ML / AI でリアルタイムに対応

チュートリアル、クイックスタート、ラボ

ストリーミング ML / AI でリアルタイムに対応

マーケティング インテリジェンス

リアルタイムの分析情報でマーケティングを変革

チュートリアル、クイックスタート、ラボ

リアルタイムの分析情報でマーケティングを変革

クリックストリームの分析

ウェブとアプリのエクスペリエンスを最適化してパーソナライズする

チュートリアル、クイックスタート、ラボ

ウェブとアプリのエクスペリエンスを最適化してパーソナライズする

リアルタイムのログ レプリケーションと分析

一元化されたログ管理と分析

チュートリアル、クイックスタート、ラボ

一元化されたログ管理と分析

料金計算ツール

カスタムの見積もり

概念実証を開始する

新規のお客様には、Dataflow を $300 でお試しいただけます

大規模なプロジェクトがある場合は、

Dataflow の使用方法

事前構築された Dataflow テンプレート

Dataflow コードサンプルを参照する

関連コンテンツ

Dataflow パートナー

リアルタイムのデータインテリジェンス

生成 AI 向けのマルチモーダルデータ処理をデプロイする

スマートな診断ツールとモニタリングツールで時間を節約

リアルタイムの分析と運用パイプラインのためにストリーミングデータを取り込む

リアルタイムの分析と運用パイプラインのためにストリーミングデータを取り込む

リアルタイムデータでデータプラットフォームをモダナイズ

リアルタイムデータでデータプラットフォームをモダナイズ

マーケティングインテリジェンス

リアルタイムのログレプリケーションと分析