Google Cloud Next Tokyo ’23 の基調講演をオンデマンドで公開しています。ぜひご登録のうえご視聴ください。今すぐ登録
移動
Dataflow

Dataflow

サーバーレスかつ高速で、費用対効果の高い、統合されたストリーム データ処理とバッチデータ処理。

新規のお客様には、Dataflow で使用できる無料クレジット $300 分を差し上げます。

  • データ ストリーミングと機械学習によるリアルタイムの分析情報と有効活用

  • フルマネージドのデータ処理サービス

  • 処理を実行するリソースの自動プロビジョニングと管理

  • リソース使用率を最大化する、ワーカー リソースの水平および垂直自動スケーリング

  • Apache Beam SDK による、OSS コミュニティ ドリブンのイノベーション

利点

高速なストリーミング データ分析

Dataflow を使用すると、データ転送のレイテンシを抑えた、高速で簡素化されたストリーミング データ パイプライン開発が可能になります。

操作と管理を簡素化する

Dataflow のサーバーレス アプローチにより、データ エンジニアリングのワークロードから運用上のオーバーヘッドが取り除かれるため、チームはサーバー クラスタの管理ではなく、プログラミングに専念できます。

総所有コストの低減

リソースの自動スケーリングとコスト最適化されたバッチ処理機能を組み合わせることにより、Dataflow で実質無制限の容量を利用できます。過剰な費用をかけずに、時季変動したり急変動したりするワークロードを管理できます。

主な機能

主な機能

すぐに使えるリアルタイム AI

NVIDIA GPU やすぐに使用できるパターンなど、すぐに使える ML 機能によって実現される Dataflow のリアルタイム AI 機能により、大量のイベントに対する人間に近い知性によるリアルタイムの応答が可能になります。

お客様は、予測分析や異常検出から、リアルタイム パーソナライズなどの高度な分析のユースケースまで、インテリジェントなソリューションを構築できます。

バッチ パイプラインとストリーミング パイプラインを使用したローカルおよびリモートの推論など、完全な機械学習(ML)パイプラインをトレーニング、デプロイ、管理します。

リソースの自動スケーリングと動的作業再調整

データアウェア リソースの自動スケーリングにより、パイプラインのレイテンシの最小化、リソース使用率の最大化、データレコードあたりの処理コストの削減を実現します。データ入力は、自動的にパーティション分割され、常にリバランスされることで、ワーカー リソース使用率が均等化され、パイプラインのパフォーマンスに対する「ホットキー」の影響が軽減されます。

モニタリングとオブザーバビリティ

Dataflow パイプラインの各ステップでデータを監視します。実際のデータのサンプルを使用して問題を診断し、効果的にトラブルシューティングを行います。ジョブの異なる実行を比較して、問題を簡単に特定します。

すべての機能を表示

ドキュメント

ドキュメント

チュートリアル

Serverless Data Processing with Dataflow: Foundations

Dataflow について知っておくべきことに関する基礎トレーニング。
チュートリアル

Python を用いた Dataflow のクイックスタート

Google Cloud プロジェクトと Python 開発環境を設定し、Apache Beam SDK を取得して、Dataflow サービスで WordCount サンプルを実行および変更します。
チュートリアル

Dataflow SQL の使用

SQL クエリを作成し、Dataflow ジョブをデプロイして、Dataflow SQL UI から SQL クエリを実行します。
チュートリアル

Apache Beam SDK のインストール

Apache Beam SDK をインストールして、Dataflow サービスでパイプラインを実行できるようにします。