Dataflow パイプラインを利用したデータ パイプラインの大規模なデプロイと管理
Google Cloud Japan Team
※この投稿は米国時間 2021 年 10 月 9 日に、Google Cloud blog に投稿されたものの抄訳です。
データ エンジニアは、データ ウェアハウスやデータレイクへのデータの取り組みから、機械学習ユースケースのデータ処理、高度なストリーミング分析アプリケーションの実装に至るまで、さまざまなデータ処理のニーズに対応するために Dataflow を使用しています。ユースケースや導入事例はそれぞれ異なりますが、これらすべてに共通するニーズが 1 つあります。それは、少なくとも何十もの(場合によっては何百もの)Dataflow のジョブを作成、モニタリング、管理する必要があるということです。そのため、ユーザーからは Dataflow のジョブをスケジュール、モニタリング、トラブルシューティングすることができるスケーラブルな方法を切望する声が寄せられていました。
そこでこのたび Google Cloud では、プレビューに Dataflow パイプラインを新しく導入することで、Dataflow のジョブの大規模管理の問題に対処できるようにしました。Dataflow パイプラインに新しい管理抽象化パイプラインを導入し、ユーザーが関心を持つ論理パイプラインへマッピングして、モニタリングと管理を単一画面で表示できるようにしました。


Data Pipelines を使えば、次のようなタスクを簡単に実行できます。
定期スケジュールでのジョブの実行: Data Pipelines を使えば、cron 形式でスケジュールを指定するだけで、繰り返し実行するバッチジョブを「スケジュール」できます。パイプラインはそのスケジュールに従って、Dataflow のジョブを自動的に作成します。入力ファイル名をパラメータ化することで、増分バッチ パイプライン処理が可能になります。Dataflow では Cloud Scheduler を使ってジョブのスケジュール設定を行います。
SLO の作成とトラッキング: モニタリングの主要目標の 1 つに、データ パイプラインがダウンストリームのビジネスチームが必要とするデータを確実に提供するということがあります。これまで、SLO を定義し対応するアラートを設定することは簡単ではありませんでした。Data Pipelines では、SLO の構成とアラート設定がネイティブにサポートされているので、パイプライン レベルで簡単に定義できます。


稼働状況のモニタリングとトラッキング: Data Pipelines では、プロジェクトやパイプライン レベルで集計された指標が提供されるので、パイプラインのモニタリングや推論が容易になります。こうした指標(バッチとストリーミングの両方)により、以前の実行履歴とともに、パイプラインの詳しい概要を一目で把握できるようになります。さらに、問題のあるジョブを簡単に特定してジョブレベルのページを参照できるので、トラブルシューティングが容易になります。


こちらから Data Pipelines の概要を説明した短い動画をご覧ください。

ご意見やご質問がございましたら、google-data-pipelines-feedback@googlegroups.com までお問い合わせください。
- Dataflow シニア プロダクト マネージャー Shan Kulandaivel
- Dataflow ソフトウェア エンジニア Manav Garg