強化された Dataflow モニタリングでデータ パイプラインの “視界” をクリアに
Google Cloud Japan Team
※この投稿は米国時間 2020 年 2 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。
ストリーム アナリティクスは、今まで想像もつかなかったような形でデータを生み出し、コネクテッド医療機器から工場フロアでの予知保全までさまざまな新しいユース ケースを作り出しています。とはいえ、新しいユース ケースには新たな課題が伴います。それにきちんと対処しなければ、エンドユーザー アプリケーションの意図しない動作を招く可能性があります。
ストリーム アナリティクス以前のバッチ データ処理では、データ ワークフローを再実行すれば信頼性を保証できました。また、バッチ処理での遅延は今ほど大きな問題ではなかったので、SLO の期限内に確実にデータを届けることは対処可能なタスクでした。
しかし、ストリーム処理は別の生き物です。ストリーム アナリティクスは、ユーザー イベントからアプリケーション アクションまでの時間を大幅に短縮するため、データ パイプラインのパフォーマンス低下にすばやく対応することが今まで以上に重要になります。そこで、フルマネージドのバッチおよびストリーム データ処理サービスである Google Cloud Dataflow では、パイプラインの障害をかつてないほど迅速に発見し、診断して修正する新しいオブザーバビリティ機能を導入しました。優れたオブザーバビリティにより、ユーザーは問題解決に要する時間を短縮し、データから価値を引き出すための時間を増やすことができます。
Dataflow の新しいオブザーバビリティ機能
今回のローンチに伴い、Dataflow モニタリング インターフェースには新しいグラフが追加され、Cloud Monitoring インターフェースのワークフローは整理されました。Dataflow のジョブ詳細ページに移動すると、画面上部の新しい「JOB METRICS」タブにグラフが表示されます。
Dataflow のモニタリング エクスペリエンスに以前から含まれていたデータの鮮度、システムのレイテンシ、自動スケーリングのグラフに加え、スループットと CPU 使用率のグラフが新たに追加されました。スループットのグラフ(下図)は、パイプラインにどれだけの要素(またはバイト)が流れているかを示しています。時系列グラフにはパイプラインの各ステップを表す行が含まれており、それを見れば、ジョブの処理全体のなかでパイプラインのどのステップがスローダウンしているかがすぐにわかります。新しいタイム セレクタを使ってグラフ内の興味深い部分でカーソルをドラッグすれば、高解像度でズームインすることもできます。
CPU 使用率のグラフはワーカーの使用率を時系列で示します。これにより、ワーカーに対して適切な数のコアを割り当てているか、もしくはジョブのために適切な数のワーカーを選択しているか(自動スケーリングを無効にしている場合)を確認できます。実際のグラフは下図のようになっており、全ワーカー ビュー、統計ビュー、CPU 使用率上位 4 台、同下位 4 台というようにビューを切り替えることが可能です。
グラフ画面右上の「Create alerting policy」リンクを使用すれば、数クリックでアラートを作成できます。ジョブとワーカーのログについては、画面下部の展開可能なパネルに表示されます。パイプラインのパフォーマンス低下をデバッグするのに必要なツールはすべて揃っています。
新機能に対する実際の評価
こうした新機能をお試しになったお客様からは、とても役に立つという評価をいただいています。
Expanse のシニア ソフトウェア エンジニアである Vinay Mayar 氏は、「新しい UI をとても気に入っています。つい昨日も、パイプラインのスループットを監視して、問題を診断したところです」と述べています。
新機能は Ocado Technology でも役に立っています。「処理ステップごとにスループットを確認できることがこのページのポイントです。すべての統計情報が JOB METRICS ページの 1 か所にまとめられており、すばらしいと思います。データの鮮度とシステムのレイテンシが表示されるので、信頼性に影響を及ぼす可能性のあるものを迅速かつ予防的に見つけることが可能です。見つかった問題は他のグラフやログを使って調査し、対処できます。」(同社のソフトウェア エンジニア、Mateusz Juraszek 氏)
次のステップ
今回のオブザーバビリティ機能の一般公開(GA)は、Dataflow モニタリングをデータ エンジニアにとって最高のツールにするための最初のステップにすぎません。今後、私たちは数か月にわたって、メモリとディスクの使用状況グラフ、Pub/Sub 呼び出しの応答レイテンシやエラー率といった I/O メトリクス、Dataflow ジョブの説明可能性を大幅に引き上げる可視化ツールなどを追加していきます。信頼性とパフォーマンスの確保に割く時間を短縮し、データから価値を引き出すための時間を増やせば、次世代の最先端ストリーミング アナリティクス アプリケーションの基礎を築くことに時間を活用できるようになります。
Dataflow の新機能の詳細はこちらをご覧ください。
- By Mehran Nazir, Product Manager