Dataflow ジョブモニタリングインターフェースを使用する

Dataflow マネージドサービスを使用してパイプラインを実行する場合は、Dataflow のウェブベースのモニタリングインターフェースを使用して、そのジョブや他のジョブを表示できます。このモニタリングインターフェースを使用すると、Dataflow ジョブを表示して操作できます。

Google Cloud Console を使用すると、Dataflow モニタリングインターフェースにアクセスできます。このモニタリングインターフェースには、次の項目が表示されます。

実行中のすべての Dataflow ジョブと過去 30 日以内に実行されたすべてのジョブのリスト。
各パイプラインの図
ジョブ、タイプ、SDK バージョンのステータスに関する詳細。
パイプラインを実行している Google Cloud サービス（Compute Engine や Cloud Storage など）に関する情報へのリンク。
ジョブ中に発生したエラーまたは警告。
ジョブに関する追加の診断。

ジョブビジュアライザーは、Dataflow モニタリングインターフェース内で表示できます。これらのグラフには、パイプラインジョブの期間中の指標が表示され、次の情報が含まれます。

パイプラインの遅れを引き起こしている可能性のあるステップを特定するためのステップレベルの可視性。
異常な動作を表面化させることのできる統計情報。
参照元やシンク内のボトルネックの特定に役立つ I/O の指標。

Dataflow モニタリングインターフェースにアクセスする

Dataflow モニタリングインターフェースにアクセスする方法は次のとおりです。

Google Cloud コンソールにログインします。
Google Cloud プロジェクトを選択します。
ナビゲーションメニューを開きます。
[分析] で、[Dataflow] をクリックします。

Dataflow ジョブのリストとそれぞれのステータスが表示されます。ジョブが表示されない場合は、新しいジョブを実行する必要があります。ジョブの実行方法については、Java クイックスタート、Python クイックスタート、または Go クイックスタートをご覧ください。

ジョブの状態として「実行中」、「失敗」、「成功」が示された Dataflow ジョブのリスト。 — 図 1: Google Cloud コンソールの Dataflow ジョブのリスト。ジョブのステータス（**実行中**、失敗、成功）が表示されています。

ジョブのステータスは以下のとおりです。

-: モニタリングインターフェースはまだ Dataflow サービスからステータスを受け取っていません。
実行中: ジョブは実行中です。
開始しています...: ジョブは作成されていますが、起動する前に準備の時間が必要です。
キューに格納済み: FlexRS ジョブがキューに格納されているか、Flex テンプレートジョブの起動中です（数分かかる場合があります）。
キャンセルしています...: ジョブはキャンセル中です。
キャンセルしました: ジョブはキャンセルされています。
ドレインしています...: ジョブはドレイン中です。
ドレインされました: ジョブはドレインされます。
更新しています...: ジョブは更新中です。
更新しました: ジョブが更新されます。
完了しました: ジョブは正常に終了しました。
失敗しました: ジョブは完了しませんでした。

パイプラインの詳細を確認するには、ジョブの名前をクリックします。

ジョブビジュアライザーにアクセスする

ジョブをモニタリングするグラフにアクセスするには、Dataflow モニタリングインターフェース内でジョブの名前をクリックします。[ジョブの詳細] ページが表示されます。このページには、次の情報が含まれています。

ジョブのグラフ: パイプラインの視覚的表現
実行の詳細: パイプラインのパフォーマンスを最適化するツール
ジョブの指標: ジョブの実行に関する指標
費用: ジョブの推定費用に関する指標
自動スケーリング: ストリーミングジョブの自動スケーリングイベントに関連する指標
ジョブの情報パネル: パイプラインに関する記述情報
ジョブのログ: Dataflow サービスによってジョブレベルで生成されたログ
ワーカーログ: Dataflow サービスによってワーカーレベルで生成されたログ
診断: 選択したタイムラインでエラーが発生した場所と、パイプラインに対して発生する可能性のある推奨事項を示すテーブル
データサンプリング: パイプラインの各ステップでデータをモニタリングできるツール。データサンプリングを使用してパイプラインデータをモニタリングするをご覧ください。

[ジョブの詳細] ページでは、[ジョブのグラフ] タブ、[実行の詳細] タブ、[ジョブの指標] タブ、[費用]、[自動スケーリング] タブでジョブビューを切り替えることができます。

ジョブグラフ

特定の Dataflow ジョブを選択すると、モニタリングインターフェースにはパイプラインのグラフィカルに表現したジョブグラフが表示されます。コンソールのジョブグラフページには、ジョブの概要、ジョブログ、パイプラインの各ステップに関する情報も表示されます。ジョブグラフの詳細については、Dataflow ジョブグラフをご覧ください。

ジョブの指標

グラフは、Dataflow ウェブインターフェースの [Job metrics] タブで表示できます。各指標は、次のダッシュボードにまとめられています。

全体的な指標

ストリーミング指標（ストリーミングパイプラインのみ）

リソースの指標

入力の指標

Pub/Sub の読み取り、BigQuery の読み取りなど

出力の指標

Pub/Sub の書き込み、BigQuery の書き込みなど

Cloud Monitoring アラート

Cloud Monitoring アラートを作成するをご覧ください。

費用のモニタリング

Google Cloud コンソールの [費用] ページには、現在の Dataflow ジョブの推定費用が表示されます。推定費用は、リソースの使用状況の指標（Cloud Monitoring に表示）に、ジョブのリージョンにおけるリソースの価格を掛けて計算されています。

費用のモニタリングを使用する

ジョブの費用見積もりは、バッチジョブとストリーミングジョブの両方で使用できます。Google Cloud コンソールの [費用] ページには、次の情報が表示されます。

ジョブの費用に寄与しているリソースとその金額の詳細。リソースには、vCPU、メモリ、処理された Dataflow Shuffle データ、処理された Streaming Engine データ、SSD および HDD ディスクの使用量などがあります。
特定の時間枠（ジョブが開始してからの時間、過去 1 時間、過去 24 時間、過去 7 日間、ユーザー指定の期間など）の費用。

モニタリングアラートを使用して、ジョブの費用が指定したしきい値を超えた場合に通知を受け取ることができます。また、アラートを使用して、設定したしきい値に基づいてジョブの変更（ジョブの停止やキャンセルなど）を行うこともできます。

Cloud Monitoring アラートルールを作成するには、[アラートの作成] をクリックします。これらのアラートの構成方法については、Dataflow パイプラインに Cloud Monitoring を使用するをご覧ください。

制限事項

Dataflow の費用のモニタリングは、Dataflow Prime ジョブと GPU 指標に対応していません。

自動スケーリング指標

Dataflow モニタリングインターフェースでは、ストリーミングジョブの自動スケーリングのモニタリンググラフを表示できます。これらのグラフには、パイプラインジョブの期間中の指標が表示され、次の情報が含まれます。

任意の時点においてジョブで使用されるワーカーインスタンスの数
ログファイルの自動スケーリング
推定バックログの推移
平均 CPU 使用率の推移

詳細については、Dataflow 自動スケーリングのモニタリングをご覧ください。

推奨事項と診断

Dataflow は、ジョブのパフォーマンスの向上、コストの削減、エラーのトラブルシューティングに関する推奨事項を提供します。このセクションでは、推奨事項を確認して解釈する方法について説明します。一部の推奨事項は、ユースケースに関連性がない場合もあります。

推奨事項

[推奨事項] タブには、パイプラインに関する Dataflow の分析情報が表示されます。これらの分析情報により、コストやパフォーマンスの改善が見込める状況を特定できます。

サンプルの推奨事項を含む Dataflow ジョブの [推奨事項] タブ。

[更新日] 列には、分析情報が最後に確認された日時が表示されます。推奨事項は、更新日から 30 日間保存されます。

プログラムによる推奨事項へのアクセス

プログラムで推奨事項にアクセスするには、Recommender API を使用します。

推奨事項を閉じる

プロジェクトのおすすめハブで、推奨事項を閉じることができます。

推奨事項を閉じるには、Google Cloud コンソールの左上にあるナビゲーションメニューをクリックし、[ホーム] > [推奨事項] を選択します。Dataflow 診断カードで [すべて表示] をクリックし、非表示にする推奨事項を選択して、[閉じる] をクリックします。

診断

[ログ] ペインの [診断] タブで、パイプラインで生成された特定のログエントリを収集し、表示します。ここには、パイプラインで考えられる問題を示すメッセージと、スタックトレースを含むエラーメッセージが含まれます。収集されたログエントリは重複が排除され、エラーグループに結合されます。

サービスエラーのエラーグループがある Dataflow ジョブの [診断] タブ。

エラーレポートには次の情報が含まれます。

エラーとエラーメッセージのリスト。
各エラーが発生した回数。
各エラーがいつ発生したかを示すヒストグラム。
直近のエラーの発生時刻。
エラーが初めて発生した時刻。
エラーのステータス。

特定のエラーのエラーレポートを表示するには、[エラー] 列の説明をクリックします。[エラーレポート] ページが表示されます。サービスエラーの場合は、詳細な手順を含むドキュメント（トラブルシューティングガイド）へのリンクが表示されます。

Dataflow サービスエラーのエラーグループの詳細ページ。

このページの詳細については、エラーの表示をご覧ください。

エラーのミュート

エラーメッセージをミュートするには、[診断] タブを開き、ミュートするエラーをクリックして、解決ステータスのメニュー（対応待ち、確認済み、解決済み、ミュート中、のいずれかのラベルが付いている）から [ミュート中] を選択します。

次のステップ

実行の詳細を使用して Dataflow ジョブを最適化する方法を確認する。
Cloud Monitoring を確認し、アラートを作成して Dataflow 指標（カスタム指標を含む）を表示する。
本番環境に対応したデータパイプラインの構築について詳細を確認する。