Cloud Console での環境のモニタリング

このページでは、Cloud Composer 環境のモニタリング ダッシュボードにアクセスして使用する方法について説明します。このダッシュボードには、環境内の DAG 実行の傾向をモニタリングし、Airflow コンポーネントと Cloud Composer リソースに関する問題を特定するための指標とグラフが用意されています。

モニタリング ダッシュボードへのアクセス

  1. Cloud Console の [環境] ページを開きます。

    [環境] ページを開く

  2. リストでモニタリングする環境の名前を探します。環境名をクリックして、[環境の詳細] ページのモニタリング タブを開きます。

期間の選択

ダッシュボードでデータの期間を選択するには、ページの右上にある範囲のリストを使用します。

期間セレクタ

グラフをクリックしてドラッグすることで、特定の期間を拡大することもできます。新しい期間がすべての指標に適用されます。時間の左側にある [ズームをリセット] ボタンをクリックしてズームをリセットします。

アラートの設定

モニタリング カードの隅にあるベルのアイコンをクリックすると、指標のアラートを設定できます。

モニタリング アラート

Monitoring で指標を表示する

Monitoring で指標を表示すると、指標を詳しく確認できます。Cloud Composer のモニタリング ダッシュボードから移動するには、指標カードの右上にあるその他アイコン(3 つの点)をクリックし、[Metrics Explorer で表示] を選択します。

Metrics Explorer で表示する

指標の説明

各 Cloud Composer 環境には独自のモニタリング ダッシュボードがあります。以下の指標は、現在選択されている環境の DAG 実行、Airflow コンポーネント、環境の詳細のみをトラッキングします。

環境の概要

環境の指標 説明
ノードあたりの CPU 使用率 CPU コアの使用率をコアの時間使用率で測定し、ノードで実行中のすべての Pod について集計した結果を示すグラフ。これには、Airflow UI で使用される App Engine インスタンスまたは Cloud SQL インスタンスの CPU 使用率は含まれません。多くの場合に、高 CPU 使用率はワーカー Pod のエビクションの根本原因となります。使用率の著しい上昇が見られる場合は、Composer 環境をスケールアウトする、または DAG 実行スケジュールの変更を検討してください。
ノードあたりのメモリ使用量 GKE クラスタでのノードあたりのメモリ使用量。これには、Airflow UI で使用される App Engine インスタンスまたは Cloud SQL インスタンスのメモリ使用量は含まれません。一般的に、メモリ使用量が大きいことが、ワーカー Pod のエビクションの根本原因であり、DAG の障害につながる可能性があります。
環境のヘルス Composer のデプロイの正常性を示すタイムライン。緑色のステータスは、すべての Airflow コンポーネントが動作可能であり、DAG を実行できたことを示すものではありません。Composer のデプロイのステータスのみを反映しています。
データベースのヘルス Composer Cloud SQL インスタンスへの接続のステータスを示すタイムライン。
ウェブサーバーのヘルス Airflow UI ウェブサーバーのステータスを示すタイムライン。これは、UI サーバーから返される HTTP ステータス コードに基づいて生成されます。

Airflow コンポーネント

Airflow の指標 説明
スケジューラのハートビート Airflow スケジューラが正常なハートビートを提供していた(すなわち、応答していた)時間を示すタイムライン。Airflow スケジューラの問題を特定するには、赤い領域を確認します。
アクティブ ワーカー数 選択した期間でアクティブなワーカーの数を示すグラフ。デフォルトでは、Airflow クラスタ内のノード数と同じになるはずですが、環境がスケールアウトされると増加する可能性があります。アクティブなワーカーの数が減少した場合は、ワーカー プロセスの失敗を示している可能性があります(ワーカー Pod の強制排除のグラフを参照)。
ワーカー Pod の強制排除1 GKE ワーカー Pod の強制排除数の推移を示すグラフ。多くの場合、Pod の強制排除は GKE リソースの枯渇によって発生します。詳細については、ノードあたりの CPU とメモリの使用率のグラフをご覧ください。
強制終了したゾンビタスク1 短い時間枠で強制終了されたゾンビタスクの数を示すグラフ。ゾンビタスクは、多くの場合、Airflow プロセスの外部終端によって発生します。Airflow スケジューラはゾンビタスクを定期的に強制終了させ、それはこのグラフに反映されます。

DAG 実行

DAG 実行の指標 説明
成功した DAG 実行 選択した期間中に環境内のすべての DAG について成功した実行の合計回数。これが想定したレベルを下回る場合は、失敗(失敗した DAG 実行を参照)またはスケジューリングの問題を示していることがあります。
失敗した DAG 実行 選択した期間中に環境内のすべての DAG について失敗した実行の合計回数。
失敗したタスク1 選択した期間に環境内で失敗したタスクの合計数。失敗したタスクが常に DAG 実行の失敗の原因となるわけではありませんが、DAG エラーのトラブルシューティングを行う際に有用なシグナルであることが考えられます。
完了済みの DAG 実行 選択した期間内の間隔の DAG の成功数と失敗数を示す棒グラフ。これにより、DAG 実行に関する一時的な問題を特定し、ワーカー Pod の強制排除などの他のイベントと関連付けることができます。
DAG 実行時間の中央値 短い期間内に完了した DAG 実行時間の中央値を示すグラフ。このグラフは、パフォーマンスの問題を特定し、DAG の実行時間に関する傾向を特定する際に有用な可能性があります。
完了したタスク1 環境内で完了したタスクの数を成功したタスクと失敗したタスクの内訳とともに、短い時間枠で示すグラフ。
実行中のタスク1とキューに入れられたタスク 一定時間に実行され、キューに入れられたタスクの数を示すグラフ。キューに入れられたタスクの数を考慮して、パフォーマンスのボトルネックや過度な負荷を特定します。タスクをただちに実行できないときは、キューが長くなります。実行中のタスクの数を考慮して、スケジュールの問題を見抜きます。たとえば、実行中のタスクの数が著しく減少した場合は、スケジュールの問題を示している可能性があります。
DAG バッグサイズ1 Cloud Storage バケットにデプロイされ、特定の時間に Airflow によって処理される DAG の数を示すグラフ。これは、パフォーマンスのボトルネックを分析する際に有用です。たとえば、DAG のデプロイ数が増大すると、過負荷によりパフォーマンスが低下する場合があります。
DAG ファイルのインポート エラー1 短い時間枠における DAG 解析エラーの数を示すグラフ。これは、破損した DAG が Airflow によって処理され、DAG のソースコードに問題があることを示している場合を特定する際に有用です。
すべての DAG の合計解析時間1 Airflow が環境内のすべての DAG を処理するために必要な合計時間を示すグラフ。解析時間が増大すると、スケジューリングの効率に影響する可能性があります。

1 Composer バージョン 1.10.0 以降と Airflow バージョン 1.10.6 以降を使用する環境で利用可能です。