使用監控資訊主頁

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

本頁面說明如何存取及使用 Cloud Composer 環境的監控資訊主頁。

如要進一步瞭解特定指標,請參閱「使用 Cloud Monitoring 監控環境」。

存取監控資訊主頁

監控資訊主頁包含指標和圖表,可監控環境中 DAG 執行的趨勢,並找出 Airflow 元件和 Cloud Composer 資源的問題。

如要存取環境的監控資訊主頁,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「Environments」頁面。

    前往「環境」

  2. 在環境清單中,按一下環境名稱。 「環境詳細資料」頁面隨即開啟。

  3. 前往「監控」分頁。

設定指標快訊

如要為指標設定快訊,請按一下監控資訊卡角落的鈴鐺圖示。

為監控資訊主頁上顯示的指標建立快訊
圖 1. 為監控資訊主頁上顯示的指標建立快訊 (按一下即可放大)

在 Monitoring 中查看指標

您可以在 Monitoring 中查看指標,進一步瞭解指標。

如要從 Cloud Composer 監控資訊主頁前往,請按一下指標資訊卡右上角的三點圖示,然後選取「在指標探索工具中查看」

在 Metrics Explorer 中查看監控資訊主頁的指標
圖 2. 在 Metrics Explorer 中查看監控資訊主頁的指標 (按一下即可放大)

指標說明

每個 Cloud Composer 環境都有專屬的監控資訊主頁。特定環境的監控資訊主頁上顯示的指標,只會追蹤該環境的 DAG 執行作業、Airflow 元件和環境詳細資料。舉例來說,如果您有兩個環境,資訊主頁不會匯總這兩個環境的指標。

環境總覽

環境指標 說明
環境健康狀態 (Airflow 監控 DAG) 時間軸:顯示 Composer 部署作業的健康狀態。綠色狀態只會反映 Composer 部署作業的狀態。這並不表示所有 Airflow 元件都能運作,DAG 也能執行。
排程器活動訊號 時間軸顯示 Airflow 排程器的活動訊號。檢查紅色區域,找出 Airflow 排程器問題。如果環境有多個排程器,只要至少有一個排程器回應,心跳狀態就會正常。
網路伺服器健康狀態 顯示 Airflow 網路伺服器狀態的時間軸。這項狀態是根據 Airflow 網路伺服器傳回的 HTTP 狀態碼產生。
資料庫健康狀態 時間軸:顯示與代管 Airflow 資料庫的 Cloud SQL 執行個體連線狀態。
環境作業 時間軸,顯示修改環境的作業,例如執行設定更新或載入環境快照。
維護作業 時間軸,顯示對環境叢集執行維護作業的時間範圍。
環境依附元件 時間軸:顯示環境作業的可存取性和權限檢查狀態。

DAG 統計資料

環境指標 說明
成功的 DAG 執行作業 在所選時間範圍內,環境中所有 DAG 的成功執行總次數。如果成功執行的 DAG 數量低於預期,可能表示發生失敗 (請參閱「失敗的 DAG 執行作業」) 或排程問題。
失敗的 DAG 執行作業 失敗的工作 在所選時間範圍內,環境中所有 DAG 的失敗執行次數總和。 所選時間範圍內,環境中失敗的工作總數。工作失敗不一定會導致 DAG 執行失敗,但可用於排解 DAG 錯誤。
已完成的 DAG 執行作業 所選時間範圍內各間隔的 DAG 成功與失敗次數。這有助於找出 DAG 執行作業的暫時性問題,並將這些問題與其他事件 (例如 Worker Pod 逐出) 建立關聯。
已完成的工作 環境中完成的工作數量,並細分成功和失敗的工作。
DAG 執行時間中位數 DAG 執行作業的持續時間中位數。這張圖表有助於找出效能問題,以及 DAG 持續時間的趨勢。
Airflow 工作 在指定時間點處於「執行中」、「已排入佇列」或「延遲」狀態的工作數量。Airflow 工作是指在 Airflow 中處於佇列狀態的工作,這些工作可以進入 Celery 或 Kubernetes 執行器代理程式佇列。Celery 佇列中的工作是指已排入 Celery 代理程式佇列中的工作執行個體。
已停止的無效工作 在短時間內停止的無效工作數量。無效工作通常是由於 Airflow 程序外部終止所致。Airflow 排程器會定期停止無效工作,這會反映在圖表中。
DAG 包裹大小 在特定時間點部署至環境值區並由 Airflow 處理的 DAG 數量。這有助於分析效能瓶頸。舉例來說,DAG 部署作業次數增加可能會導致負載過高,進而降低效能。
DAG 處理器錯誤 處理 DAG 檔案時,每秒發生的錯誤數量和逾時次數。這個值代表了 DAG 處理器回報的錯誤頻率 (與失敗的 DAG 數量不同)。
剖析所有 DAG 的總時間長度 圖表:顯示 Airflow 處理環境中所有 DAG 所需的總時間。如果剖析時間變長,排程效率可能會受到影響。詳情請參閱「DAG 剖析時間和 DAG 執行時間的差異」。

排程器統計資料

環境指標 說明
排程器活動訊號 請參閱「環境總覽」。
排程器 CPU 使用率總計 在所有 Airflow 排程器 Pod 中運作的容器,其 vCPU 核心總用量,以及所有排程器的 vCPU 總限制。
排程器記憶體總用量 在所有 Airflow 排程器 Pod 中運作的容器記憶體總用量,以及所有排程器的合併 vCPU 限制。
排程器磁碟用量總計 在所有 Airflow 排程器 Pod 中運作的容器磁碟空間用量總計,以及所有排程器的磁碟空間限制總和。
排程器容器重新啟動次數 個別排程器容器的重新啟動總次數。
排程器 Pod 撤銷次數 Airflow 排程器 Pod 撤銷次數。當環境叢集中的特定 Pod 達到資源限制時,可能會發生 Pod 驅逐作業。

工作人員統計資料

環境指標 說明
工作站 CPU 使用率總計 在所有 Airflow 工作站 Pod 中運作的容器,其 vCPU 核心總用量,以及所有工作站的 vCPU 總限制。
工作站記憶體總用量 在所有 Airflow 工作站 Pod 中運作的容器記憶體總用量,以及所有工作站的 vCPU 總限制。
工作站磁碟總用量 在所有 Airflow 工作站 Pod 中執行的容器磁碟空間總用量,以及所有工作站的磁碟空間總限制。
活躍的工作站數量 環境中的目前工作站數目。在 Cloud Composer 2 中,環境會自動調度活躍工作站的數量。
工作站容器重新啟動次數 個別工作站容器的重新啟動總次數。
工作站 Pod 撤銷次數 Airflow 工作站 Pod 撤銷次數。當環境叢集中的特定 Pod 達到資源限制時,可能會發生 Pod 逐出作業。如果 Airflow 工作站 Pod 遭到撤銷,該 Pod 上執行的所有工作例項都會中斷,並在稍後由 Airflow 標示為失敗。
Airflow 工作 請參閱「環境總覽」。
未確認的 Celery 工作 Celery 代理程式佇列中未確認的工作數量。未確認的工作包括處於 queuedrunning 工作狀態的 Airflow 工作執行個體。這兩種狀態都是 Airflow 工作執行的正常情況。「未確認的 Celery 工作」圖表會將處於這些狀態的工作輸出為未確認,同時 Airflow 會處理這些工作。如果 Airflow 工作執行個體異常中斷 (例如偵測為殭屍),也會維持未確認狀態,直到達到 visibility_timeout 為止。在這種情況下,圖表會顯示長期未確認的任務。Cloud Composer 中的可見性逾時值設為 7 天。這段時間過後,系統會重新傳送工作,您或許可以確認。如果再次失敗,可能要再等 7 天才能確認。
Celery 代理程式發布逾時次數 將工作發布至 Celery 代理程式時發生的 AirflowTaskTimeout 錯誤總數。這項指標對應於 celery.task_timeout_error Airflow 指標。
Celery 執行指令失敗次數 Celery 工作中的非零結束代碼總數。這項指標對應於 celery.execute_command.failure Airflow 指標。
由系統終止的工作數量 工作執行器透過 SIGKILL 終止的工作流程工作數量 (例如因工作站記憶體或活動訊號問題而終止)。

網路伺服器統計資料

環境指標 說明
網路伺服器健康狀態 請參閱「環境總覽」。
網路伺服器 CPU 使用率 在所有 Airflow 網路伺服器執行個體中運作的容器,其 vCPU 核心總用量,以及所有網路伺服器的 vCPU 總限制。
網路伺服器記憶體用量 在所有 Airflow 網路伺服器執行個體中執行的容器記憶體總用量,以及所有網路伺服器的合併 vCPU 限制。
網路伺服器磁碟總用量 在所有 Airflow 網路伺服器執行個體中執行的容器,其磁碟空間總用量,以及所有網路伺服器的磁碟空間總限制。

SQL 資料庫統計資料

環境指標 說明
資料庫健康狀態 請參閱「環境總覽」。
資料庫 CPU 使用率 環境中 Cloud SQL 資料庫執行個體的 CPU 核心使用率。
資料庫記憶體用量 環境中 Cloud SQL 資料庫執行個體的記憶體總用量。
資料庫磁碟用量 環境中 Cloud SQL 資料庫執行個體的磁碟空間總使用量。這項指標適用於 Cloud SQL 資料庫執行個體本身,因此即使 Airflow 資料庫大小縮減,這項指標也不會減少。如要查看顯示 Airflow 資料庫內容大小的指標,請參閱「Airflow 中繼資料資料庫大小」。
Airflow 中繼資料資料庫大小 Airflow 中繼資料資料庫的大小。這項指標適用於環境的 Airflow 元件,並顯示 Cloud SQL 資料庫執行個體上 Airflow 中繼資料庫所占用的磁碟空間量。如果 Airflow 中繼資料庫大小縮減 (例如在維護 Airflow 資料庫後),這項指標就會下降,並判斷是否可以建立快照及升級環境。這項指標與「資料庫磁碟用量」指標不同,後者顯示的是 Cloud SQL 資料庫執行個體使用的磁碟空間量。
資料庫連線 資料庫的有效連線總數和連線總數上限。

DAG 剖析時間和 DAG 執行時間的差異

環境的監控資訊主頁會顯示剖析 Cloud Composer 環境中所有 DAG 所需的總時間,以及執行 DAG 的平均時間。

剖析 DAG 和排定 DAG 中的工作以供執行,是 Airflow 排程器執行的兩項獨立作業。

Airflow 排程器完成的 DAG 剖析和工作排程
圖 3. Airflow 排程器執行的 DAG 剖析和工作排程 (按一下即可放大)

DAG 剖析時間是指 Airflow 排程器讀取及剖析 DAG 檔案所需的時間長度。

Airflow 排程器必須先剖析 DAG 檔案,找出 DAG 的結構和定義的工作,才能排定 DAG 中的任何工作。剖析 DAG 檔案後,排程器即可開始排程 DAG 中的工作。

DAG 執行時間是 DAG 中所有工作執行時間的總和。

如要查看執行 DAG 中特定 Airflow 工作所需的時間,請在 Airflow 網頁介面中選取 DAG,然後開啟「工作持續時間」分頁。這個分頁會顯示指定次數的最近 DAG 執行作業中,工作執行的時間。

後續步驟