Cloud Console 中的 Monitoring 环境

本页面介绍如何访问和使用 Cloud Composer 环境的监控信息中心。此信息中心包含指标和图表,用于监控环境中运行的 DAG 的趋势,以及识别 Airflow 组件和 Cloud Composer 资源的问题。

访问监控信息中心

  1. 在 Cloud Console 中打开环境页面。

    打开“环境”页面

  2. 在列表中找到您要监控的环境的名称。点击环境名称以打开环境详情页面的监控标签页。

选择时间范围

您可以使用页面右上角的范围列表为信息中心中的数据选择时间范围。

时间范围选择器

您还可以通过点击并拖动任意图表来放大具体的时间范围。新的时间范围将应用于所有指标。点击时间范围左侧的重置缩放级别按钮可重置缩放级别。

设置提醒

点击监控卡片角落的铃铛图标,即可为指标设置提醒。

Monitoring 提醒

在 Monitoring 中查看指标

您可以在 Monitoring 中查看指标的详细情况。要从 Cloud Composer 监控信息中心导航到该处,请点击指标卡片右上角的三个点,然后选择在 Metrics Explorer 中查看

在 Metrics Explorer 中查看

指标说明

每个 Cloud Composer 环境都有自己的监控信息中心。以下指标仅跟踪 DAG 运行,Airflow 组件以及当前所选环境的环境详细信息。

环境概览

环境指标 说明
每个节点的 CPU 用量 此图表显示了 CPU 核心在节点中所有正在运行的 Pod 上的汇总使用情况,以核心时间使用率衡量。这不包括用于 Airflow 界面或 Cloud SQL 实例的 App Engine 实例的 CPU 使用率。高 CPU 使用率通常是导致工作器 Pod 逐出的根本原因。如果您发现使用率非常高,请考虑横向扩容 Composer 环境或更改 DAG 运行的时间表。
每个节点的内存使用率 GKE 集群中每个节点的内存使用率。这不包括用于 Airflow 界面或 Cloud SQL 实例的 App Engine 实例的内存使用率。高内存使用率通常是导致工作器 pod 逐出的根本原因,可能导致 DAG 失败。
环境运行状况 显示 Composer 部署的运行状况的时间轴。绿色状态并不意味着所有 Airflow 组件都正常工作并且 DAG 能够运行,仅反映 Composer 部署的状态。
数据库运行状况 显示与 Composer Cloud SQL 实例的连接状态的时间轴。
Web 服务器运行状况 显示 Airflow 界面 Web 服务器状态的时间轴。这是根据界面服务器返回的 HTTP 状态代码生成的。

Airflow 组件

Airflow 指标 说明
调度程序检测信号 显示 Airflow 调度程序提供正常的检测信号(即进行了响应)的时间轴。检查是否存在红色区域,以识别 Airflow 调度程序问题。
活跃工作器数 显示所选时间范围内活跃工作器数量的图表。默认情况下,这应该等于 Airflow 集群中的节点数量,但如果环境横向扩容,则可能会增加。如果活跃工作器的数量下降,则可能表示工作器进程失败(请参阅工作器 pod 逐出图表)。
工作器 pod 逐出1 显示一段时间内的 GKE 工作器 pod 逐出次数。pod 逐出通常是由 GKE 资源耗尽造成的。如需了解详情,请参阅每个节点的 CPU/内存使用率图表。
已终止的僵尸任务1 显示较小时间窗口内完成的僵尸任务数量的图表。僵尸任务通常由 Airflow 进程的外部终止导致。Airflow 调度程序会定期终止僵尸任务,这些任务应反映在此图表中。

DAG 运行

DAG 运行指标 说明
成功的 DAG 运行 所选时间范围内环境中所有 DAG 的成功运行总次数。如果此指标低于预期水平,则可能表示失败(请参阅失败的 DAG 运行)或出现时间安排问题。
失败的 DAG 运行 所选时间范围内环境中所有 DAG 的失败运行总次数。
失败的任务数1 所选时间范围内在环境中失败的任务总数。失败的任务并不一定会导致 DAG 运行失败,但它们可以作为有用的信号来排查 DAG 问题。
已完成的 DAG 运行 显示所选时间范围的间隔中 DAG 的成功次数和失败次数的条形图。这有助于识别 DAG 运行的暂时性问题,并将其与其他事件(例如工作器 pod 逐出)相关联。
DAG 运行时长中位数 显示在较小的时间窗口内完成的 DAG 运行时长中位数的图表。此图表有助于识别 DAG 时长方面的性能问题和趋势。
已完成的任务1 显示在较小的时间窗口内环境中完成的任务数量以及成功和失败任务的明细的图表。
正在运行1和已加入队列的任务数 显示在给定时间正在运行和已加入队列的任务数量的图表。根据已加入队列的任务数识别性能瓶颈或过度负载;当任务无法立即执行时,队列会变长。根据正在运行的任务数识别时间安排问题;例如,如果正在运行的任务数量大幅下降,则可能表示存在时间安排问题。
DAG 总数1 显示在给定时间已部署到 Cloud Storage 存储分区并且已由 Airflow 处理的 DAG 数量的图表。这在分析性能瓶颈时很有用。例如,DAG 部署数量增加可能会因负载过多而导致性能降低。
DAG 文件导入错误1 显示在较小的时间窗口内的 DAG 解析错误的数量。这有助于识别 Airflow 处理损坏的 DAG 的情况,指出 DAG 源代码中的问题。
所有 DAG 的总解析时间1 显示 Airflow 处理环境中所有 DAG 所需总时间的图表。解析时间增加会影响调度效率。

1适用于使用 Composer 1.10.0 或更高版本以及 Airflow 1.10.6 或更高版本的环境。