Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1
本页面介绍如何访问和使用 Cloud Composer 环境的监控信息中心。
如需详细了解特定指标,请参阅使用 Cloud Monitoring 监控环境。
访问监控信息中心
监控信息中心包含指标和图表,用于监控环境中运行的 DAG 的趋势,以及识别 Airflow 组件和 Cloud Composer 资源的问题。
如需访问环境的监控信息中心,请执行以下操作:
在 Google Cloud 控制台中,前往环境页面。
在环境列表中,点击您的环境名称。环境详情页面会打开。
转到监控标签页。
为指标设置提醒
点击监控卡片角落的铃铛图标,即可为指标设置提醒。

在 Monitoring 中查看指标
您可以在 Monitoring 中查看指标的详细情况。
如需从 Cloud Composer 监控信息中心导航到该处,请点击指标卡片右上角的三点状图标,然后选择在 Metrics Explorer 中查看。

指标说明
每个 Cloud Composer 环境都有自己的监控信息中心。 监控信息中心上显示的特定环境的指标仅跟踪该环境的 DAG 运行、Airflow 组件和环境详细信息。例如,如果您有两个环境,则信息中心不会汇总这两个环境的指标。
环境概览
环境指标 | 说明 |
---|---|
环境健康情况(Airflow 监控 DAG) | 显示 Composer 部署的运行状况的时间轴。绿色状态仅反映 Composer 部署的状态。这并不意味着所有 Airflow 组件都正常工作并且 DAG 能够运行。 |
调度程序检测信号 | 显示 Airflow 调度程序检测信号的时间轴。检查是否存在红色区域,以识别 Airflow 调度程序问题。如果您的环境有多个调度器,只要至少有一个调度器在响应,检测信号状态就为正常。 |
Web 服务器健康状况 | 显示 Airflow Web 服务器状态的时间轴。此状态是根据 Airflow Web 服务器返回的 HTTP 状态代码生成的。 |
数据库运行状况 | 显示与托管 Airflow 数据库的 Cloud SQL 实例的连接状态的时间轴。 |
环境操作 | 显示修改环境的操作的时间轴,例如执行配置更新或加载环境快照。 |
维护操作 | 时间轴,显示对环境的集群执行维护操作的时间段。 |
环境依赖项 | 时间轴,显示了环境操作的可达性和权限检查状态。 |
DAG 统计信息
环境指标 | 说明 |
---|---|
成功的 DAG 运行 | 所选时间范围内环境中所有 DAG 的成功运行总次数。如果成功运行的 DAG 数量低于预期水平,则可能表示失败(请参阅失败的 DAG 运行)或出现时间安排问题。 |
失败的 DAG 运行次数 失败的任务数 | 所选时间范围内环境中所有 DAG 的失败运行总次数。 所选时间范围内在环境中失败的任务总数。失败的任务并不一定会导致 DAG 运行失败,但它们可以作为有用的信号来排查 DAG 问题。 |
已完成的 DAG 运行 | 所选时间范围的间隔中 DAG 的成功次数和失败次数。这有助于识别 DAG 运行的暂时性问题,并将其与其他事件(例如工作器 pod 逐出)相关联。 |
已完成的任务 | 环境中完成的任务数量,以及成功和失败任务的明细。 |
DAG 运行时长中位数 | DAG 运行时长中间值,此图表有助于识别 DAG 时长方面的性能问题和趋势。 |
Airflow 任务 | 在指定时间处于正在运行、排队或推迟状态的任务数量。Airflow 任务是指在 Airflow 中处于排队状态的任务,它们可以进入 Celery 或 Kubernetes Executor 代理队列。“Celery 队列中的任务数”是指已进入 Celery 代理队列的任务实例数。 |
已终止的僵尸任务 | 在较小时间窗口内完成的僵尸任务数量。僵尸任务通常由 Airflow 进程的外部终止导致。Airflow 调度程序会定期终止僵尸任务,这些任务会反映在此图表中。 |
DAG 总数 | 在给定时间已部署到您的环境的存储桶并且已由 Airflow 处理的 DAG 数量。这在分析性能瓶颈时很有用。例如,DAG 部署数量增加可能会因负载过多而导致性能降低。 |
DAG 处理器错误 | 处理 DAG 文件时遇到的每秒错误数和超时次数。该值表示 DAG 处理器报告错误的频率(不同于失败的 DAG 数量)。 |
所有 DAG 的总解析时间 | 显示 Airflow 处理环境中所有 DAG 所需总时间的图表。解析时间增加会影响调度效率。如需了解详情,请参阅 DAG 解析时间与 DAG 执行时间之间的差异。 |
调度器统计信息
环境指标 | 说明 |
---|---|
调度器检测信号 | 请参阅环境概览。 |
调度器 CPU 总使用量 | 在所有 Airflow 调度器 pod 中运行的容器所用的 vCPU 总核心数,以及所有调度器的组合 vCPU 限制。 |
调度器内存总用量 | 在所有 Airflow 调度器 pod 中运行的容器的总内存用量,以及所有调度器的合并 vCPU 限制。 |
调度器的总磁盘使用量 | 所有 Airflow 调度器 pod 中运行的容器所用的总磁盘空间以及所有调度器的总磁盘空间限制。 |
调度器容器重启次数 | 各个调度器容器的重启总次数。 |
调度器 Pod 逐出次数 | Airflow 调度器 Pod 逐出次数。当环境集群中的特定 Pod 达到其资源限制时,可能会发生 Pod 逐出。 |
工作器统计信息
环境指标 | 说明 |
---|---|
工作器 CPU 总使用率 | 在所有 Airflow 工作器 pod 中运行的容器所用的 vCPU 内核总数,以及所有工作器的 vCPU 总限制。 |
工作器内存总用量 | 在所有 Airflow 工作器 pod 中运行的容器的总内存用量,以及所有工作器的合并 vCPU 限制。 |
工作器磁盘总用量 | 在所有 Airflow 工作器 pod 中运行的容器所用的磁盘空间总用量,以及所有工作器的合并磁盘空间限制。 |
活跃工作器数 | 您环境中当前的工作器数量。在 Cloud Composer 2 中,环境会自动扩缩活跃工作器的数量。 |
工作器容器重启次数 | 各个工作器容器的重启总次数。 |
工作器 Pod 逐出 | Airflow 工作器 Pod 逐出次数。当环境集群中的特定 Pod 达到其资源限制时,可能会发生 Pod 逐出。如果 Airflow 工作器 Pod 被逐出,则该 Pod 上运行的所有任务实例都会中断,之后被 Airflow 标记为失败。 |
Airflow 任务 | 请参阅环境概览。 |
未确认的 Celery 任务 |
Celery 代理队列中未确认的任务数。未确认的任务包括处于 queued 和 running 任务状态的 Airflow 任务实例。这两种状态对于 Airflow 任务的执行来说都是正常的。“未确认的 Celery 任务”图表会在 Airflow 处理这些状态的任务时,将这些任务输出为未确认。如果 Airflow 任务实例异常中断(例如,被检测为僵尸),它也会保持未确认状态,直到达到 visibility_timeout。在这种情况下,图表中会显示一个长时间未确认的任务。在 Cloud Composer 中,可见性超时时间值设置为 7 天。在此时间段过后,系统将重新传送相应任务,并且该任务可能会被确认。如果再次失败,该请求可能会在 7 天内保持未确认状态。 |
Celery 代理发布超时 |
向 Celery 代理发布任务时出现的 AirflowTaskTimeout 错误总数。此指标对应于 celery.task_timeout_error Airflow 指标。 |
Celery 执行命令失败 |
Celery 任务中的非零退出代码总数。此指标对应于 celery.execute_command.failure Airflow 指标。 |
系统终止的任务 | 任务运行程序因 SIGKILL 而终止的工作流任务数(例如由于工作器内存或检测信号问题)。 |
Web 服务器统计信息
环境指标 | 说明 |
---|---|
Web 服务器健康状况 | 请参阅环境概览。 |
网络服务器 CPU 使用率 | 在所有 Airflow Web 服务器实例中运行的容器所用的 vCPU 总核心数,以及所有 Web 服务器的合并 vCPU 限制。 |
Web 服务器内存用量 | 所有 Airflow Web 服务器实例中运行的容器的总内存使用量,以及所有 Web 服务器的合并 vCPU 限制。 |
Web 服务器磁盘总用量 | 所有 Airflow Web 服务器实例中运行的容器所用的总磁盘空间,以及所有 Web 服务器的合并磁盘空间限制。 |
SQL 数据库统计信息
环境指标 | 说明 |
---|---|
数据库运行状况 | 请参阅环境概览。 |
数据库 CPU 使用量 | 您的环境中 Cloud SQL 数据库实例的 CPU 核心使用情况。 |
数据库内存用量 | 您的环境中 Cloud SQL 数据库实例的内存总使用量。 |
数据库磁盘使用量 | 您的环境中 Cloud SQL 数据库实例使用的总磁盘空间量。此指标适用于 Cloud SQL 数据库实例本身,因此当 Airflow 数据库大小减小时,此指标不会降低。如需查看显示 Airflow 数据库内容大小的指标,请参阅“Airflow 元数据数据库大小”。 |
Airflow 元数据数据库大小 | Airflow 元数据数据库的大小。此指标适用于环境的 Airflow 组件,显示 Cloud SQL 数据库实例上 Airflow 元数据数据库占用的磁盘空间量。当 Airflow 元数据数据库大小减小时(例如,在执行 Airflow 数据库维护后),此指标会减小,并确定是否可以创建快照和升级环境。此指标不同于“数据库磁盘使用情况”指标,后者显示的是 Cloud SQL 数据库实例使用的磁盘空间量。 |
数据库连接数 | 与数据库建立的活跃连接总数和连接总数上限。 |
DAG 解析时间与 DAG 执行时间之间的差异
环境的监控信息中心会显示解析 Cloud Composer 环境中所有 DAG 所需的总时间,以及执行 DAG 所需的平均时间。
解析 DAG 和调度来自 DAG 的任务以执行是 Airflow 调度器执行的两个独立操作。

DAG 解析时间是 Airflow 调度器读取和解析 DAG 文件所需的时间。
在 Airflow 调度器可以调度 DAG 中的任何任务之前,调度器必须解析 DAG 文件,以发现 DAG 的结构和定义的任务。解析 DAG 文件后,调度器即可开始调度 DAG 中的任务。
DAG 执行时间是指 DAG 的所有任务执行时间之和。
如需查看执行 DAG 中的特定 Airflow 任务需要多长时间,请在 Airflow 网页界面中选择一个 DAG,然后打开任务时长标签页。此标签页会显示指定数量的最近 DAG 运行的任务执行时间。