自 2026 年 9 月 15 日起，所有 Cloud Composer 1 和 Cloud Composer 2 版本 2.0.x 环境都将达到计划的生命周期结束时间，您将无法再使用它们。我们建议您规划迁移到 Cloud Composer 3。

此页面由 Cloud Translation API 翻译。

优化环境性能和费用

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

本页介绍如何根据项目的需求调整环境的规模和性能参数，以便提高性能并降低环境未使用的资源费用。

其他有关伸缩和优化的页面：

如需了解如何扩缩环境，请参阅扩缩环境。
如需了解环境扩缩的工作原理，请参阅环境扩缩。
如需有关监控关键环境指标的教程，请参阅使用关键指标监控环境健康状况和性能。

优化过程概览

更改环境参数可能会影响环境性能的许多方面。我们建议您在迭代中优化您的环境：

从环境预设开始。
运行您的 DAG。
观察环境的性能。
调整环境规模和性能参数，然后重复上一步。

从环境预设开始

在控制台中创建环境时，您可以选择三个环境预设之一。 Google Cloud 这些预设设置环境的初始规模和性能配置：创建环境后，您可以更改预设提供的所有规模和性能参数。

我们建议根据以下估算值从其中一个预设开始：

您计划在环境中部署的 DAG 总数
DAG 并发运行数上限
并发任务数上限

您的环境性能取决于您环境中运行的具体 DAG 的实现。下表列出了基于平均资源消耗量的估算值。如果您预计 DAG 会消耗更多资源，请相应地调整估算值。

推荐的预设	DAG 总数	DAG 并发运行数上限	并发任务数上限
小	50	15	18
中	250	60	100
大	1000	250	400

例如，环境必须运行 40 个 DAG。所有 DAG 必须同时运行，每个 DAG 对应一个活跃任务。然后，此环境将使用中等预设，因为 DAG 并发运行数和任务数上限超过了小型预设的建议估算值。

运行您的 DAG

创建环境后，将您的 DAG 上传到该环境。运行您的 DAG 并观察环境的性能。

我们建议您按反映 DAG 实际应用的时间表运行 DAG。例如，如果您要同时运行多个 DAG，请确保在所有这些 DAG 同时运行时检查环境的性能。

观察环境的性能

本部分重点介绍最常见的 Cloud Composer 2 容量和性能优化方面。我们建议逐步按照本指南操作，因为本指南会首先介绍最常见的性能考虑因素。

转到 Monitoring 信息中心

您可以在环境的 Monitoring 信息中心上监控环境的性能指标。

要转到环境的 Monitoring 信息中心，请执行以下操作：

在 Google Cloud 控制台中，前往环境页面。

转到“环境”
点击您的环境的名称。
转到监控标签页。

监控调度器 CPU 和内存指标

Airflow 调度器的 CPU 和内存指标可帮助您检查调度器的性能是否是 Airflow 整体性能的瓶颈。

Ariflow 调度器图表 — **图 1.** Airflow 调度器图表（点击可放大）

在 Monitoring 信息中心的调度器部分中，观察环境的 Airflow 调度器图表：

调度器的 CPU 总使用率
调度器内存总用量

根据您的观察结果进行调整：

如果调度器的 CPU 使用率一直低于 30%-35%，您可能需要执行以下操作：
- 减少调度器数量。
- 减少调度器的 CPU。
注意：如果您减少调度器数量或降低其性能参数，则可以降低环境费用。但是，如果将调度器参数降低到低于环境所需的值，则可能会遇到 DAG 调度性能问题。
如果调度器的 CPU 使用率超过 80% 并且这种情况的持续时间超过了总时间的一定百分比，您可能需要执行以下操作：

监控所有 DAG 文件的总解析时间

调度器会在安排 DAG 运行之前解析 DAG。如果 DAG 需要很长时间才能解析，这会占用调度器的容量，并且可能会降低 DAG 运行的性能。

DAG 解析总时间图表 — **图 2.** DAG 解析时间图表（点击可放大）

在 Monitoring 信息中心的 DAG 统计信息部分中，观察 DAG 总解析时间的图表。

如果此数字超过约 10 秒，则调度器可能因 DAG 解析而过载，因而无法有效运行 DAG。Airflow 中的默认 DAG 解析频率为 30 秒；如果 DAG 解析时间超过此阈值，则解析周期开始重叠，然后耗尽调度器的容量。

根据您的观察结果，您可能需要执行以下操作：

简化 DAG，包括其 Python 依赖项。
延长 DAG 文件解析间隔并延长 DAG 目录列举间隔。
增加调度器的数量。
增加调度器的 CPU。

监控工作器 pod 逐出

当环境集群中的特定 pod 达到其资源限制时，可能会发生 pod 逐出。

工作器 pod 逐出图表 — **图 3.** 显示工作器 pod 逐出的图表（点击可放大）

如果 Airflow 工作器 pod 被逐出，则该 pod 上运行的所有任务实例都会中断，之后被 Airflow 标记为失败。

工作器 pod 逐出的大多数问题都是因为工作器中出现内存不足的情况导致的。

在 Monitoring 信息中心的工作器部分中，观察环境的工作器 pod 逐出图表。

工作器内存总用量图表显示了环境的总体情况。即使内存利用率在环境级别运行状况良好，单个工作器仍可超过内存限制。

根据您的观察结果，您可能需要执行以下操作：

增加工作器可用的内存。
减少工作器并发数量。这样，单个工作器一次处理的任务就会减少。这可以为每项任务提供更多内存或存储空间。如果更改工作器并发数量，则可能还需要增加工作器数量上限。这样，您的环境可一次处理的任务数量就会保持不变。例如，如果将工作器并发数量从 12 减少到 6，您可能需要将工作器数量上限加倍。

监控活跃工作器数

您的环境中的工作器数量会自动根据队列中的任务进行扩缩。

在 Monitoring 信息中心的工作器部分中，观察活跃工作器数图表和队列中的任务数图表：

活跃工作器数
Airflow 任务

根据您的观察结果进行调整：

如果环境经常达到工作器数量上限，同时 Celery 队列中的任务数量不断增加，您可能需要增加工作器数量上限。
如果任务间调度延迟较长，但环境没有纵向扩容到其工作器数上限，则 Airflow 设置可能会限制执行并阻止 Cloud Composer 机制扩缩环境。由于 Cloud Composer 2 环境根据 Celery 队列中的任务数量扩缩，因此请将 Airflow 配置为在进入队列时不限制任务：
- 提高工作器并发数。工作器并发数必须设置为比预期并发任务数上限除以环境中的工作器数量上限所获结果大的一个值。
- 提高 DAG 并发数，如果单个 DAG 并行运行大量任务，则可能导致每个 DAG 达到运行任务实例数上限。
- 增加每个 DAG 的最大活跃运行数，如果多次并行运行同一 DAG，则会导致 Airflow 限制执行，因为已达到每个 DAG 的最大活跃运行数限制。

监控工作器的 CPU 和内存用量

监控环境中所有工作器的 CPU 总使用率和内存总用量，以确定 Airflow 工作器是否适当地使用了环境的资源。

在 Monitoring 信息中心的工作器部分中，观察 Airflow 工作器的 CPU 和内存用量图表：

工作器 CPU 总使用率
工作器内存总用量

这些图表示汇总的资源使用情况；即使聚合视图显示容量空闲，各个工作器可能仍会达到其容量限制。

根据您的观察结果进行调整：

如果工作器内存用量接近此限制，则可能会导致工作器 pod 逐出。要解决此问题，请增加工作器内存。
如果内存用量与限制相比是最小的，并且没有工作器 pod 逐出，您可能需要减少工作器内存。
如果工作器 CPU 使用率接近限制（持续时间超过总时间的 80% 以上），您可能需要执行以下操作：
- 增加工作器数量。这样，您的环境就可以更好地控制为特定工作负载预配的容量。
- 如果单个任务需要更高的 CPU 分配，请增加工作器 CPU 或降低工作器并发数。否则，我们建议您增加工作器数量。

监控正在运行和已加入队列的任务数

您可以监控已加入队列和正在运行的任务数量，以检查调度过程的效率。

在 Monitoring 信息中心的工作器部分中，观察环境的 Airflow 任务图表。

队列中的任务正在等待工作器执行。如果您的环境中有任务已排入队列，则可能意味着环境中的工作器正在执行其他任务。

某些队列始终存在于环境中，尤其是在处理高峰期间。但是，如果您发现已加入队列的任务数量过多，或者图表中呈现上升趋势，则可能表示工作器没有足够的容量来处理任务，或者 Airflow 正在限制任务的执行。

当正在运行的任务数也达到最高级别时，通常会观察到已加入队列的任务数量非常多。

要同时解决这两个问题，请执行以下操作：

增加工作器数量上限。
增加工作器并发数。

监控数据库 CPU 和内存用量

Airflow 数据库性能问题可能会导致整体 DAG 执行问题。数据库磁盘使用量通常不是问题的根源，因为存储空间会根据需要自动扩展。

在 Monitoring 信息中心的 SQL 数据库部分中，观察 Airflow 数据库的 CPU 和内存用量图表：

数据库 CPU 使用量
数据库内存用量

如果数据库 CPU 使用率超过 80% 并且持续时间超过总时间的一定百分比，则表示数据库过载并需要扩缩。

数据库大小设置由环境的环境大小属性控制。要扩缩数据库，请将环境大小更改为其他层级（小、中或大）。增加环境大小会增加环境的费用。

监控任务调度延迟时间

如果任务之间的延迟时间超过预期水平（例如，20 秒或更长），则可能表示环境无法处理由 DAG 运行生成的任务负载。

任务延迟时间图表（Airflow 界面） — **图 8.** 任务延迟时间图表，Airflow 界面（点击可放大）

您可以在环境的 Airflow 界面中查看任务调度的延迟时间图表。

在此示例中，延迟时间（2.5 和 3.5 秒）明显在可接受的限制范围内，但明显较高的延迟时间可能表明：

调度器过载。监控调度器 CPU 和内存以了解是否存在潜在问题迹象。
Airflow 配置选项将限制执行。请尝试提高工作器并发数、提高 DAG 并发数或增加每个 DAG 的最大活跃运行数。
工作器不足，无法运行任务，请尝试增加工作器数量上限。

监控网络服务器 CPU 和内存

Airflow 网络服务器性能会影响 Airflow 界面。网络服务器过载的情况不常见。如果发生这种情况，Airflow 界面性能可能会降低，但这不会影响 DAG 运行的性能。

在 Monitoring 信息中心的网络服务器部分中，观察 Airflow 网络服务器的图表：

网络服务器 CPU 使用率
网络服务器内存用量

根据您的观察结果：

如果网络服务器 CPU 使用率超过 80% 并且持续时间超过一定的时间百分比，请考虑增加网络服务器 CPU。
如果您发现 Web 服务器内存用量较高，请考虑向 Web 服务器添加更多内存。

调整环境的规模和性能参数

更改调度器的数量

调整调度器的数量可提高调度器的容量并增强 Airflow 调度的弹性。

如果您增加调度器的数量，则会增加进出 Airflow 数据库的流量。在大多数情况下，我们建议使用两个 Airflow 调度程序。只有在极少数需要特殊注意的情况下，才需要使用三个调度程序。配置超过三个调度程序通常会导致环境性能下降。

如果您需要更快地安排会议，请执行以下操作：

配置两个 Airflow 调度器。
向 Airflow 调度器分配更多 CPU 和内存资源。
增加 dag-dir-list-interval
增加 min-file-process-interval
提高 job-heartbeat-sec

示例：

控制台

按照调整调度器数量中的步骤，为您的环境设置所需的调度器数量。

gcloud

按照调整调度器数量中的步骤，为您的环境设置所需的调度器数量。

以下示例将调度器的数量设置为 2：

gcloud composer environments update example-environment \
    --scheduler-count=2

Terraform

按照调整调度器数量中的步骤，为您的环境设置所需的调度器数量。

以下示例将调度器的数量设置为 2：

resource "google_composer_environment" "example-environment" {

  # Other environment parameters

  config {
    workloads_config {
      scheduler {
        count = 2
      }
    }
  }
}

更改调度器的 CPU 和内存

CPU 和内存参数适用于环境中的每个调度器。例如，如果您的环境有两个调度器，则总容量将是 CPU 和内存指定量的两倍。

控制台

按照调整工作器、调度器和网络服务器的规模和性能参数中的步骤，为调度器设置 CPU 和内存。

gcloud

按照调整工作器、调度器和网络服务器的规模和性能参数中的步骤，为调度器设置 CPU 和内存。

以下示例会更改调度器的 CPU 和内存。您只能根据需要指定 CPU 或内存属性。

gcloud composer environments update example-environment \
  --scheduler-cpu=0.5 \
  --scheduler-memory=3.75

Terraform

按照调整工作器、调度器和网络服务器的规模和性能参数中的步骤，为调度器设置 CPU 和内存。

以下示例会更改调度器的 CPU 和内存。您可以根据需要省略 CPU 或内存属性。

resource "google_composer_environment" "example-environment" {

  # Other environment parameters

  config {
    workloads_config {
      scheduler {
        cpu = "0.5"
        memory_gb = "3.75"
      }
    }
  }
}

更改工作器数量上限

增加工作器数量上限后，您的环境即可根据需要自动扩充更多工作器。

减少工作器数量上限会降低环境的最大容量，但也可能会有助于降低环境费用。

示例：

控制台

按照调整工作器数量下限和上限中的步骤设置环境所需的工作器数量上限。

gcloud

按照调整工作器数量下限和上限中的步骤设置环境所需的工作器数量上限。

以下示例将工作器数量上限设置为 6：

gcloud composer environments update example-environment \
    --max-workers=6

Terraform

按照调整工作器数量下限和上限中的步骤设置环境所需的工作器数量上限。

以下示例将调度器数量上限设置为 6：

resource "google_composer_environment" "example-environment" {

  # Other environment parameters

  config {
    workloads_config {
      worker {
        max_count = "6"
      }
    }
  }
}

更改工作器 CPU 和内存

当工作器用量图表指示内存利用率非常低时，减少工作器内存会很有帮助。

注意：如果减少工作器内存，请确保这不会由于内存不足造成工作器 pod 逐出和后续任务失败。
增加工作器内存后，工作器可以同时处理更多任务或处理内存密集型任务。它可以解决工作器 pod 逐出的问题。
当工作器 CPU 用量图表指示 CPU 资源过度分配时，减少工作器 CPU 非常有用。
增加工作器 CPU 后，工作器可以并行处理更多任务，在某些情况下，还可减少处理这些任务所需的时间。

更改工作器 CPU 或内存会重启工作器，这可能会影响正在运行的任务。我们建议在没有运行 DAG 时执行此操作。

CPU 和内存参数属于环境中的每个工作器。例如，如果您的环境有四个工作器，则总容量是 CPU 和内存指定量的四倍。

控制台

按照调整工作器、调度器和网络服务器的规模和性能参数中的步骤，为工作器设置 CPU 和内存。

gcloud

按照调整工作器、调度器和网络服务器的规模和性能参数中的步骤，为工作器设置 CPU 和内存。

以下示例会更改工作器的 CPU 和内存。如果需要，您可以省略 CPU 或内存特性。

gcloud composer environments update example-environment \
  --worker-memory=3.75 \
  --worker-cpu=2

Terraform

按照调整工作器、调度器和网络服务器的规模和性能参数中的步骤，为工作器设置 CPU 和内存。

以下示例会更改工作器的 CPU 和内存。如果需要，您可以省略 CPU 或内存参数。

resource "google_composer_environment" "example-environment" {

  # Other environment parameters

  config {
    workloads_config {
      worker {
        cpu = "2"
        memory_gb = "3.75"
      }
    }
  }
}

更改网络服务器的 CPU 和内存

当网络服务器用量图表指示网络服务器 CPU 或内存利用率持续过低时，减少该网络服务器的 CPU 或内存会很有帮助。

更改网络服务器参数会重启网络服务器，这会导致网络服务器临时停机。我们建议您在常规使用时段之外进行更改。

控制台

按照调整工作器、调度器和网络服务器的规模和性能参数中的步骤为网络服务器设置 CPU 和内存。

gcloud

按照调整工作器、调度器和网络服务器的规模和性能参数中的步骤为网络服务器设置 CPU 和内存。

以下示例将更改网络服务器的 CPU 和内存。您可以根据需要省略 CPU 或内存属性。

gcloud composer environments update example-environment \
    --web-server-cpu=2 \
    --web-server-memory=3.75

Terraform

按照调整工作器、调度器和网络服务器的规模和性能参数中的步骤为网络服务器设置 CPU 和内存。

以下示例将更改网络服务器的 CPU 和内存。您可以根据需要省略 CPU 或内存属性。

resource "google_composer_environment" "example-environment" {

  # Other environment parameters

  config {
    workloads_config {
      web_server {
        cpu = "2"
        memory_gb = "3.75"
      }
    }
  }
}

更改环境大小

更改环境大小会修改 Cloud Composer 后端组件（例如 Airflow 数据库和 Airflow 队列）的容量。

当数据库用量指标显示利用率过低时，请考虑将环境大小更改为较小的大小（例如，大改为中，或中改为小）。
如果您发现 Airflow 数据库的利用率较高，请考虑增加环境大小。

控制台

按照调整环境大小中的步骤设置环境大小。

gcloud

按照调整环境大小中的步骤设置环境大小。

以下示例将环境大小更改为“中”。

gcloud composer environments update example-environment \
    --environment-size=medium

Terraform

按照调整环境大小中的步骤设置环境大小。

以下示例将环境大小更改为“中”。

resource "google_composer_environment" "example-environment" {

  # Other environment parameters

  config {
    environment_size = "medium"
  }
}

更改 DAG 目录列举间隔

增加 DAG 目录列举间隔可以减少与环境存储分区中发现新 DAG 相关的调度器负载。

如果您不经常部署新的 DAG，请考虑延长此间隔。
如果您希望 Airflow 更快地响应新部署的 DAG 文件，请考虑缩短此间隔。

如需更改此参数，请替换以下 Airflow 配置选项：

部分	键	值	备注
`scheduler`	`dag_dir_list_interval`	列表间隔的新值	默认值为 `120`（以秒为单位）。

更改 DAG 文件解析间隔

延长 DAG 文件解析间隔可以减少与 DAG 包中 DAG 的持续解析相关的调度器负载。

如果您有大量 DAG，但 DAG 不经常更改，或通常观察到较高的调度器负载，请考虑延长此间隔。

如需更改此参数，请替换以下 Airflow 配置选项：

部分	键	值	备注
`scheduler`	`min_file_process_interval`	DAG 解析间隔的新值	默认值为 `30`（以秒为单位）。

工作器并发

并发性能和环境的自动扩缩能力与以下两个设置相关：

Airflow 工作器数量下限
[celery]worker_concurrency 参数

Cloud Composer 提供的默认值对于大多数用例而言是最佳值，但自定义调整可能对您的环境有益。

工作器并发性能注意事项

[celery]worker_concurrency 参数定义单个工作器可以从任务队列中获取的任务数量。任务执行速度取决于多种因素，例如工作器 CPU、内存以及工作本身的类型。

工作器自动扩缩

Cloud Composer 会监控任务队列并生成其他工作器来处理所有等待任务。将 [celery]worker_concurrency 设置为较高的值意味着每个工作器都可以接收大量任务，因此在某些情况下，队列可能永远不会填满，导致自动扩缩功能永远不会触发。

例如，在一个包含两个 Airflow 工作器的 Cloud Composer 环境中，[celery]worker_concurrency 设置为 100，队列中包含 200 个任务，则每个工作器都会接收 100 个任务。这样，队列就会保持空状态，并且不会触发自动扩缩。如果这些任务需要很长时间才能完成，可能会导致性能问题。

但是，如果任务较小且执行速度较快，则 [celery]worker_concurrency 设置中的值较高可能会导致过度伸缩。例如，如果该环境中有 300 个任务在队列中，Cloud Composer 就会开始创建新工作器。但是，如果新工作器准备就绪时，前 200 个任务已完成执行，现有工作器可以接手执行这些任务。最终结果是，自动扩缩会创建新的 Worker，但没有任务可供其执行。

针对特殊情况调整 [celery]worker_concurrency 时，应根据任务执行高峰时间和队列数量进行调整：

对于需要更长时间才能完成的任务，工作器不应能够完全清空队列。
对于更快、更小的任务，请增加 Airflow 工作器数量下限，以避免过度伸缩。

任务日志的同步

Airflow 工作器包含一个组件，用于将任务执行日志同步到 Cloud Storage 存储分区。单个工作器执行的并发任务数量过多会导致同步请求数量过多。这可能会导致工作器过载并引发性能问题。

如果您发现因日志同步流量过多而导致性能问题，请降低 [celery]worker_concurrency 值，改为调整 Airflow 工作器数量下限。

更改工作器并发数

更改此参数可调整单个工作器可以同时执行的任务量。

例如，具有 0.5 个 CPU 的工作器通常可以处理 6 个并发任务；具有三个此类工作器的环境最多可以处理 18 个并发任务。

当队列中有任务在等待，同时工作器在使用一小部分 CPU 和内存时，请提高此参数。
当您在进行 pod 逐出时，降低此参数；这会减少单个工作器尝试处理的任务数量。作为替代方案，您可以增加工作器内存。

默认情况下，工作器并发数的设置基于工作器可容纳的轻量级并发任务实例数量。这意味着其值取决于工作器资源限制。工作器并发数值不取决于环境中的工作器数量。

如需更改此参数，请替换以下 Airflow 配置选项：

部分	键	值
`celery`	`worker_concurrency`	工作器并发数的新值

更改 DAG 并发数

DAG 并发数定义了每个 DAG 中可以同时运行的任务实例数上限。如果 DAG 运行大量并发任务，请增大此值。如果此设置较低，则调度器会延迟将更多任务放入队列，从而降低环境自动扩缩的效率。

如需更改此参数，请替换以下 Airflow 配置选项：

部分	键	值	备注
`core`	`max_active_tasks_per_dag`	DAG 并发数的新值	默认值为 `16`

提高每个 DAG 的活跃运行数上限

此属性定义每个 DAG 的活跃 DAG 运行次数上限。如果同一 DAG 必须并发运行多次（例如，使用不同的输入参数），则此属性允许调度器并行启动此类运行。

如需更改此参数，请替换以下 Airflow 配置选项：

部分	键	值	备注
`core`	`max_active_runs_per_dag`	每个 DAG 的活跃运行数上限的新值	默认值为 `25`

优化环境性能和费用 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

优化过程概览

从环境预设开始

运行您的 DAG

观察环境的性能

转到 Monitoring 信息中心

监控调度器 CPU 和内存指标

监控所有 DAG 文件的总解析时间

监控工作器 pod 逐出

监控活跃工作器数

监控工作器的 CPU 和内存用量

监控正在运行和已加入队列的任务数

监控数据库 CPU 和内存用量

监控任务调度延迟时间

监控网络服务器 CPU 和内存

调整环境的规模和性能参数

更改调度器的数量

控制台

gcloud

Terraform

更改调度器的 CPU 和内存

控制台

gcloud

Terraform

更改工作器数量上限

控制台

gcloud

Terraform

更改工作器 CPU 和内存

控制台

gcloud

Terraform

更改网络服务器的 CPU 和内存

控制台

gcloud

Terraform

更改环境大小

控制台

gcloud

Terraform

更改 DAG 目录列举间隔

更改 DAG 文件解析间隔

工作器并发

工作器并发性能注意事项

工作器自动扩缩

任务日志的同步

更改工作器并发数

更改 DAG 并发数

提高每个 DAG 的活跃运行数上限

后续步骤

优化环境性能和费用