Se usó la API de Cloud Translation para traducir esta página.
Switch to English

Configura entornos para la serialización de DAG

En un entorno normal de Cloud Composer, el programador y el servidor web de Airflow procesan los grafos acíclicos dirigidos (DAG) de forma continua. Puedes mejorar la confiabilidad y el rendimiento del servidor web de Airflow, si habilitas la serialización de DAG, que obliga al programador a procesar archivos DAG antes de enviarlos al servidor web.

Cómo funciona

Sin la serialización del DAG, el programador y el servidor web procesan los DAG de forma simultánea, y el servidor web carga toda la bolsa del DAG apenas se inicia. La habilitación de la serialización del DAG obliga al programador a analizar todos los archivos del DAG antes de que se inicie el servidor web y almacena los resultados en una tabla de DAG serializada. A continuación, el servidor web carga cada DAG a pedido desde la tabla para su procesamiento. La serialización del DAG de esta manera redujo el uso de la CPU y la memoria por el servidor web, en especial cuando procesa una gran cantidad de DAG.

Requisitos previos y limitaciones

  • La serialización de DAG solo se puede habilitar en entornos de Cloud Composer mediante la versión 1.8.2 de Composer o posterior Y la versión 1.10.3 o posterior de Airflow. Consulta la lista de versiones de Cloud Composer para ver todas las versiones disponibles.

  • La serialización del DAG no se puede habilitar al mismo tiempo que la carga asíncrona del DAG.

  • Si habilitas la serialización del DAG, se inhabilitan todos los complementos del servidor web de Airflow para Cloud Composer. Esto no afecta a los complementos del programador o trabajador, incluidos los operadores de Airflow, los sensores, etcétera.

Habilitar la serialización de DAG

Para habilitar la serialización del DAG, debes especificar los siguientes parámetros de configuración:

Sección Clave Valor
core store_serialized_dags True
core store_dag_code True
core min_serialized_dag_update_interval 30
scheduler dag_dir_list_interval 30

[core] min_serialized_dag_update_interval controla la frecuencia con la que el DAG serializado se actualiza en la base de datos, mientras que [scheduler] dag_dir_list_interval controla la frecuencia con la que se borran los DAG que se quitan de la base de datos. Recomendamos establecerlas en 30 segundos, ya que una frecuencia de actualización alta puede tener un impacto negativo en el rendimiento.

Anula configuraciones de Airflow

Hay dos formas de anular las opciones de configuración de Airflow:

Inhabilita la serialización del DAG

Para inhabilitar la serialización del DAG, usa las anulaciones de configuración de Airflow a fin de establecer [core] store_serialized_dags y [core] store_dag_code en False.

Referencias

Para obtener más información sobre la serialización de DAG, lee el artículo relevante en la documentación de Airflow.