Cloud Composer 1 | Cloud Composer 2
En esta página, se describe qué datos almacena Cloud Composer para tu entorno en Cloud Storage.
Cuando creas un entorno, Cloud Composer crea un depósito de Cloud Storage y lo asocia a tu entorno. El nombre del depósito se basa en la región, el nombre y un ID aleatorio del entorno, como us-central1-b1-6efannnn-bucket
.
Cloud Composer almacena el código fuente de tus flujos de trabajo (DAG) y sus dependencias en carpetas específicas de Cloud Storage, y usa Cloud Storage FUSE para asignar las carpetas a las instancias de Airflow en tu entorno de Cloud Composer.
Carpetas en el bucket de Cloud Storage
Carpeta | Ruta de almacenamiento | Directorio asignado | Descripción |
---|---|---|---|
DAG | gs://bucket-name/dags |
/home/airflow/gcs/dags |
Almacena DAG para tu entorno. Solo los DAG de esta carpeta están programados para tu entorno. |
Complementos | gs://bucket-name/plugins |
/home/airflow/gcs/plugins |
Almacena tus complementos personalizados, como operadores, hooks, interfaces o sensores personalizados internos de Airflow. |
Datos | gs://bucket-name/data |
/home/airflow/gcs/data |
Almacena los datos que las tareas producen y usan. Esta carpeta se activa en todos los nodos trabajadores. |
Registros | gs://bucket-name/logs |
Almacena los registros de Airflow para las tareas. Los registros también están disponibles en la interfaz web de Airflow. |
Consideraciones de capacidad
DAG y complementos: de forma predeterminada, Cloud Composer aprovisiona 100 GB de capacidad para tu entorno y las carpetas dags/
y plugins/
.
Para evitar una falla en el flujo de trabajo, almacena tus DAG, complementos y módulos de Python en las carpetas dags/
o plugins/
, incluso si tus módulos de Python no contienen DAG ni complementos. Por ejemplo, debes almacenar el py_file
al que hace referencia un DataFlowPythonOperator
en dags/
o plugins/
.
Datos y registros: las carpetas data/
y logs/
no están sujetas a límites de capacidad.
A fin de evitar un error del servidor web, asegúrate de que los datos que el servidor web necesita para analizar un DAG (sin ejecutar) estén disponibles en la carpeta dags/
. De lo contrario, el servidor web no podrá acceder a los datos ni cargar la interfaz web de Airflow.
Sincronización de datos
Cuando modificas los DAG o los complementos en el bucket de Cloud Storage, Cloud Composer sincroniza los datos en todos los nodos del clúster.
Cloud Composer sincroniza las carpetas dags/
y plugins/
de forma unidireccional mediante la copia local. La sincronización unidireccional indica que los cambios locales en estas carpetas se reemplazan.
Las carpetas data/
y logs/
se sincronizan de forma bidireccional con Cloud Storage FUSE.
Los datos no se sincronizan con el servidor web debido a la capacidad limitada y a que el servidor web analiza, pero no ejecuta los DAG, en un entorno de Cloud Composer. Los trabajadores ejecutan los DAG.