Datos almacenados en Cloud Storage

Cloud Composer 1 | Cloud Composer 2

En esta página, se describe qué datos almacena Cloud Composer para tu entorno en Cloud Storage.

Cuando creas un entorno, Cloud Composer crea un depósito de Cloud Storage y lo asocia a tu entorno. El nombre del depósito se basa en la región, el nombre y un ID aleatorio del entorno, como us-central1-b1-6efannnn-bucket.

Cloud Composer almacena el código fuente de tus flujos de trabajo (DAG) y sus dependencias en carpetas específicas de Cloud Storage, y usa Cloud Storage FUSE para asignar las carpetas a las instancias de Airflow en tu entorno de Cloud Composer.

Carpetas en el bucket de Cloud Storage

Carpeta Ruta de almacenamiento Directorio asignado Descripción
DAG gs://bucket-name/dags /home/airflow/gcs/dags Almacena DAG para tu entorno. Solo los DAG de esta carpeta están programados para tu entorno.
Complementos gs://bucket-name/plugins /home/airflow/gcs/plugins Almacena tus complementos personalizados, como operadores, hooks, interfaces o sensores personalizados internos de Airflow.
Datos gs://bucket-name/data /home/airflow/gcs/data Almacena los datos que las tareas producen y usan. Esta carpeta se activa en todos los nodos trabajadores.
Registros gs://bucket-name/logs Almacena los registros de Airflow para las tareas. Los registros también están disponibles en la interfaz web de Airflow.

Consideraciones de capacidad

DAG y complementos: de forma predeterminada, Cloud Composer aprovisiona 100 GB de capacidad para tu entorno y las carpetas dags/ y plugins/.

Para evitar una falla en el flujo de trabajo, almacena tus DAG, complementos y módulos de Python en las carpetas dags/ o plugins/, incluso si tus módulos de Python no contienen DAG ni complementos. Por ejemplo, debes almacenar el py_file al que hace referencia un DataFlowPythonOperator en dags/ o plugins/.

Datos y registros: las carpetas data/ y logs/ no están sujetas a límites de capacidad.

A fin de evitar un error del servidor web, asegúrate de que los datos que el servidor web necesita para analizar un DAG (sin ejecutar) estén disponibles en la carpeta dags/. De lo contrario, el servidor web no podrá acceder a los datos ni cargar la interfaz web de Airflow.

Sincronización de datos

Cuando modificas los DAG o los complementos en el bucket de Cloud Storage, Cloud Composer sincroniza los datos en todos los nodos del clúster.

Cloud Composer sincroniza las carpetas dags/ y plugins/ de forma unidireccional mediante la copia local. La sincronización unidireccional indica que los cambios locales en estas carpetas se reemplazan.

Las carpetas data/ y logs/ se sincronizan de forma bidireccional con Cloud Storage FUSE.

Los datos no se sincronizan con el servidor web debido a la capacidad limitada y a que el servidor web analiza, pero no ejecuta los DAG, en un entorno de Cloud Composer. Los trabajadores ejecutan los DAG.

¿Qué sigue?