Datos almacenados en Cloud Storage

En esta página, se describe qué datos almacena Cloud Composer para tu entorno en Cloud Storage.

Cuando creas un entorno, Cloud Composer crea un depósito de Cloud Storage y lo asocia a tu entorno. El nombre del depósito se basa en la región, el nombre y un ID aleatorio del entorno, como us-central1-b1-6efannnn-bucket.

Cloud Composer almacena el código fuente de tus flujos de trabajo (DAG) y sus dependencias en carpetas específicas de Cloud Storage, y usa Cloud Storage FUSE para asignar las carpetas a las instancias de Airflow en tu entorno de Cloud Composer.

Carpetas en el depósito de Cloud Storage

CarpetaDescripciónRuta de almacenamientoDirectorio asignado
DAG Almacena DAG para tu entorno. Solo los DAG de esta carpeta están programados para tu entorno. gs://bucket-name/dags /home/airflow/gcs/dags
Complementos Almacena tus complementos personalizados, como operadores, hooks, interfaces o sensores personalizados internos de Airflow. gs://bucket-name/plugins /home/airflow/gcs/plugins
Datos Almacena los datos que las tareas producen y usan. Esta carpeta se activa en todos los nodos trabajadores. gs://bucket-name/data /home/airflow/gcs/data
Registros Almacena los registros de Airflow para las tareas. Los registros también están disponibles en la interfaz web de Airflow. gs://bucket-name/logs /home/airflow/gcs/logs

Consideraciones de capacidad

DAG y complementos: de forma predeterminada, Cloud Composer aprovisiona 100 GB de capacidad para tu entorno y las carpetas dags/ y plugins/.

Para evitar una falla en el flujo de trabajo, almacena tus DAG, complementos y módulos de Python en las carpetas dags/ o plugins/, incluso si tus módulos de Python no contienen DAG ni complementos. Por ejemplo, debes almacenar el py_file al que hace referencia un DataFlowPythonOperator en dags/ o plugins/.

Datos y registros: las carpetas data/ y logs/ no están sujetas a límites de capacidad.

A fin de evitar un error del servidor web, asegúrate de que los datos que el servidor web necesita para analizar un DAG (sin ejecutar) estén disponibles en la carpeta dags/. De lo contrario, el servidor web no podrá acceder a los datos ni cargar la interfaz web de Airflow.

Sincronización de datos

Cuando modificas los DAG o los complementos en el depósito de Cloud Storage, Cloud Composer sincroniza los datos en todos los nodos del clúster.

Cloud Composer sincroniza las carpetas dags/ y plugins/ de forma unidireccional mediante la copia local. La sincronización unidireccional indica que los cambios locales en estas carpetas se reemplazan.

Las carpetas data/ y logs/ se sincronizan de forma bidireccional con Cloud Storage FUSE.

Los datos no se sincronizan con el servidor web debido a la capacidad limitada y a que el servidor web analiza, pero no ejecuta los DAG, en un entorno de Cloud Composer. Los trabajadores ejecutan los DAG.

Qué sigue