Dados armazenados no Cloud Storage

Nesta página, você vê os dados do ambiente que são armazenados pelo Cloud Composer no Cloud Storage.

Quando você cria um ambiente, um bucket do Cloud Storage gerado pelo Cloud Composer é associado a ele. O nome do bucket é baseado na região do ambiente, no nome e em um ID aleatório, como us-central1-b1-6efannnn-bucket.

O Cloud Composer armazena o código-fonte dos fluxos de trabalho (DAGs) e as dependências deles em pastas específicas no Cloud Storage. Além disso, ele usa o Cloud Storage FUSE para mapear as pastas para as instâncias do Airflow no ambiente do Cloud Composer.

Pastas no bucket do Cloud Storage

PastaDescriçãoCaminho de armazenamentoDiretório mapeado
DAG Armazena os DAGs do ambiente. Somente os DAGs dessa pasta são programados no ambiente. gs://bucket-name/dags /home/airflow/gcs/dags
Plug-ins Armazena os plug-ins personalizados, como interfaces, sensores, hooks e operadores internos do Airflow. gs://bucket-name/plugins /home/airflow/gcs/plugins
Dados Armazena os dados gerados e usados pelas tarefas. Essa pasta é ativada em todos os nós de worker. gs://bucket-name/data /home/airflow/gcs/data
Registros Armazena os registros de tarefas do Airflow. Os registros também estão disponíveis na interface da Web do Airflow. gs://bucket-name/logs /home/airflow/gcs/logs

Observações sobre capacidade

DAGs e plug-ins: por padrão, o Cloud Composer provisiona 100 GB de capacidade para seu ambiente e as pastas dags/ e plugins/.

Para evitar uma falha no fluxo de trabalho, armazene seus DAGs, plug-ins e módulos do Python nas pastas dags/ ou plugins/, mesmo se os módulos do Python não contiverem DAGs ou plug-ins. Por exemplo, armazene o py_file que um DataFlowPythonOperator referencia em dags/ ou plugins/.

Dados e registros: as pastas data/ e logs/ não estão sujeitas a limites de capacidade.

Para evitar um erro de servidor da Web, verifique se os dados que ele precisa para analisar um DAG (não executado) estão disponíveis na pasta dags/. Caso contrário, o servidor da Web não conseguirá acessar os dados nem carregar a interface da Web do Airflow.

Sincronização de dados

Quando você modifica DAGs ou plug-ins no bucket do Cloud Storage, o Cloud Composer sincroniza os dados em todos os nós do cluster.

O Cloud Composer sincroniza as pastas dags/ e plugins/ unidirecionalmente, fazendo uma cópia local. Isso significa que as alterações locais nessas pastas serão substituídas.

As pastas data/ e logs/ são sincronizadas bidirecionalmente usando o Cloud Storage FUSE.

Os dados não são sincronizados com o servidor da Web devido à capacidade limitada. Isso também acontece porque o servidor da Web analisa os DAGs em um ambiente do Cloud Composer em vez de executá-los. São os workers que executam os DAGs.

A seguir