Dados armazenados no Cloud Storage

Nesta página, você vê os dados do ambiente que são armazenados pelo Cloud Composer no Cloud Storage.

Quando você cria um ambiente, um bucket do Cloud Storage gerado pelo Cloud Composer é associado a ele. O nome do bucket é baseado na região do ambiente, no nome e em um ID aleatório, como us-central1-b1-6efannnn-bucket.

O Cloud Composer armazena o código-fonte dos fluxos de trabalho (DAGs, na sigla em inglês) e as dependências deles em pastas específicas no Cloud Storage. Além disso, ele usa o Cloud Storage FUSE para mapear as pastas para as instâncias do Airflow no ambiente do Cloud Composer.

Pastas no bucket do Cloud Storage

PastaDescriçãoCaminho de armazenamentoDiretório mapeado
DAG Armazena os DAGs do ambiente. Somente os DAGs dessa pasta são programados no ambiente. gs://bucket-name/dags /home/airflow/gcs/dags
Plug-ins Armazena os plug-ins personalizados, como interfaces, sensores, hooks e operadores internos do Airflow. gs://bucket-name/plugins /home/airflow/gcs/plugins
Dados Armazena os dados gerados e usados pelas tarefas. Essa pasta é ativada em todos os nós de worker. gs://bucket-name/data /home/airflow/gcs/data
Registros Armazena os registros de tarefas do Airflow. Os registros também estão disponíveis na interface da Web do Airflow. gs://bucket-name/logs /home/airflow/gcs/logs

Observações sobre capacidade

DAGs e plug-ins: por padrão, o Cloud Composer provisiona 100 GB de capacidade para o ambiente e as pastas dags/ e plugins/.

Para evitar uma falha no fluxo de trabalho, armazene os DAGs, plug-ins e módulos do Python nas pastas dags/ ou plugins/, mesmo se os módulos do Python não contiverem DAGs ou plug-ins. Por exemplo, armazene o py_file que um DataFlowPythonOperator faz referência em dags/ ou plugins/.

Dados e registros: as pastas data/ e logs/ não estão sujeitas a limites de capacidade.

Para evitar um erro de servidor da Web, verifique se os dados que o servidor da Web precisa para analisar um DAG (não executado) estão disponíveis na pasta dags/. Caso contrário, o servidor da Web não conseguirá acessar os dados nem carregar a interface da Web do Airflow.

Sincronização de dados

Quando você modifica DAGs ou plug-ins no bucket do Cloud Storage, o Cloud Composer sincroniza os dados em todos os nós do cluster.

O Cloud Composer sincroniza as pastas dags/ e plugins/ unidirecionalmente, fazendo uma cópia local. A sincronização unidirecional significa que as alterações locais nessas pastas são substituídas.

As pastas data/ e logs/ são sincronizadas bidirecionalmente usando o Cloud Storage FUSE.

Os dados não são sincronizados com o servidor da Web devido à capacidade limitada. Isso também acontece porque o servidor da Web analisa DAGs em um ambiente do Cloud Composer em vez de executá-los. São os workers que executam os DAGs.

A seguir