Nesta página, você vê quais dados do ambiente são armazenados pelo Cloud Composer no Cloud Storage.
Quando você cria um ambiente, um bucket do Cloud Storage gerado pelo Cloud Composer é associado a ele. O nome do bucket é baseado na região do ambiente, no nome e em um ID aleatório, como us-central1-b1-6efannnn-bucket
.
O Cloud Composer armazena o código-fonte dos fluxos de trabalho (DAGs, na sigla em inglês) e as dependências deles em pastas específicas no Cloud Storage. Além disso, ele usa o Cloud Storage FUSE para mapear as pastas para as instâncias do Airflow no ambiente do Cloud Composer.
Pastas no bucket do Cloud Storage
Pasta | Descrição | Caminho de armazenamento | Diretório mapeado |
---|---|---|---|
DAG | Armazena os DAGs do ambiente. Somente os DAGs dessa pasta são programados no ambiente. | gs://bucket-name/dags |
/home/airflow/gcs/dags |
Plug-ins | Armazena os plug-ins personalizados, como interfaces, sensores, hooks e operadores internos do Airflow. | gs://bucket-name/plugins |
/home/airflow/gcs/plugins |
Dados | Armazena os dados gerados e usados pelas tarefas. Essa pasta é ativada em todos os nós de worker. | gs://bucket-name/data |
/home/airflow/gcs/data |
Registros | Armazena os registros de tarefas do Airflow. Os registros também estão disponíveis na interface da Web do Airflow. | gs://bucket-name/logs |
/home/airflow/gcs/logs |
Observações sobre capacidade
DAGs e plug-ins: por padrão, o Cloud Composer provisiona 100 GB de capacidade para o ambiente e as pastas dags/
e plugins/
.
Para evitar uma falha no fluxo de trabalho, armazene os DAGs, plug-ins e módulos do Python nas pastas dags/
ou plugins/
, mesmo se os módulos do Python não contiverem DAGs ou plug-ins. Por exemplo, armazene o py_file
que um DataFlowPythonOperator
faz referência em dags/
ou plugins/
.
Dados e registros: as pastas data/
e logs/
não estão sujeitas a limites de capacidade.
Para evitar um erro de servidor da Web, verifique se os dados que o servidor da Web precisa para analisar um DAG (não executado) estão disponíveis na pasta dags/
. Caso contrário, o servidor da Web não conseguirá acessar os dados nem carregar a interface da Web do Airflow.
Sincronização de dados
Quando você modifica DAGs ou plug-ins no bucket do Cloud Storage, o Cloud Composer sincroniza os dados em todos os nós do cluster.
O Cloud Composer sincroniza as pastas dags/
e plugins/
unidirecionalmente, fazendo uma cópia local. A sincronização unidirecional significa que as alterações locais nessas pastas são substituídas.
As pastas data/
e logs/
são sincronizadas bidirecionalmente usando o Cloud Storage FUSE.
Os dados não são sincronizados com o servidor da Web devido à capacidade limitada. Isso também acontece porque o servidor da Web analisa DAGs em um ambiente do Cloud Composer em vez de executá-los. São os workers que executam os DAGs.