Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1
Esta página explica como limpar manualmente o banco de dados do Airflow no seu ambiente.
Se você quiser limpar o banco de dados automaticamente, consulte Configurar a política de retenção do banco de dados.
Limpeza automática do banco de dados
O Cloud Composer oferece várias alternativas para fazer limpezas manuais:
É possível configurar a política de retenção do banco de dados no seu ambiente para que os registros mais antigos do que um determinado período sejam removidos automaticamente do banco de dados do Airflow diariamente.
Antes da política de retenção de banco de dados ficar disponível no Cloud Composer, recomendamos uma abordagem diferente para automatizar a limpeza do banco de dados usando um DAG de limpeza de banco de dados. Essa abordagem está obsoleta, mas ainda tem suporte. Confira a descrição e o código do DAG na página do Cloud Composer 2.
Limites de tamanho do banco de dados
Com o passar do tempo, o banco de dados do Airflow do seu ambiente armazena cada vez mais dados. Esses dados incluem registros e informações relacionados a execuções anteriores de DAG, tarefas e outras operações do Airflow.
Se o tamanho do banco de dados do Airflow for maior que 20 GB, não será possível fazer upgrade do ambiente para uma versão mais recente.
Se o tamanho do banco de dados do Airflow for maior que 20 GB, não será possível criar snapshots.
Executar a operação de limpeza do banco de dados pela CLI do Airflow
Quando você executa o comando airflow db trim
da CLI do Airflow pela
CLI do Google Cloud, o Cloud Composer realiza uma
operação de retenção de banco de dados.
Durante essa operação, o Cloud Composer remove as entradas do banco de dados do Airflow mais antigas do que o período de retenção do banco de dados configurado atualmente (o padrão é 60 dias). Essa operação não bloqueia as tabelas do banco de dados do Airflow e mantém a consistência dos dados, mesmo que seja interrompida.
Para remover entradas antigas do banco de dados do Airflow, execute o seguinte comando:
gcloud composer environments run ENVIRONMENT_NAME \
--location LOCATION \
db trim \
-- --retention-days RETENTION_DAYS
Substitua:
ENVIRONMENT_NAME
: o nome do ambiente;LOCATION
: a região em que o ambiente está localizado.RETENTION_DAYS
: o período de retenção em dias. As entradas mais antigas que esse número de dias são removidas.
Para mais informações sobre como executar comandos da CLI do Airflow no Cloud Composer, consulte Acessar a interface de linha de comando do Airflow.
Manter o desempenho do banco de dados
Problemas de desempenho do banco de dados do Airflow podem levar a problemas gerais de execução do DAG. Observe as estatísticas de uso de CPU e memória do banco de dados. Se a utilização da CPU e da memória se aproximar dos limites, o banco de dados estará sobrecarregado e exigirá escalonamento. A quantidade de recursos disponíveis para o banco de dados do Airflow é controlada pela propriedade de tamanho do ambiente. Para aumentar o banco de dados, mude o tamanho do ambiente para um nível maior. Aumentar o tamanho do ambiente aumenta os custos dele.
Se você usar o mecanismo XCom para transferir arquivos, use-o de acordo com as diretrizes do Airflow. A transferência de arquivos grandes ou de um grande número de arquivos usando o XCom afeta a performance do banco de dados do Airflow e pode causar falhas ao carregar instantâneos ou fazer upgrade do seu ambiente. Considere usar alternativas, como o Cloud Storage, para transferir grandes volumes de dados.
Remova entradas para DAGs não utilizados
É possível remover entradas do banco de dados para DAGs não utilizados removendo DAGs da interface do Airflow.
A seguir
- Configurar a política de retenção do banco de dados
- Acessar a interface de linha de comando do Airflow