Como monitorar ambientes no Console do Cloud

Nesta página, mostramos como acessar e usar o painel de monitoramento de um ambiente do Cloud Composer. Esse painel contém métricas e gráficos para monitorar tendências no DAG executado no ambiente e identificar problemas com componentes do Airflow e recursos do Cloud Composer.

Como acessar o painel de monitoramento

  1. Abra a página Ambientes no Console do Cloud.

    Abrir a página "Ambientes"

  2. Encontre o nome do ambiente que você quer monitorar na lista. Clique no nome do ambiente para abrir a guia de monitoramento da página Detalhes do ambiente.

Como selecionar um período

Você pode selecionar um período para os dados no painel usando a lista de períodos na parte superior direita da página.

Seletor de intervalo de tempo

Também é possível aumentar o zoom em um intervalo de tempo específico, basta clicar e arrastar em qualquer gráfico. O novo período será aplicado a todas as métricas. Redefina o zoom clicando no botão REDEFINIR ZOOM à esquerda dos períodos de tempo.

Como configurar alertas

É possível configurar alertas para uma métrica clicando no ícone de sino no canto do card de monitoramento.

Como monitorar alertas

Como visualizar uma métrica no Monitoring

Veja mais detalhes de uma métrica usando o Monitoring. Para navegar até lá no painel de monitoramento do Cloud Composer, clique nos três pontos no canto superior direito de um cartão de métrica e selecione Visualizar no Metrics Explorer.

Visualizar no Metrics Explorer

Descrições das métricas

Cada ambiente do Cloud Composer tem seu próprio painel de monitoramento. As métricas abaixo rastreiam apenas as execuções do DAG, os componentes do Airflow e os detalhes do ambiente atualmente selecionado.

Visão geral do ambiente

Métrica de Ambiente Descrição
Uso da CPU por nó Um gráfico que mostra o uso de núcleos de CPU agregados em todos os pods em execução no nó, medido como uma proporção de uso de tempo principal. Isso não inclui o uso de CPU da instância do App Engine usada para a IU do Airflow ou a instância do Cloud SQL. Muitas vezes, o alto uso da CPU é a causa principal das remoções de pods de worker. Se o uso for muito alto, escalone horizontalmente o ambiente do Composer ou altere a programação das execuções do DAG.
Uso de memória por nó Uso da memória por nó no cluster do GKE. Isso não inclui o uso de memória da instância do App Engine usada para a IU do Airflow ou a instância do Cloud SQL. O alto uso de memória geralmente é a causa principal das remoções do pod do worker, o que pode levar a falhas no DAG.
Integridade do ambiente Uma linha do tempo que mostra a integridade da implantação do Composer. O status verde não significa que todos os componentes do Airflow estavam operacionais e os DAGs puderam ser executados. Ele reflete apenas o status da implantação do Composer.
Integridade do banco de dados Uma linha do tempo que mostra o status da conexão com a instância do Cloud SQL do Composer.
Integridade do servidor da Web Uma linha do tempo que mostra o status do servidor da Web da IU do Airflow. Ele é gerado com base nos códigos de status HTTP retornados pelo servidor da IU.

Componentes do Airflow

Métrica do Airflow Descrição
Sinal de funcionamento do programador Uma linha do tempo mostrando quando o agendador do Airflow estava fornecendo um sinal de funcionamento íntegro (ou seja, quando estava respondendo). Verifique se há áreas vermelhas para identificar problemas do agendador do Airflow.
Workers ativos Um gráfico que mostra o número de workers ativos no período selecionado. Por padrão, ele precisa ser igual ao número de nós no cluster do Airflow, mas pode aumentar se o ambiente for escalonado horizontalmente. Se o número de workers ativos diminuir, isso pode indicar falhas no processo do worker. Consulte o gráfico de remoções do pod do worker.
Remoção de pod de workers1 Um gráfico que mostra o número de remoções de pod de worker do GKE ao longo do tempo. As remoções de pods geralmente são causadas pelo esgotamento de recursos do GKE. Consulte o gráfico de uso da CPU/memória por nó para ver mais detalhes.
Tarefas zumbi eliminadas1 Um gráfico que mostra o número de tarefas zumbi eliminadas em um curto período de tempo. Tarefas zumbis geralmente são causadas pelo encerramento externo dos processos do Airflow. O agendador do Airflow elimina tarefas zumbi periodicamente, o que deve ser refletido nesse gráfico.

Execuções DAG

Métrica de execução do DAG Descrição
Execuções DAG com sucesso O número total de execuções bem-sucedidas de todos os DAGs no ambiente durante o período selecionado. Se isso ficar abaixo dos níveis esperados, pode indicar falhas (consulte Falhas na execução do DAG) ou um problema de agendamento.
Execuções DAG com falha O número total de execuções com falha de todos os DAGs no ambiente durante o período selecionado.
Tarefas com falha1 O número total de tarefas que falharam no ambiente durante o período selecionado. As tarefas com falha nem sempre causam falha em uma execução do DAG, mas podem ser um sinal útil para solucionar erros do DAG.
Execuções de DAG concluídas Um gráfico de barras que mostra o número de sucessos e falhas do DAG no período selecionado. Ele pode ajudar a identificar problemas temporários com execuções do DAG e correlacioná-los a outros eventos, como remoções de pods de worker.
Duração média da execução do DAG Um gráfico que mostra a duração média das execuções do DAG concluídas durante um pequeno intervalo de tempo. Esse gráfico pode ajudar a identificar problemas de desempenho e tendências na duração do DAG.
Tarefas concluídas1 Um gráfico que mostra o número de tarefas concluídas no ambiente em um curto intervalo de tempo com detalhes de tarefas bem-sucedidas e com falha.
Tarefas em execução1 e na fila Gráfico que mostra o número de tarefas em execução e enfileiradas e em um determinado momento. Consulte o número de tarefas na fila para identificar gargalos de desempenho ou cargas excessivas. A fila cresce mais quando as tarefas não podem ser executadas imediatamente. Consulte o número de tarefas em execução para detectar problemas de agendamento. Por exemplo, se o número de tarefas em execução diminuir significativamente, isso pode sugerir um problema de agendamento.
Tamanho do repositório do DAG1 Um gráfico que mostra o número de DAGs implantados em um bucket do Cloud Storage e processados pelo Airflow em um determinado momento. Ele pode ser útil ao analisar os gargalos de desempenho. Por exemplo, um número maior de implantações do DAG pode prejudicar o desempenho devido ao excesso de carga.
Erros de importação de arquivos DAG1 Um gráfico que mostra o número de erros de análise do DAG em um curto intervalo de tempo. Ele pode ajudar a identificar quando DAGs corrompidos foram processados pelo Airflow, indicando problemas no código-fonte do DAG.
Tempo total de análise de todos os DAGS 1 Um gráfico que mostra o tempo total necessário para o Airflow processar todos os DAGs no ambiente. O aumento do tempo de análise pode afetar a eficiência do agendamento.

1 Disponível para ambientes que usam a versão 1.10.0 ou posterior do Composer e a versão 1.10.6 ou posterior do Airflow.