Usar o painel de monitoramento

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

Nesta página, mostramos como acessar e usar o painel de monitoramento de um ambiente do Cloud Composer.

Para mais informações sobre métricas específicas, consulte Monitorar ambientes com o Cloud Monitoring.

Acessar o painel de monitoramento

O painel de monitoramento contém métricas e gráficos para monitorar tendências nas execuções de DAG no ambiente e identificar problemas com componentes do Airflow e recursos do Cloud Composer.

Para acessar o painel de monitoramento do seu ambiente:

  1. No console Google Cloud , acesse a página Ambientes.

    Acessar "Ambientes"

  2. Na lista de ambientes, clique no nome do seu ambiente. A página Detalhes do ambiente é aberta.

  3. Acesse a guia Monitoramento.

Configurar alertas para métricas

É possível configurar alertas para uma métrica clicando no ícone de sino no canto do card de monitoramento.

Criar um alerta para uma métrica exibida no painel de monitoramento
Figura 1. Crie um alerta para uma métrica mostrada no painel de monitoramento (clique para ampliar)

Ver uma métrica no Monitoring

Veja mais detalhes de uma métrica usando o Monitoring.

Para navegar até lá no painel de monitoramento do Cloud Composer, clique nos três pontos no canto superior direito de um cartão de métrica e selecione Visualizar no Metrics Explorer.

Ver uma métrica do painel de monitoramento no Metrics Explorer
Figura 2. Veja uma métrica do painel de monitoramento no Metrics Explorer (clique para ampliar)

Descrições das métricas

Cada ambiente do Cloud Composer tem seu próprio painel de monitoramento. As métricas mostradas em um painel de monitoramento de um ambiente específico rastreiam apenas as execuções de DAG, os componentes do Airflow e os detalhes desse ambiente. Por exemplo, se você tiver dois ambientes, o painel não vai agregar métricas dos dois.

Visão geral do ambiente

Métrica de Ambiente Descrição
Integridade do ambiente (DAG de monitoramento do Airflow) Uma linha do tempo que mostra a integridade da implantação do Composer. O status verde reflete apenas o status da implantação do Composer. Isso não significa que todos os componentes do Airflow estão operacionais e que os DAGs podem ser executados.
Sinal de funcionamento do programador Uma linha do tempo mostrando o sinal de funcionamento do programador do Airflow. Verifique se há áreas vermelhas para identificar problemas do agendador do Airflow. Se o ambiente tiver mais de um programador, o status de pulsação será íntegro desde que pelo menos um dos programadores esteja respondendo.
Integridade do servidor da Web Uma linha do tempo que mostra o status do servidor da Web do Airflow. Esse status é gerado com base nos códigos de status HTTP retornados pelo servidor da Web do Airflow.
Integridade do banco de dados Uma linha do tempo que mostra o status da conexão com a instância do Cloud SQL que hospeda o banco de dados do Airflow.
Operações do ambiente Uma linha do tempo mostrando operações que modificam o ambiente, como atualizações de configuração ou carregamento de snapshots do ambiente.
Operações de manutenção Uma linha do tempo mostrando os períodos em que as operações de manutenção são realizadas no cluster do ambiente.
Dependências do ambiente Uma linha do tempo mostrando o status das verificações de acessibilidade e permissões para a operação do ambiente.

Estatísticas de DAGs

Métrica de Ambiente Descrição
Execuções DAG com sucesso O número total de execuções bem-sucedidas de todos os DAGs no ambiente durante o período selecionado. Se o número de execuções de DAGs bem-sucedidas ficar abaixo dos níveis esperados, isso pode indicar falhas (consulte Falhas na execução do DAG) ou um problema de agendamento.
Execuções de DAG com falha Tarefas com falha O número total de execuções com falha de todos os DAGs no ambiente durante o período selecionado. O número total de tarefas que falharam no ambiente durante o período selecionado. As tarefas com falha nem sempre causam falha em uma execução do DAG, mas podem ser um sinal útil para solucionar erros do DAG.
Execuções de DAG concluídas O número de sucessos e falhas do DAG nos intervalos do período selecionado. Isso pode ajudar a identificar problemas temporários com execuções do DAG e correlacioná-los a outros eventos, como remoções de pods de worker.
Tarefas concluídas O número de tarefas concluídas no ambiente com detalhes de tarefas bem-sucedidas e com falha.
Duração média da execução do DAG A duração média de execuções de DAG. Esse gráfico pode ajudar a identificar problemas de desempenho e tendências na duração do DAG.
Tarefas do Airflow Número de tarefas nos estados em execução, na fila ou adiadas em determinado momento. As tarefas do Airflow são aquelas que estão em estado de fila no Airflow e podem ir para a fila de agentes do executor do Celery ou do Kubernetes. As tarefas em fila do Celery são instâncias de tarefas colocadas na fila de agentes do Celery.
Tarefas zumbi excluídas O número de tarefas zumbi eliminadas em um curto período de tempo. Tarefas zumbis geralmente são causadas pelo encerramento externo dos processos do Airflow. O agendador do Airflow elimina tarefas zumbi periodicamente, o que é refletido nesse gráfico.
Tamanho do repositório do DAG O número de DAGs implantados no bucket do seu ambiente e processados pelo Airflow em um determinado momento. Ele pode ser útil ao analisar os gargalos de desempenho. Por exemplo, um número maior de implantações do DAG pode prejudicar o desempenho devido ao excesso de carga.
Erros do processador de DAG O número de erros e tempos limite por segundo encontrados no processamento de arquivos DAG. O valor indica a frequência de erros relatados pelo processador de DAG e é diferente do número de DAGs com falha.
Tempo total de análise de todos os DAGs Um gráfico que mostra o tempo total necessário para o Airflow processar todos os DAGs no ambiente. O aumento do tempo de análise pode afetar a eficiência do agendamento. Consulte Diferença entre o tempo de análise do DAG e o tempo de execução do DAG para mais informações.

Estatísticas do programador

Métrica de Ambiente Descrição
Sinal de funcionamento do programador Consulte Visão geral do ambiente.
Uso total da CPU do programador O uso total de núcleos de vCPU pelos contêineres em execução em todos os pods de programador do Airflow e o limite combinado de vCPU para todos os programadores.
Uso total da memória do programador O uso total de memória pelos contêineres em execução em todos os pods de programador do Airflow e o limite combinado de vCPU para todos os programadores.
Uso total de disco do programador O uso total de espaço em disco pelos contêineres em execução em todos os pods de programador do Airflow e o limite combinado de espaço em disco para todos os programadores.
Reinicializações de contêineres do programador O número total de reinicializações para contêineres de programadores individuais.
Remoção de pods do programador Número de remoções de pods do programador do Airflow. A remoção de pods pode acontecer quando um determinado pod no cluster do ambiente atinge os limites de recursos.

Estatísticas do worker

Métrica de Ambiente Descrição
Uso total da CPU pelos workers O uso total de núcleos de vCPU pelos contêineres em execução em todos os pods de worker do Airflow e o limite combinado de vCPU para todos os workers.
Uso total da memória do worker O uso total de memória pelos contêineres em execução em todos os pods de worker do Airflow e o limite combinado de vCPU para todos os workers.
Uso total do disco do worker O uso total de espaço em disco pelos contêineres em execução em todos os pods de worker do Airflow e o limite combinado de espaço em disco para todos os workers.
Workers ativos O número atual de workers no seu ambiente. No Cloud Composer 2, o ambiente escalona automaticamente o número de workers ativos.
Reinicializações do contêiner do worker O número total de reinicializações de contêineres de worker individuais.
Remoção de pod de workers Número de remoções de pods de worker do Airflow. A remoção de pods pode acontecer quando um determinado pod no cluster do ambiente atinge os limites de recursos. Se um pod de worker do Airflow for removido, todas as instâncias de tarefas em execução nele serão interrompidas e, posteriormente, marcadas como com falha pelo Airflow.
Tarefas do Airflow Consulte Visão geral do ambiente.
Tarefas do Celery não confirmadas O número de tarefas não confirmadas na fila do agente do Celery. As tarefas não confirmadas incluem instâncias de tarefas do Airflow nos estados de tarefa queued e running. Ambos os estados são normais para a execução de tarefas do Airflow. O gráfico "Tarefas do Celery não confirmadas" mostra as tarefas nesses estados como não confirmadas enquanto elas são processadas pelo Airflow. Se uma instância de tarefa do Airflow for interrompida de maneira anormal (por exemplo, detectada como zumbi), ela também vai permanecer sem confirmação até que o visibility_timeout seja atingido. Nesse caso, o gráfico vai mostrar uma tarefa que permanece sem confirmação por muito tempo. O valor de tempo limite de visibilidade é definido como 7 dias no Cloud Composer. Após esse período, a tarefa será entregue novamente e poderá ser confirmada. Se ela falhar novamente, poderá ficar sem confirmação por mais sete dias.
Tempos limite de publicação do agente do Celery O número total de erros AirflowTaskTimeout gerados ao publicar tarefas nos agentes do Celery. Essa métrica corresponde à métrica celery.task_timeout_error do Airflow.
Falha ao executar o Celery O número total de códigos de saída diferentes de zero das tarefas do Celery. Essa métrica corresponde à métrica celery.execute_command.failure do Airflow.
Tarefas encerradas pelo sistema O número de tarefas do fluxo de trabalho em que o executor foi encerrado com um SIGKILL (por exemplo, devido a problemas na memória ou no sinal de funcionamento do worker).

Estatísticas do servidor da Web

Métrica de Ambiente Descrição
Integridade do servidor da Web Consulte Visão geral do ambiente.
Uso de CPU do servidor da Web O uso total de núcleos de vCPU pelos contêineres em execução em todas as instâncias do servidor da Web do Airflow e o limite combinado de vCPU para todos os servidores da Web.
Uso da memória do servidor da Web O uso total de memória pelos contêineres em execução em todas as instâncias do servidor da Web do Airflow e o limite combinado de vCPU para todos os servidores da Web.
Uso total de disco do servidor da Web O uso total de espaço em disco pelos contêineres em execução em todas as instâncias do servidor da Web do Airflow e o limite combinado de espaço em disco para todos os servidores da Web.

Estatísticas do banco de dados SQL

Métrica de Ambiente Descrição
Integridade do banco de dados Consulte Visão geral do ambiente.
Uso de CPU do banco de dados O uso de núcleos de CPU pelas instâncias de banco de dados do Cloud SQL no seu ambiente.
Uso da memória do banco de dados O uso total de memória pelas instâncias de banco de dados do Cloud SQL no seu ambiente.
Uso do disco do banco de dados O uso total do espaço em disco pelas instâncias de banco de dados do Cloud SQL no seu ambiente. Essa métrica se aplica à própria instância de banco de dados do Cloud SQL. Portanto, ela não diminui quando o tamanho do banco de dados do Airflow é reduzido. Para uma métrica que mostra o tamanho do conteúdo do banco de dados do Airflow, consulte "Tamanho do banco de dados de metadados do Airflow".
Tamanho do banco de dados de metadados do Airflow Tamanho do banco de dados de metadados do Airflow. Essa métrica se aplica ao componente do Airflow no seu ambiente e mostra a quantidade de espaço em disco ocupada pelo banco de dados de metadados do Airflow na instância do banco de dados do Cloud SQL. Essa métrica diminui quando o tamanho do banco de dados de metadados do Airflow é reduzido (por exemplo, após a manutenção do banco de dados do Airflow) e determina se é possível criar snapshots e fazer upgrade de ambientes. Essa métrica é diferente da métrica "Uso do disco do banco de dados", que mostra a quantidade de espaço em disco usado pelas instâncias de banco de dados do Cloud SQL.
Conexões de banco de dados O número total de conexões ativas com o banco de dados e o limite total de conexões.

Diferença entre o tempo de análise do DAG e o tempo de execução do DAG

O painel de monitoramento de um ambiente exibe o tempo total necessário para analisar todos os DAGs no ambiente do Cloud Composer e o tempo médio necessário para executar um DAG.

A análise de um DAG e a programação de tarefas de um DAG para execução são duas operações separadas realizadas pelo programador do Airflow.

Análise de DAG e programação de tarefas feitas pelo programador do Airflow
Figura 3. Análise de DAG e programação de tarefas feitas pelo programador do Airflow (clique para ampliar)

O tempo de análise do DAG é o tempo que leva para o Scheduler do Airflow ler um arquivo DAG e analisá-lo.

Antes do programador do Airflow, é possível programar qualquer tarefa de um DAG. Ele precisa analisar o arquivo DAG para descobrir a estrutura do DAG e as tarefas definidas. Depois que o arquivo DAG é analisado, o programador pode começar a programar tarefas do DAG.

O tempo de execução do DAG é a soma de todos os tempos de execução de tarefas de um DAG.

Para ver quanto tempo leva para executar uma tarefa específica do Airflow de um DAG, na interface da Web do Airflow, selecione um DAG e abra a guia Duração da tarefa. Essa guia mostra os tempos de execução das tarefas do número especificado de últimas execuções de DAG.

A seguir