Usar o painel de monitoramento

Cloud Composer 1 | Cloud Composer 2

Nesta página, descrevemos como acessar e usar o painel de monitoramento de um ambiente do Cloud Composer.

Acessar o painel de monitoramento

O painel de monitoramento contém métricas e gráficos para monitorar tendências nas execuções do DAG no ambiente e identificar problemas com componentes do Airflow e recursos do Cloud Composer.

Para acessar o painel de monitoramento do seu ambiente:

  1. No console do Google Cloud, acesse a página Ambientes.

    Acessar "Ambientes"

  2. Na lista de ambientes, clique no nome do seu ambiente. A página Detalhes do ambiente é aberta.

  3. Acesse a guia Monitoramento.

Configurar alertas para métricas

É possível configurar alertas para uma métrica clicando no ícone de sino no canto do card de monitoramento.

Criar um alerta para uma métrica exibida no painel de monitoramento
Figura 1. Crie um alerta para uma métrica exibida no painel de monitoramento (clique para ampliar)

Ver uma métrica no Monitoring

É possível ter uma visão mais detalhada de uma métrica visualizando-a no Monitoring.

Para navegar até lá a partir do painel de monitoramento do Cloud Composer, clique nos três pontos no canto superior direito de um card de métricas e selecione Ver no Metrics Explorer.

Conferir uma métrica no painel de monitoramento do Metrics Explorer
Figura 2. Conferir uma métrica no painel de monitoramento do Metrics Explorer (clique para ampliar)

Descrições das métricas

Cada ambiente do Cloud Composer tem seu próprio painel de monitoramento. As métricas exibidas em um painel de monitoramento de um ambiente específico rastreiam apenas as execuções de DAG, componentes do Airflow e detalhes do ambiente desse ambiente. Por exemplo, se você tiver dois ambientes, o painel não agregará métricas de ambos.

Visão geral do ambiente

Métrica de Ambiente Descrição
Integridade do ambiente (DAG de monitoramento do Airflow) Uma linha do tempo que mostra a integridade da implantação do Composer. O status verde reflete apenas o status da implantação do Composer. Isso não significa que todos os componentes do Airflow estejam operacionais e que os DAGs possam ser executados.
Sinal de funcionamento do programador Uma linha do tempo mostrando o sinal de funcionamento do programador do Airflow. Verifique se há áreas vermelhas para identificar problemas do agendador do Airflow. Se o ambiente tiver mais de um agendador, o status do sinal de funcionamento estará íntegro desde que pelo menos um deles esteja respondendo.
Integridade do servidor da Web Uma linha do tempo com o status do servidor da Web do Airflow. Esse status é gerado com base nos códigos de status HTTP retornados pelo servidor da Web do Airflow.
Integridade do banco de dados Uma linha do tempo que mostra o status da conexão com a instância do Cloud SQL que hospeda o banco de dados do Airflow.
Operações do ambiente Uma linha do tempo que mostra operações que modificam o ambiente, como a execução de atualizações de configuração ou o carregamento de snapshots do ambiente.
Operações de manutenção Um cronograma que mostra os períodos em que as operações de manutenção são realizadas no cluster do ambiente.
Dependências do ambiente Uma linha do tempo com o status de acessibilidade e verificações de permissões da operação do ambiente.

Estatísticas do DAG

Métrica de Ambiente Descrição
Execuções DAG com sucesso O número total de execuções bem-sucedidas de todos os DAGs no ambiente durante o período selecionado. Se o número de execuções de DAG com sucesso ficar abaixo dos níveis esperados, isso pode indicar falhas (consulte Execuções de DAG com falha) ou um problema de programação.
Execuções DAG com falha Tarefas com falha O número total de execuções com falha de todos os DAGs no ambiente durante o período selecionado. O número total de tarefas que falharam no ambiente durante o período selecionado. As tarefas com falha nem sempre causam falha em uma execução do DAG, mas podem ser um sinal útil para solucionar erros do DAG.
Execuções de DAG concluídas O número de sucessos e falhas do DAG para intervalos no intervalo de tempo selecionado. Isso ajuda a identificar problemas temporários nas execuções do DAG e correlacioná-los a outros eventos, como remoções de pods de workers.
Tarefas concluídas O número de tarefas concluídas no ambiente com um detalhamento das tarefas bem-sucedidas e com falha.
Duração média da execução do DAG A duração média de execuções de DAG. Com esse gráfico, é possível identificar problemas de desempenho e identificar tendências na duração do DAG.
Tarefas do Airflow Número de tarefas nos estados em execução, na fila ou adiadas em determinado momento. As tarefas do Airflow são tarefas que estão em um estado na fila no Airflow e podem acessar a fila do agente do Celery ou do Kubernetes Executor. As tarefas em fila do Celery são instâncias de tarefas colocadas na fila de agentes do Celery.
Tarefas zumbi excluídas O número de tarefas zumbi eliminadas em um pequeno período. Tarefas zumbis geralmente são causadas pelo encerramento externo dos processos do Airflow. O programador do Airflow elimina tarefas zumbi periodicamente, o que é refletido neste gráfico.
Tamanho do repositório do DAG O número de DAGs implantados no bucket do ambiente e processados pelo Airflow em um determinado momento. Ele pode ser útil ao analisar os gargalos de desempenho. Por exemplo, um número maior de implantações de DAG pode prejudicar o desempenho devido à carga excessiva.
Erros do processador de DAG O número de erros e tempos limite por segundo encontrados no processamento de arquivos DAG. O valor indica a frequência de erros relatados pelo processador de DAG e é diferente do número de DAGs com falha.
Tempo total de análise de todos os DAGs Um gráfico que mostra o tempo total necessário para o Airflow processar todos os DAGs no ambiente. O aumento do tempo de análise pode afetar a eficiência do agendamento. Consulte Diferença entre o tempo de análise do DAG e o tempo de execução do DAG para mais informações.

Estatísticas do programador

Métrica de Ambiente Descrição
Sinal sonoro do programador Consulte Visão geral do ambiente.
Uso total da CPU do programador O uso total de núcleos de vCPU por contêineres em execução em todos os pods de programador do Airflow e o limite combinado de vCPU para todos os programadores.
Uso total da memória pelo programador O uso total da memória por contêineres em execução em todos os pods de programador do Airflow e o limite combinado de vCPU para todos os programadores.
Uso total do disco do programador O uso total do espaço em disco por contêineres em execução em todos os pods de programador do Airflow e o limite de espaço em disco combinado para todos os programadores.
Reinicializações de contêineres do programador O número total de reinicializações para contêineres do programador individuais.
Remoção de pod do programador Número de remoções de pod do programador do Airflow. A remoção pode acontecer quando um pod específico no cluster do ambiente atinge os limites de recursos.

Estatísticas de workers

Métrica de Ambiente Descrição
Uso total da CPU do worker O uso total de núcleos de vCPU por contêineres em execução em todos os pods de worker do Airflow e o limite combinado de vCPU para todos os workers.
Uso total da memória do worker O uso total da memória por contêineres em execução em todos os pods de worker do Airflow e o limite combinado de vCPU para todos os workers.
Uso total do disco de worker O uso total do espaço em disco por contêineres em execução em todos os pods de worker do Airflow e o limite de espaço em disco combinado para todos os workers.
Workers ativos O número atual de workers no ambiente. No Cloud Composer 2, o ambiente escalona automaticamente o número de workers ativos.
Reinicializações do contêiner do worker O número total de reinicializações para contêineres de workers individuais.
Remoção de pod de workers Número de remoções de pod de workers do Airflow. A remoção pode acontecer quando um pod específico no cluster do ambiente atinge os limites de recursos. Se um pod de worker do Airflow for removido, todas as instâncias de tarefas em execução nele serão interrompidas e, posteriormente, marcadas como falha pelo Airflow.
Tarefas do Airflow Consulte Visão geral do ambiente.
Tempos limite de publicação do agente do Celery O número total de AirflowTaskTimeout erros gerados ao publicar tarefas no Celery Brokers. Essa métrica corresponde à métrica celery.task_timeout_error do Airflow.
Falha ao executar o Celery O número total de códigos de saída diferentes de zero das tarefas do Celery. Essa métrica corresponde à métrica celery.execute_command.failure do Airflow.
Tarefas encerradas pelo sistema O número de tarefas do fluxo de trabalho em que o executor foi encerrado com um SIGKILL (por exemplo, devido a problemas na memória ou no sinal de funcionamento do worker).

Estatísticas do servidor da Web

Métrica de Ambiente Descrição
Integridade do servidor da Web Consulte Visão geral do ambiente.
Uso de CPU do servidor da Web O uso total de núcleos de vCPU por contêineres em execução em todas as instâncias do servidor da Web do Airflow e o limite combinado de vCPU para todos os servidores da Web.
Uso da memória do servidor da Web O uso total da memória por contêineres em execução em todas as instâncias do servidor da Web do Airflow e o limite combinado de vCPU para todos os servidores da Web.
Uso total do disco do servidor da Web O uso total do espaço em disco por contêineres em execução em todas as instâncias do servidor da Web do Airflow e o limite combinado de espaço em disco para todos os servidores da Web.

Estatísticas do banco de dados SQL

Métrica de Ambiente Descrição
Integridade do banco de dados Consulte Visão geral do ambiente.
Uso de CPU do banco de dados O uso de núcleos de CPU pelas instâncias de banco de dados do Cloud SQL do seu ambiente.
Uso da memória do banco de dados O uso total de memória pelas instâncias de banco de dados do Cloud SQL do seu ambiente.
Uso do disco do banco de dados O uso total de memória pelas instâncias de banco de dados do Cloud SQL do seu ambiente.
Conexões de banco de dados O número total de conexões ativas com o banco de dados e o limite total de conexões.
Tamanho do banco de dados de metadados do Airflow Tamanho do banco de dados de metadados do Airflow. Para mais informações sobre a manutenção do banco de dados de metadados do Airflow, consulte Limpar o banco de dados do Airflow.

Diferença entre o tempo de análise do DAG e o tempo de execução do DAG

O painel de monitoramento de um ambiente exibe o tempo total necessário para analisar todos os DAGs no ambiente do Cloud Composer e o tempo médio necessário para executar um DAG.

Analisar um DAG e programar tarefas de um DAG para execução são duas operações separadas executadas pelo programador do Airflow.

Análise do DAG e programação de tarefas feitas pelo programador do Airflow
Figura 3. Análise de DAG e programação de tarefas feitas pelo programador do Airflow (clique para ampliar)

O tempo de análise do DAG é o tempo que leva para o Scheduler do Airflow ler um arquivo DAG e analisá-lo.

Antes do programador do Airflow, é possível programar qualquer tarefa de um DAG. Ele precisa analisar o arquivo DAG para descobrir a estrutura do DAG e as tarefas definidas. Depois que o arquivo DAG é analisado, o programador pode começar a programar tarefas do DAG.

O tempo de execução do DAG é a soma de todos os tempos de execução da tarefa para um DAG.

Para ver quanto tempo leva para executar uma tarefa específica do Airflow de um DAG, na interface da Web do Airflow, selecione um DAG e abra a guia Duração da tarefa. Essa guia mostra os tempos de execução da tarefa para o número especificado de últimas execuções do DAG.