Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3
Nesta página, descrevemos como acessar e usar o painel de monitoramento de uma ambiente do Cloud Composer.
Para um tutorial sobre como monitorar as principais métricas do ambiente, consulte Monitorar a integridade e o desempenho do ambiente com as principais métricas.
Para mais informações sobre métricas específicas, consulte Monitorar ambientes com o Cloud Monitoring.
Acessar o painel de monitoramento
O painel de monitoramento contém métricas e gráficos para monitorar tendências nas execuções do DAG no seu ambiente e identificar problemas com componentes do Airflow e recursos do Cloud Composer.
Para acessar o painel de monitoramento do seu ambiente:
No console do Google Cloud, acesse a página Ambientes.
Na lista de ambientes, clique no nome do seu ambiente. A página Detalhes do ambiente é aberta.
Acesse a guia Monitoramento.
Configurar alertas para métricas
É possível configurar alertas para uma métrica clicando no ícone de sino no canto do card de monitoramento.
Conferir uma métrica no Monitoring
Você pode obter mais detalhes sobre uma métrica ao visualizá-la em e monitoramento.
Para acessar o painel de monitoramento do Cloud Composer, clique em clique nos três pontos no canto superior direito de um card de métricas e selecione Ver no Metrics Explorer
Descrições das métricas
Cada ambiente do Cloud Composer tem seu próprio painel de monitoramento. Métricas exibidas em um painel de monitoramento apenas para um ambiente específico as execuções do DAG, os componentes do Airflow e os detalhes do ambiente em um ambiente de nuvem. Por exemplo, se você tiver dois ambientes, o painel não vai agregar as métricas de ambos.
Visão geral do ambiente
Métrica de Ambiente | Descrição |
---|---|
Integridade do ambiente (DAG de monitoramento do Airflow) | Uma linha do tempo que mostra a integridade da implantação do Composer. O status verde reflete apenas o status da implantação do Composer. Isso não significa que todos os componentes do Airflow estão operacionais e que os DAGs podem ser executados. |
Sinal de funcionamento do programador | Uma linha do tempo mostrando o sinal de funcionamento do programador do Airflow. Verifique se há áreas vermelhas para identificar problemas do agendador do Airflow. Se o ambiente tiver mais de um programador, o status do heartbeat será íntegro, desde que pelo menos um deles esteja respondendo. |
Integridade do servidor da Web | Uma linha do tempo que mostra o status do servidor da Web do Airflow. Esse status é gerado com base nos códigos de status HTTP retornados pelo servidor da Web do Airflow. |
Integridade do banco de dados | Uma linha do tempo mostrando o status da conexão com a instância do Cloud SQL que hospeda o banco de dados do Airflow. |
Operações do ambiente | Uma linha do tempo que mostra operações que modificam o ambiente, como realizar atualizações de configuração ou carregar snapshots do ambiente. |
Operações de manutenção | Uma linha do tempo que mostra períodos em que as operações de manutenção são realizadas no cluster do ambiente. |
Dependências do ambiente | Uma linha do tempo mostrando o status da acessibilidade e das verificações de permissões para a operação do ambiente. |
Estatísticas do DAG
Métrica de Ambiente | Descrição |
---|---|
Execuções DAG com sucesso | O número total de execuções bem-sucedidas de todos os DAGs no ambiente durante o período selecionado. Se o número de execuções de DAGs bem-sucedidas cair abaixo dos níveis esperados, isso pode indicar falhas (consulte Execuções DAG com falha) ou um problema de programação. |
Execuções de DAG com falha Tarefas com falha | O número total de execuções com falha de todos os DAGs no ambiente durante o período selecionado. O número total de tarefas que falharam no ambiente durante o período selecionado. As tarefas com falha nem sempre causam falha em uma execução do DAG, mas podem ser um sinal útil para solucionar erros do DAG. |
Execuções de DAG concluídas | O número de sucessos e falhas do DAG para intervalos no intervalo de tempo selecionado. Isso pode ajudar a identificar problemas temporários com execuções do DAG e correlacioná-los a outros eventos, como remoções de pods de worker. |
Tarefas concluídas | O número de tarefas concluídas no ambiente com um detalhamento das tarefas concluídas e com falha. |
Duração média da execução do DAG | A duração média de execuções de DAG. Esse gráfico pode ajudar a identificar problemas de desempenho e tendências na duração do DAG. |
Tarefas do Airflow | Número de tarefas nos estados em execução, na fila ou adiadas em determinado momento. As tarefas do Airflow estão em uma fila no Airflow. Elas podem ir para o Celery ou para a fila de agentes do Executor do Kubernetes. As tarefas em fila do Celery são instâncias de tarefas colocadas na fila de agentes do Celery. |
Tarefas zumbi excluídas | O número de tarefas zumbi eliminadas em um curto período. Tarefas zumbis geralmente são causadas pelo encerramento externo dos processos do Airflow. O programador do Airflow elimina tarefas zumbi periodicamente, o que é refletido neste gráfico. |
Tamanho do repositório do DAG | O número de DAGs implantados no bucket do ambiente e processados pelo Airflow em um determinado momento. Ele pode ser útil ao analisar os gargalos de desempenho. Por exemplo, um número maior de implantações de DAGs pode prejudicar o desempenho devido à carga excessiva. |
Erros do processador de DAG | O número de erros e tempos limite por segundo encontrados no processamento de arquivos DAG. O valor indica a frequência de erros relatados pelo processador de DAG e é diferente do número de DAGs com falha. |
Tempo total de análise de todos os DAGs | Um gráfico que mostra o tempo total necessário para o Airflow processar todos os DAGs no ambiente. O aumento do tempo de análise pode afetar a eficiência do agendamento. Consulte Diferença entre o tempo de análise do DAG e o tempo de execução do DAG para mais informações. |
Estatísticas do programador
Métrica de Ambiente | Descrição |
---|---|
Sinal de funcionamento do programador | Consulte Visão geral do ambiente. |
Uso total de CPU do programador | O uso total de núcleos de vCPU por contêineres em execução em todos os pods de programador do Airflow e o limite combinado de vCPU para todos os programadores. |
Uso total de memória do programador | O uso total da memória por contêineres em execução em todos os pods de programador do Airflow e o limite combinado de vCPU para todos os programadores. |
Uso total do disco do programador | O uso total do espaço em disco por contêineres em execução em todos os pods de programador do Airflow e o limite combinado de espaço em disco para todos os programadores. |
Reinicializações de contêineres do programador | O número total de reinicializações para contêineres individuais do programador. |
Remoção de pods do programador | Número de remoções de pods do programador do Airflow. A remoção de pods pode acontecer quando um determinado pod no cluster do ambiente atinge os limites de recursos. |
Estatísticas de workers
Métrica de Ambiente | Descrição |
---|---|
Uso total de CPU do worker | O uso total de núcleos de vCPU por contêineres em execução em todos os pods de worker do Airflow e o limite combinado de vCPU para todos os workers. |
Uso total da memória do worker | O uso total da memória por contêineres em execução em todos os pods de worker do Airflow e o limite combinado de vCPU para todos os workers. |
Uso total do disco do worker | O uso total de espaço em disco pelos contêineres em execução em todos os pods de worker do Airflow e o limite de espaço em disco combinado para todos os workers. |
Workers ativos | O número atual de workers no seu ambiente. No Cloud Composer 2, o ambiente escalona automaticamente o número de workers ativos. |
Reinicializações do contêiner do worker | O número total de reinicializações para contêineres de workers individuais. |
Remoção de pod de workers | Número de remoções de pods de workers do Airflow. A remoção pode acontecer quando um pod específico no cluster do ambiente atinge o limite de recursos. Se um pod de worker do Airflow for removido, todas as instâncias de tarefas em execução nele serão interrompidas e depois marcadas como com falha pelo Airflow. |
Tarefas do Airflow | Consulte Visão geral do ambiente. |
Tempos limite de publicação do agente do Celery |
O número total de erros AirflowTaskTimeout gerados durante a publicação de tarefas no Celery Brokers. Essa métrica corresponde à celery.task_timeout_error do Airflow. |
Falha ao executar o Celery |
O número total de códigos de saída diferentes de zero das tarefas do Celery. Essa métrica corresponde à celery.execute_command.failure do Airflow. |
Tarefas encerradas pelo sistema | O número de tarefas do fluxo de trabalho em que o executor foi encerrado com um SIGKILL (por exemplo, devido a problemas na memória ou no sinal de funcionamento do worker). |
Estatísticas do acionador
Métrica de Ambiente | Descrição |
---|---|
Tarefas adiadas | O número de tarefas que estão no estado adiado em um determinado momento. Para mais informações sobre tarefas adiadas, consulte Usar operadores adiáveis. |
Acionadores concluídos | O número de gatilhos concluídos em todos os pods do engatilhador. |
Como executar acionadores | O número de acionadores em execução por instância do acionador. Este gráfico mostra linhas separadas para cada acionador. |
Acionadores de bloqueio | Número de acionadores que bloquearam a linha de execução principal (provavelmente por não serem totalmente assíncronos). |
Uso total da CPU dos gatilhos | O uso total de núcleos de vCPU por contêineres em execução em todos os pods de gatilho do Airflow e o limite combinado de vCPU para todos os acionadores. |
Uso total da memória dos gatilhos | O uso total de memória pelos contêineres em execução em todos os pods de gatilho do Airflow e o limite combinado de vCPU para todos os gatilhos. |
Uso total do disco dos gatilhos | O uso total do espaço em disco por contêineres em execução em todos os pods de gatilho do Airflow e o limite combinado de espaço em disco para todos os acionadores. |
Acionadores ativos | O número de instâncias ativas do acionador. |
Restaurações do contêiner do engatilhador | O número de reinicializações do contêiner do engatilhador. |
Estatísticas do servidor da Web
Métrica de Ambiente | Descrição |
---|---|
Integridade do servidor da Web | Consulte Visão geral do ambiente. |
Uso de CPU do servidor da Web | O uso total de núcleos de vCPU pelos contêineres em execução em todos os pods do servidor da Web do Airflow e o limite combinado de vCPU para todos os servidores da Web. |
Uso da memória do servidor da Web | O uso total da memória por contêineres em execução em todos os servidores da Web do Airflow Conjuntos e o limite combinado de vCPU para todos os servidores da Web. |
Uso total do disco do servidor da Web | O uso total do espaço em disco por contêineres em execução em todos os servidores da Web do Airflow Conjuntos e o limite combinado de espaço em disco para todos os servidores da Web. |
Estatísticas do banco de dados SQL
Métrica de Ambiente | Descrição |
---|---|
Integridade do banco de dados | Consulte Visão geral do ambiente. |
Uso de CPU do banco de dados | O uso de núcleos da CPU pelas instâncias do banco de dados do Cloud SQL do ambiente. |
Uso da memória do banco de dados | O uso total da memória pelas instâncias do banco de dados do Cloud SQL do seu ambiente. |
Uso do disco do banco de dados | O uso total do espaço em disco pelas instâncias de banco de dados do Cloud SQL do seu ambiente. Essa métrica se aplica à própria instância do banco de dados do Cloud SQL. Portanto, ela não diminui quando o tamanho do banco de dados do Airflow é reduzido. Para uma métrica que mostra o tamanho do conteúdo do banco de dados do Airflow, consulte "Tamanho do banco de dados de metadados do Airflow". |
Tamanho do banco de dados de metadados do Airflow | Tamanho do banco de dados de metadados do Airflow. Essa métrica se aplica ao componente do Airflow do seu ambiente e mostra a quantidade de espaço em disco ocupado pelo banco de dados de metadados do Airflow na instância de banco de dados do Cloud SQL. Essa métrica diminui quando o tamanho do banco de dados de metadados do Airflow é reduzido (por exemplo, após a manutenção do banco de dados do Airflow) e determina se é possível criar snapshots e fazer upgrade de ambientes. Essa métrica é diferente da métrica de uso de disco do banco de dados, que mostra a quantidade de espaço em disco usada pelas instâncias do banco de dados do Cloud SQL. |
Conexões de banco de dados | O número total de conexões ativas com o banco de dados e o limite total de conexões. |
Diferença entre o tempo de análise do DAG e o tempo de execução do DAG
O painel de monitoramento de um ambiente exibe o tempo total necessário para analisar todos os DAGs no ambiente do Cloud Composer e o tempo médio necessário para executar um DAG.
Analisar e programar tarefas de um DAG para execução são dois métodos separados operações realizadas pelo programador do Airflow.
O tempo de análise do DAG é o tempo que leva para o Scheduler do Airflow ler um arquivo DAG e analisá-lo.
Antes do programador do Airflow, é possível programar qualquer tarefa de um DAG. Ele precisa analisar o arquivo DAG para descobrir a estrutura do DAG e as tarefas definidas. Depois que o arquivo DAG é analisado, o programador pode começar a programar tarefas do DAG.
O tempo de execução do DAG é a soma de todos os tempos de execução das tarefas de um DAG.
Para saber quanto tempo leva para executar uma tarefa específica do Airflow de um DAG, em interface da Web do Airflow, selecione um DAG e abra o Guia Duração da tarefa. Essa guia mostra os tempos de execução das tarefas para o número especificado de últimas execuções de DAG.