Ferramentas de monitoramento e solução de problemas do Dataproc

Introdução

O Dataproc é um serviço totalmente gerenciado e altamente escalonável para executar plataformas de processamento distribuído de código aberto, como o Apache Hadoop, o Apache Spark, o Apache Flink e o Trino. Use os arquivos e as ferramentas discutidos nas seções a seguir para resolver problemas e monitorar os clusters e jobs do Dataproc.

Interfaces da Web de código aberto

Muitos componentes de código aberto do cluster do Dataproc, como o Apache Hadoop e o Apache Spark, fornecem interfaces da Web. Essas interfaces podem ser usadas para monitorar os recursos do cluster e a performance do job. Por exemplo, é possível usar a UI do gerenciador de recursos YARN para conferir a alocação de recursos do aplicativo YARN em um cluster do Dataproc.

Servidor de histórico persistente

As interfaces da Web de código aberto em execução em um cluster estão disponíveis quando o cluster está em execução, mas são encerradas quando você exclui o cluster. Para conferir os dados do cluster e do job depois que um cluster é excluído, crie um servidor de histórico persistente (PHS, na sigla em inglês).

Exemplo: você encontra um erro ou lentidão de job que quer analisar. Você interrompe ou exclui o cluster de jobs e, em seguida, consulta e analisa os dados do histórico de jobs usando o PHS.

Depois de criar um PHS, ative-o em um cluster do Dataproc ou em uma carga de trabalho em lote do Dataproc sem servidor ao criar o cluster ou enviar a carga de trabalho em lote. Um PHS pode acessar dados históricos de jobs executados em vários clusters, permitindo que você monitore jobs em um projeto em vez de monitorar interfaces separadas em diferentes clusters.

Registros do Dataproc

O Dataproc coleta os registros gerados pelo Apache Hadoop, Spark, Hive, Zookeeper e outros sistemas de código aberto executados nos clusters e os envia para o Logging. Esses registros são agrupados com base na fonte, o que permite selecionar e visualizar os registros de interesse. Por exemplo, os registros do YARN NodeManager e do Spark Executor gerados em um cluster são marcados separadamente. Consulte Registros do Dataproc para mais informações sobre o conteúdo e as opções de registro do Dataproc.

Cloud Logging

O registro é um sistema de gerenciamento de registros totalmente gerenciado e em tempo real. Ele oferece armazenamento para registros ingeridos de serviços e ferramentas do Google Cloud para pesquisar, filtrar e analisar registros em grande escala. Os clusters do Dataproc geram vários registros, incluindo registros do agente de serviço do Dataproc, de inicialização do cluster e de componentes do OSS, como os registros do NodeManager do YARN.

O registro é ativado por padrão em clusters do Dataproc e cargas de trabalho em lote do Dataproc sem servidor. Os registros são exportados periodicamente para o Logging, onde permanecem após a exclusão do cluster ou a conclusão da carga de trabalho.

Métricas do Dataproc

As métricas do cluster e do job do Dataproc, com o prefixo dataproc.googleapis.com/, consistem em dados de séries temporais que fornecem insights sobre a performance de um cluster, como a utilização da CPU ou o status do job. As métricas personalizadas do Dataproc, com prefixo custom.googleapis.com/, incluem métricas emitidas por sistemas de código aberto em execução no cluster, como a métrica running applications do YARN. Ter insights sobre as métricas do Dataproc pode ajudar você a configurar seus clusters de maneira eficiente. Configurar alertas com base em métricas pode ajudar você a reconhecer e responder a problemas rapidamente.

As métricas do cluster e do job do Dataproc são coletadas por padrão sem custos financeiros. A coleta de métricas personalizadas é cobrada dos clientes. É possível ativar a coleta de métricas personalizadas ao criar um cluster. A coleta de métricas do Spark do Dataproc Serverless é ativada por padrão nas cargas de trabalho em lote do Spark.

Cloud Monitoring

O monitoramento usa metadados e métricas do cluster, incluindo métricas HDFS, YARN, job e operação, para fornecer visibilidade sobre a integridade, o desempenho e a disponibilidade dos clusters e jobs do Dataproc. Use o Monitoring para analisar métricas, adicionar gráficos, criar painéis e alertas.

Metrics Explorer

Use o Metrics Explorer para conferir as métricas do Dataproc. As métricas do cluster, do job e do lote sem servidor do Dataproc estão listadas nos recursos Cloud Dataproc Cluster, Cloud Dataproc Job e Cloud Dataproc Batch. As métricas personalizadas do Dataproc são listadas na categoria VM Instances do recurso Custom.

Gráficos

Use o Metrics Explorer para criar gráficos que visualizem as métricas do Dataproc.

Exemplo: você cria um gráfico para conferir o número de aplicativos Yarn ativos em execução nos clusters e, em seguida, adiciona um filtro para selecionar as métricas visualizadas por nome ou região do cluster.

Painéis

É possível criar painéis para monitorar clusters e jobs do Dataproc usando métricas de vários projetos e diferentes produtos do Google Cloud. É possível criar painéis no console do Google Cloud na página Visão geral dos painéis clicando, criando e salvando um gráfico na página Metrics Explorer.

Alertas

É possível criar alertas de métrica do Dataproc para receber avisos oportunos sobre problemas de cluster ou job.

Para mais informações

Para mais orientações, consulte