Ferramentas de monitoramento e solução de problemas do Dataproc

O Dataproc é um serviço totalmente gerenciado e altamente escalonável para executar plataformas de processamento distribuído de código aberto, como Apache Hadoop, Apache Spark, Apache Flink e Trino. Use as ferramentas e os arquivos discutidos nas seções a seguir para investigar, resolver problemas e monitorar seus clusters e jobs do Dataproc.

Investigações com tecnologia de IA do Gemini Cloud Assist (prévia)

Visão geral

O recurso de prévia das investigações do Gemini Cloud Assist usa os recursos avançados do Gemini para ajudar na criação e execução de clusters e jobs do Dataproc. Esse recurso analisa clusters com falha e jobs com falha e lentos para identificar causas raiz e recomendar correções. Ela cria análises persistentes que podem ser revisadas, salvas e compartilhadas com o suporte do Google Cloud para facilitar a colaboração e acelerar a resolução de problemas.

Recursos

Use esse recurso para criar investigações no console Google Cloud :

  • Adicione uma descrição de contexto em linguagem natural a um problema antes de criar uma investigação.
  • Analise clusters com falha e jobs lentos e com falha.
  • Receba insights sobre as causas raiz dos problemas com correções recomendadas.
  • Crie Google Cloud consultas ao suporte com o contexto completo da investigação anexado.

Antes de começar

Para começar a usar o recurso de investigação, no seu projeto do Google Cloud , ative a API Gemini Cloud Assist.

Criar uma investigação

Para criar uma investigação, faça o seguinte:

  1. No console Google Cloud , acesse a página Investigações do Cloud Assist.

    Investigações do Cloud Assist

  2. Clique em Criar.

  3. Descreva o problema: forneça uma descrição do problema do cluster ou do job.

  4. Selecionar período: informe um período em que o problema ocorreu (o padrão é de 30 minutos).

  5. Selecionar recursos:

    1. Clique em Adicionar recurso.
      1. No campo Filtros rápidos, digite "dataproc" e selecione um ou mais dos seguintes itens como filtros: dataproc.Batch, dataproc.Job ou dataproc.Cluster.
      2. Selecione o lote, o job ou o cluster listado para investigar.
  6. Clique em Criar.

Interpretar os resultados da investigação

Quando uma investigação é concluída, a página Detalhes da investigação é aberta. Esta página contém a análise completa do Gemini, que está organizada nas seguintes seções:

  • Problema: uma seção recolhida com detalhes preenchidos automaticamente do job em investigação.
  • Observações relevantes: uma seção recolhida que lista os principais pontos de dados e anomalias encontrados pelo Gemini durante a análise de registros e métricas.
  • Hipóteses: é a seção principal, que fica aberta por padrão. Ela apresenta uma lista de possíveis causas do problema observado. Cada hipótese inclui:
    • Visão geral: uma descrição da possível causa, como "Alto tempo de gravação de embaralhamento e possível distorção de tarefas".
    • Correções recomendadas: uma lista de etapas práticas para resolver o problema em potencial.

Entre em ação

Depois de analisar as hipóteses e recomendações:

  • Aplique uma ou mais das correções sugeridas à configuração ou ao código do job e execute-o novamente.

  • Para enviar feedback sobre a utilidade da investigação, clique nos ícones "Gostei" ou "Não gostei" na parte de cima do painel.

Analisar e encaminhar investigações

Para revisar os resultados de uma investigação anterior, clique no nome dela na página Investigações do Cloud Assist e abra a página Detalhes da investigação.

Se precisar de mais ajuda, abra um caso de suporte do Google Cloud . Esse processo fornece ao engenheiro de suporte o contexto completo da investigação realizada anteriormente, incluindo as observações e hipóteses geradas pelo Gemini. Essa troca de contexto reduz significativamente a comunicação necessária com a equipe de suporte e leva a uma resolução mais rápida do caso.

Para criar um caso de suporte com base em uma investigação:

Na página Detalhes da investigação, clique em Pedir suporte.

Status e preços da prévia

Não há cobrança pelas investigações do Gemini Cloud Assist durante o pré-lançamento público. As cobranças serão aplicadas ao recurso quando ele estiver em disponibilidade geral (GA).

Para mais informações sobre preços após a disponibilidade geral, consulte Preços do Gemini Cloud Assist.

Interfaces da Web de código aberto

Muitos componentes de código aberto do cluster do Dataproc, como Apache Hadoop e Apache Spark, fornecem interfaces da Web. Essas interfaces podem ser usadas para monitorar recursos do cluster e o desempenho do job. Por exemplo, é possível usar a interface do gerenciador de recursos YARN para conferir a alocação de recursos do aplicativo YARN em um cluster do Dataproc.

Servidor de histórico persistente

As interfaces da Web de código aberto em execução em um cluster ficam disponíveis enquanto o cluster está em execução, mas são encerradas quando você o exclui. Para conferir os dados do cluster e do job após a exclusão de um cluster, crie um servidor de histórico permanente (PHS, na sigla em inglês).

Exemplo: você encontra um erro ou uma lentidão no job que quer analisar. Você para ou exclui o cluster de jobs e, em seguida, visualiza e analisa os dados do histórico de jobs usando seu PHS.

Depois de criar um PHS, ative-o em um cluster do Dataproc ou Google Cloud carga de trabalho em lote sem servidor para Apache Spark ao criar o cluster ou enviar a carga de trabalho em lote. Um PHS pode acessar dados de histórico de jobs executados em vários clusters, permitindo monitorar jobs em um projeto em vez de monitorar UIs separadas executadas em diferentes clusters.

Registros do Dataproc

O Dataproc coleta os registros gerados pelo Apache Hadoop, Spark, Hive, Zookeeper e outros sistemas de código aberto em execução nos seus clusters e os envia para o Logging. Esses registros são agrupados com base na origem deles, o que permite selecionar e visualizar os registros de seu interesse. Por exemplo, os registros do YARN NodeManager e do Spark Executor gerados em um cluster são rotulados separadamente. Consulte Registros do Dataproc para mais informações sobre o conteúdo e as opções de registros do Dataproc.

Cloud Logging

O Logging é um sistema de gerenciamento de registros em tempo real totalmente gerenciado. Ele oferece armazenamento para registros ingeridos de serviços do Google Cloud e ferramentas para pesquisar, filtrar e analisar registros em grande escala. Os clusters do Dataproc geram vários registros, incluindo os do agente de serviço do Dataproc, os de inicialização do cluster e os de componentes OSS, como os do YARN NodeManager.

A geração de registros é ativada por padrão em clusters do Dataproc e em cargas de trabalho em lote do Serverless para Apache Spark. Os registros são exportados periodicamente para o Logging, onde permanecem após a exclusão do cluster ou a conclusão da carga de trabalho.

Métricas do Dataproc

As métricas de cluster e job do Dataproc, com o prefixo dataproc.googleapis.com/, consistem em dados de série temporal que fornecem insights sobre a performance de um cluster, como utilização da CPU ou status do job. As métricas personalizadas do Dataproc, com o prefixo custom.googleapis.com/, incluem métricas emitidas por sistemas de código aberto em execução no cluster, como a métrica running applications do YARN. Ao entender as métricas do Dataproc, você pode configurar seus clusters com eficiência. A configuração de alertas com base em métricas ajuda a reconhecer e responder a problemas rapidamente.

As métricas de cluster e job do Dataproc são coletadas por padrão sem custos financeiros. A coleta de métricas personalizadas é cobrada dos clientes. É possível ativar a coleta de métricas personalizadas ao criar um cluster. A coleta de métricas do Spark do Serverless para Apache Spark é ativada por padrão em cargas de trabalho em lote do Spark.

Cloud Monitoring

O Monitoring usa metadados e métricas de cluster, incluindo métricas de HDFS, YARN, job e operação, para fornecer visibilidade da integridade, do desempenho e da disponibilidade dos clusters e jobs do Dataproc. Use o Monitoring para analisar métricas, adicionar gráficos, criar painéis e alertas.

Metrics Explorer

Use o Metrics Explorer para conferir as métricas do Dataproc. As métricas de cluster, job e sem servidor do Dataproc para lotes do Apache Spark estão listadas nos recursos Cloud Dataproc Cluster, Cloud Dataproc Job e Cloud Dataproc Batch. As métricas personalizadas do Dataproc estão listadas no recurso VM Instances, categoria Custom.

Gráficos

Use o Metrics Explorer para criar gráficos que visualizam métricas do Dataproc.

Por exemplo, você cria um gráfico para ver o número de aplicativos Yarn ativos em execução nos clusters e adiciona um filtro para selecionar as métricas visualizadas por nome ou região do cluster.

Painéis

É possível criar painéis para monitorar clusters e jobs do Dataproc usando métricas de vários projetos e diferentes Google Cloud produtos. É possível criar painéis no console do Google Cloud na página Visão geral dos painéis clicando, criando e salvando um gráfico da página Metrics Explorer.

Alertas

É possível criar alertas de métricas do Dataproc para receber avisos oportunos sobre problemas de cluster ou job.

A seguir