O Dataproc é um serviço totalmente gerido e altamente escalável para executar plataformas de processamento distribuído de código aberto, como o Apache Hadoop, o Apache Spark, o Apache Flink e o Trino. Pode usar as ferramentas e os ficheiros abordados nas secções seguintes para investigar, resolver problemas e monitorizar os seus clusters e tarefas do Dataproc.
Investigações com tecnologia de IA com o Gemini Cloud Assist (pré-visualização)
Vista geral
A funcionalidade de pré-visualização do Gemini Cloud Assist Investigations usa as capacidades avançadas do Gemini para ajudar na criação e execução de clusters e tarefas do Dataproc. Esta funcionalidade analisa clusters com falhas e tarefas com falhas e de execução lenta para identificar as causas principais e recomendar correções. Cria uma análise persistente que pode rever, guardar e partilhar com o apoio técnico para facilitar a colaboração e acelerar a resolução de problemas. Google Cloud
Funcionalidades
Use esta funcionalidade para criar investigações a partir da Google Cloud consola:
- Adicione uma descrição de contexto de linguagem natural a um problema antes de criar uma investigação.
- Analise clusters com falhas e tarefas lentas e com falhas.
- Aceda a estatísticas sobre as causas principais dos problemas com correções recomendadas.
- Criar Google Cloud registos de apoio técnico com o contexto completo da investigação em anexo.
Antes de começar
Para começar a usar a funcionalidade de investigação, no seu Google Cloud projeto, ative a API Gemini Cloud Assist.
Crie uma investigação
Para criar uma investigação, faça o seguinte:
Na Google Cloud consola, aceda à página Investigações do Cloud Assist.
Clique em
Criar.Descreva o problema: faculte uma descrição do problema do cluster ou do trabalho.
Selecionar intervalo de tempo: indique um intervalo de tempo em que o problema ocorreu (a predefinição é de 30 minutos).
Selecionar recursos:
- Clique em
- No campo Filtros rápidos, escreva "dataproc" e, de seguida, selecione um ou mais dos seguintes elementos como filtros:
dataproc.Batch
,dataproc.Job
oudataproc.Cluster
. - Selecione o lote, a tarefa ou o cluster apresentado para investigar.
Adicionar recurso.
- No campo Filtros rápidos, escreva "dataproc" e, de seguida, selecione um ou mais dos seguintes elementos como filtros:
- Clique em
Clique em Criar.
Interprete os resultados da investigação
Quando uma investigação estiver concluída, é apresentada a página Detalhes da investigação. Esta página contém a análise completa do Gemini, que está organizada nas seguintes secções:
- Problema: uma secção reduzida que contém detalhes preenchidos automaticamente da tarefa que está a ser investigada.
- Observações relevantes: uma secção reduzida que apresenta os principais pontos de dados e anomalias que o Gemini encontrou durante a análise dos registos e das métricas.
- Hipóteses: esta é a secção principal, que é expandida por predefinição.
Apresenta uma lista de potenciais causas do problema observado. Cada hipótese
inclui:
- Vista geral: uma descrição da possível causa, como "Tempo de gravação aleatória elevado e potencial desvio de tarefas".
- Correções recomendadas: uma lista de passos acionáveis para resolver o potencial problema.
Tomar medidas
Depois de rever as hipóteses e as recomendações:
Aplique uma ou mais das correções sugeridas à configuração ou ao código da tarefa e, em seguida, volte a executar a tarefa.
Clique nos ícones de gosto ou não gosto na parte superior do painel para enviar feedback sobre a utilidade da investigação.
Reveja e encaminhe investigações
Pode rever os resultados de uma investigação executada anteriormente clicando no nome da investigação na página Investigações do Cloud Assist para abrir a página Detalhes da investigação.
Se precisar de mais assistência, pode abrir um Google Cloud registo de apoio técnico. Este processo fornece ao engenheiro de apoio técnico o contexto completo da investigação realizada anteriormente, incluindo as observações e as hipóteses geradas pelo Gemini. Esta partilha de contexto reduz significativamente a comunicação necessária com a equipa de apoio técnico e leva a uma resolução mais rápida do registo.
Para criar um registo de apoio ao cliente a partir de uma investigação:
Na página Detalhes da investigação, clique em Pedir apoio técnico.
Pré-visualize o estado e os preços
Não existe qualquer custo para as investigações do Gemini Cloud Assist durante a pré-visualização pública. A funcionalidade vai ser cobrada quando ficar disponível em geral (DG).
Para mais informações sobre os preços após a disponibilidade geral, consulte os preços do Gemini Cloud Assist.
Interfaces Web de código aberto
Muitos componentes de código aberto do cluster Dataproc, como o Apache Hadoop e o Apache Spark, oferecem interfaces Web. Estas interfaces podem ser usadas para monitorizar os recursos do cluster e o desempenho das tarefas. Por exemplo, pode usar a IU do gestor de recursos do YARN para ver a atribuição de recursos da aplicação YARN num cluster do Dataproc.
Persistent History Server
As interfaces Web de código aberto executadas num cluster estão disponíveis quando o cluster está em execução, mas terminam quando elimina o cluster. Para ver os dados do cluster e da tarefa após a eliminação de um cluster, pode criar um servidor de histórico persistente (PHS).
Exemplo: encontra um erro de tarefa ou uma desaceleração que quer analisar. Para parar ou eliminar o cluster de tarefas, veja e analise os dados do histórico de tarefas através do seu PHS.
Depois de criar um PHS, ative-o num cluster do Dataproc ou num Google Cloud Serverless para carga de trabalho em lote do Apache Spark quando criar o cluster ou enviar a carga de trabalho em lote. Um PHS pode aceder aos dados do histórico de tarefas executadas em vários clusters, o que lhe permite monitorizar tarefas num projeto em vez de monitorizar IUs separadas executadas em diferentes clusters.
Registos do Dataproc
O Dataproc recolhe os registos gerados pelo Apache Hadoop, Spark, Hive, Zookeeper e outros sistemas de código aberto em execução nos seus clusters e envia-os para o Logging. Estes registos são agrupados com base na origem dos registos, o que lhe permite selecionar e ver os registos do seu interesse. Por exemplo, os registos do YARN NodeManager e do Spark Executor gerados num cluster são etiquetados separadamente. Consulte o artigo Registos do Dataproc para mais informações sobre o conteúdo e as opções dos registos do Dataproc.
Cloud Logging
O registo é um sistema de gestão de registos em tempo real totalmente gerido. Oferece armazenamento para registos carregados a partir de serviços e ferramentas para pesquisar, filtrar e analisar registos em grande escala. Google Cloud Os clusters do Dataproc geram vários registos, incluindo registos do agente de serviço do Dataproc, registos de arranque do cluster e registos de componentes de software livre (OSS), como registos do YARN NodeManager.
O registo está ativado por predefinição em clusters do Dataproc e em cargas de trabalho em lote do Apache Spark sem servidor. Os registos são exportados periodicamente para o Logging, onde permanecem após a eliminação do cluster ou a conclusão da carga de trabalho.
Métricas do Dataproc
As métricas de tarefas e clusters do Dataproc, com o prefixo dataproc.googleapis.com/
, consistem em
dados de séries cronológicas que fornecem estatísticas sobre o desempenho
de um cluster, como a utilização da CPU ou o estado da tarefa. As métricas personalizadas do Dataproc, com o prefixo custom.googleapis.com/
, incluem métricas emitidas por sistemas de código aberto em execução no cluster, como a métrica running applications
do YARN. A obtenção de estatísticas sobre as métricas do Dataproc
pode ajudar a configurar os clusters de forma eficiente. A configuração de alertas baseados em métricas pode ajudar a reconhecer e responder rapidamente a problemas.
As métricas de cluster e tarefas do Dataproc são recolhidas por predefinição sem custo financeiro. A recolha de métricas personalizadas é cobrada aos clientes. Pode ativar a recolha de métricas personalizadas quando cria um cluster. A recolha de métricas do Apache Spark sem servidor está ativada por predefinição em cargas de trabalho em lote do Spark.
Cloud Monitoring
A monitorização usa metadados e métricas de clusters, incluindo métricas de HDFS, YARN, tarefas e operações, para oferecer visibilidade sobre o estado, o desempenho e a disponibilidade dos clusters e das tarefas do Dataproc. Pode usar o Monitoring para explorar métricas, adicionar gráficos, criar painéis de controlo e criar alertas.
Metrics Explorer
Pode usar o Explorador de métricas
para ver as métricas do Dataproc.
As métricas do cluster, da tarefa e do Serverless para Apache Spark do Dataproc são apresentadas nos recursos Cloud Dataproc Cluster
, Cloud Dataproc Job
e Cloud Dataproc Batch
. As métricas personalizadas do Dataproc são apresentadas no recurso VM Instances
,
Custom
categoria.
Gráficos
Pode usar o Explorador de métricas para criar gráficos que visualizem as métricas do Dataproc.
Exemplo: cria um gráfico para ver o número de aplicações Yarn ativas em execução nos seus clusters e, em seguida, adiciona um filtro para selecionar métricas visualizadas por nome ou região do cluster.
Painéis de controlo
Pode criar painéis de controlo para monitorizar clusters e tarefas do Dataproc através de métricas de vários projetos e diferentes Google Cloud produtos. Pode criar painéis de controlo na consola a partir da página Vista geral dos painéis de controlo clicando, criando e, em seguida, guardando um gráfico na página Explorador de métricas. Google Cloud
Alertas
Pode criar alertas de métricas do Dataproc para receber avisos atempados de problemas de clusters ou tarefas.
O que se segue?
- Saiba como resolver problemas de mensagens de erro do Dataproc.
- Saiba como ver os dados de diagnóstico do cluster do Dataproc.
- Consulte as Perguntas frequentes do Dataproc.