Detalhes da execução

O Dataflow fornece uma guia de Detalhes da execução na interface de usuário de monitoramento baseada na Web. Essa ferramenta pode ajudar a otimizar o desempenho dos jobs e diagnosticar por que o job está lento ou travado. Este documento é destinado a qualquer usuário do Dataflow que precise inspecionar os detalhes de execução dos jobs do Dataflow.

Esta página fornece um resumo de alto nível sobre como é possível usar este recurso e o layout da interface do usuário. Para detalhes de solução de problemas, leia Como usar a guia detalhes da execução.

Terminologia

Para usar os detalhes de execução de forma eficaz, você precisa entender como os seguintes conceitos principais se aplicam aos jobs do Dataflow:

  • Otimização de fusão: o processo de mesclar várias etapas ou transformações do Dataflow. Isso otimiza os pipelines enviados pelo usuário. Para mais informações, leia Otimização de fusão.
  • Estágios: a unidade de etapas fundidas nos pipelines do Dataflow.
  • Caminhos críticos: a sequência de estágios de um pipeline que contribuíram para o ambiente de execução geral do job. Por exemplo, essa sequência exclui os seguintes estágios:
    • Ramificações do pipeline finalizado antes do job de modo geral.
    • Entradas que não atrasaram o processamento downstream.
  • Workers: instâncias de VM do Compute Engine que executam um job do Dataflow.
  • Itens de trabalho: as unidades de trabalho que correspondem a um pacote selecionado pelo Dataflow.

Quando usar os detalhes de execução

Veja a seguir cenários comuns para usar detalhes de execução ao executar jobs do Dataflow:

  • O pipeline está parado, e você quer resolver o problema.
  • O pipeline está lento e você quer segmentar a otimização dele.
  • Nada precisa ser corrigido, mas você quer ver os detalhes da execução do pipeline para entender o job.

Como ativar detalhes de execução

A visualização Fluxo de trabalho do cenário é ativada automaticamente para todos os jobs de lote e de streaming. Para que os jobs em lote exibam mais informações de monitoramento na guia Detalhes da execução, ao iniciar o job do Dataflow, transmita os seguintes parâmetros:

--experiments=use_monitoring_state_manager
--experiments=enable_execution_details_collection

Para jobs em lote, isso ativa as visualizações de progresso da etapa e Progresso do worker.

Esse recurso não gera outros usos de CPU, rede etc. para suas VMs. Os detalhes da execução são coletados pelo sistema de monitoramento de back-end do Dataflow, que não afeta o desempenho do job.

Depois de iniciar o job, é possível visualizar a guia Detalhes da execução usando a IU de monitoramento do Dataflow. Para mais informações, leia Como acessar a interface de monitoramento do Dataflow.

Como a guia "Detalhes da execução" é usada

A guia Detalhes da execução inclui quatro visualizações: Progresso do estágio, Painel lateral (em Progresso do estágio), Fluxo de trabalho de estágio e Progresso de workers. Nesta seção, mostramos cada visualização e fornecemos exemplos de jobs do Dataflow bem-sucedidos e mal-sucedidos.

Progresso do estágio

As visualizações Progresso do estágio mostram os estágios de execução do job, organizados pelos horários de início e término. O período é representado por uma barra. Por exemplo, você pode identificar visualmente os estágios mais longos de um pipeline encontrando a barra mais longa.

Abaixo de cada uma das barras, você encontra um minigráfico que mostra o progresso do estágio ao longo do tempo. Para destacar os estágios que contribuíram para o ambiente de execução geral do job, clique no botão Caminho crítico.

O painel Informações do estágio exibe uma lista de etapas associadas a um estágio, classificadas por tempo decorrido decrescente. Para abrir esse painel, passe o cursor sobre uma das barras e clique em Ver detalhes.

Um exemplo da visualização de progresso do estágio, mostrando uma visualização do período do
tempo de seis etapas de execução diferentes. Essa visualização também inclui o painel de informações
do estágio.

Fluxo de trabalho do estágio

O Fluxo de trabalho do estágio mostra os estágios de execução do job, representados como um gráfico de fluxo de trabalho. Para mostrar apenas os estágios que contribuíram diretamente para o ambiente de execução geral do job, clique no botão Caminho crítico.

Um exemplo da visualização do fluxo de trabalho do estágio, mostrando a hierarquia dos diferentes
estágios de execução de um job.

Progresso do worker

O Progresso de workers mostra os workers de um determinado estágio. Cada barra é mapeada para um item de trabalho programado para um worker. É possível encontrar um minigráfico que rastreia a utilização da CPU em um worker localizado abaixo de cada worker, facilitando a identificação de problemas de subutilização.

Devido à densidade desta visualização, é necessário filtrar esta visualização pré-selecionando um estágio. Primeiro, identifique um estágio na visualização Progresso do estágio. Passe o cursor sobre esse estágio e clique em Ver workers para entrar na visualização Progresso do worker.

Exemplo da visualização de progresso do worker. Os workers têm barras e minigráficos
que correspondem à programação do item de trabalho e à utilização da CPU.

A seguir