Desempenho do pipeline

Nesta página, descrevemos as configurações de pipeline que podem ser ajustadas e o impacto que elas têm no desempenho.

O desempenho de um pipeline depende do seguinte:

  • Tamanho e características dos dados
  • Estrutura do pipeline
  • Dimensionamento de cluster
  • Plug-ins usados pelo pipeline do Cloud Data Fusion

Dimensionamento de cluster

Os nós mestres usam recursos proporcionais ao número de pipelines ou aplicativos extras em execução no cluster. Se você estiver executando pipelines em clusters efêmeros, use 2 CPUs e 8 GB de memória para os nós mestres. Se você estiver usando clusters permanentes, talvez precise de nós mestres maiores para acompanhar o fluxo de trabalho. Para entender se você precisa de nós mestres maiores, monitore o uso da memória e da CPU no nó. Recomendamos dimensionar seus nós de trabalho com pelo menos duas CPUs e 8 GB de memória. Se você tiver configurado os pipelines para usar quantidades maiores de memória, precisará usar workers maiores.

Para minimizar o tempo de execução, certifique-se de que seu cluster tenha nós suficientes para permitir o máximo possível de processamento paralelo.

Saiba mais sobre o dimensionamento de cluster.

Recursos

Os pipelines permitem especificar o número de CPUs e a quantidade de memória a serem fornecidas ao driver e a cada executor do Spark. O motorista não trabalha muito. Portanto, o valor padrão de 1 CPU e 2 GB de memória é suficiente para executar a maioria dos pipelines. Pode ser necessário aumentar a memória para pipelines que contêm muitos estágios ou esquemas grandes. O número de CPUs atribuídas a um executor determina o número de tarefas que o executor pode executar em paralelo.

Saiba mais sobre os recursos.

Ajuste do mecanismo de execução

Nas versões 6.4 e mais recentes do Cloud Data Fusion, o Cloud Data Fusion configura automaticamente o mecanismo de execução para garantir o melhor desempenho de clusters temporários do Dataproc. Para clusters estáticos do Dataproc, configure o mecanismo de execução.

Saiba mais

Para saber mais sobre os conceitos apresentados aqui em mais detalhes, consulte o Guia de ajuste de desempenho do pipeline de dados do CDAP.