Desempenho do pipeline

O desempenho do pipeline depende do tamanho e das características dos dados, da estrutura do pipeline, do dimensionamento de cluster e dos plug-ins usados pelo pipeline do Cloud Data Fusion. Nesta página, descrevemos as configurações do pipeline que você pode ajustar e o impacto que elas têm no desempenho.

Dimensionamento de cluster

Os nós mestres usam recursos proporcionais ao número de pipelines ou aplicativos extras em execução no cluster. Se você estiver executando pipelines em clusters efêmeros, use 2 CPUs e 8 GB de memória para os nós mestres. Se você estiver usando clusters persistentes, poderá precisar de nós mestres maiores para acompanhar o fluxo de trabalho. É possível monitorar o uso de memória e CPU no nó para saber se precisa de nós mestres maiores. Recomendamos o dimensionamento dos nós de trabalho com pelo menos 2 CPUs e 8 GB de memória. Você precisará usar workers maiores se tiver configurado os pipelines para usar quantidades de memória maiores.

Para minimizar o tempo de execução, certifique-se de que seu cluster tenha nós suficientes para permitir o máximo possível de processamento paralelo.

Saiba mais sobre o dimensionamento de cluster.

Recursos

Os pipelines permitem especificar o número de CPUs e a quantidade de memória a serem dadas ao driver do Spark e a cada executor do Spark. Como o driver não tem muito trabalho, o padrão de 1 CPU e 2 GB de memória geralmente é suficiente para executar a maioria dos pipelines. Pode ser necessário aumentar a memória dos pipelines que contêm muitos estágios ou esquemas amplos. O número de CPUs atribuídas a um executor determina o número de tarefas que o executor pode executar em paralelo.

Saiba mais sobre os recursos.

Ajuste do mecanismo de execução

Nas versões 6.4 e superior do Cloud Data Fusion, o Cloud Data Fusion configura o mecanismo de execução automaticamente para o melhor desempenho para os clusters efêmeros do Dataproc. Para clusters estáticos do Dataproc, configure o mecanismo de execução.

Saiba mais

Para saber mais detalhes sobre os conceitos apresentados aqui, consulte o guia de ajuste de desempenho do pipeline de dados CDAP.