Configuração do cluster

Nesta página, você verá quando usar clusters estáticos do Dataproc no Cloud Data Fusion. Também descreve versões compatíveis e as configurações recomendadas de cluster.

Quando usar clusters estáticos

Por padrão, o Cloud Data Fusion cria clusters efêmeros para cada pipeline: cria um cluster no início da execução do pipeline e o exclui após a conclusão da execução do pipeline.

Nas situações a seguir, não use o padrão. Em vez disso, use um cluster estático nos seguintes casos:

  • Quando o tempo necessário para criar um novo cluster para cada pipeline for adequado para seu caso de uso.

  • Se a organização exigir que a criação de cluster seja gerenciada centralmente. Por exemplo, quando você quiser aplicar políticas específicas a todos os clusters do Dataproc.

Para mais informações, consulte Como executar um pipeline em um cluster atual do Dataproc.

Compatibilidade de versões

Problema: a versão do ambiente do Cloud Data Fusion pode não ser compatível com a versão do cluster do Dataproc.

Recomendado: faça upgrade para a versão 6.4 ou mais recente do Cloud Data Fusion e use uma das versões compatíveis do Dataproc.

As versões do Cloud Data Fusion anteriores à 6.4 são compatíveis apenas com versões incompatíveis do Dataproc. O Dataproc não fornece atualizações e suporte para clusters criados com essas versões. Embora seja possível continuar executando um cluster criado com uma versão sem suporte, é recomendável substituir o cluster por um novo cluster criado com uma versão compatível.

Versão do Cloud Data Fusion Versão do Dataproc
6.1 a 6.3* 1.3.x
6.4+ 1.3.x e 2.0.x

* As versões 6.1 a 6.3 do Cloud Data Fusion são compatíveis com a versão 1.3 do Dataproc. Você não precisa de outros componentes para torná-los compatíveis. O Cloud Data Fusion usa o HDFS e o Spark, que vêm com a versão base do Cloud Data Fusion.

Práticas recomendadas

Recomendado: ao criar um cluster estático para os pipelines, use as configurações a seguir.

Parâmetros
yarn.nodemanager.delete.debug-delay-sec Retém registros YARN.
Valor recomendado: 86400 (equivalente a um dia)
yarn.nodemanager.pmem-check-enabled Permite que o YARN verifique os limites de memória física e elimine os contêineres se eles ultrapassarem a memória física.
Valor recomendado: false
yarn.nodemanager.vmem-check-enabled permite que o YARN verifique se há limites de memória virtual e elimine os contêineres se eles forem além da memória física.
Valor recomendado: false.