Configuração do cluster

Nesta página, você verá quando usar os clusters estáticos do Dataproc no Cloud Data Fusion. Também descreve versões compatíveis e as configurações recomendadas de cluster.

Quando reutilizar clusters

A partir do Cloud Data Fusion 6.5.0, é possível reutilizar clusters do Dataproc entre execuções para melhorar o tempo de processamento. Você reutiliza os clusters para diminuir o tempo necessário para iniciar jobs quando há vários deles acontecendo um após o outro. Para mais informações, consulte Como reutilizar clusters do Dataproc.

Quando usar clusters estáticos

Recomendado: tente reutilizar clusters para melhorar o tempo de inicialização antes de tentar usar clusters estáticos.

Por padrão, o Cloud Data Fusion cria clusters efêmeros para cada pipeline: ele cria um cluster no início da execução do pipeline e o exclui após a conclusão da execução do pipeline.

Nas situações a seguir, não use o padrão. Em vez disso, use um cluster estático:

  • O tempo necessário para criar um novo cluster para cada pipeline é proibido pelo seu caso de uso.

  • Quando sua organização exige que a criação de clusters seja gerenciada de maneira centralizada. Por exemplo, quando você quer aplicar determinadas políticas a todos os clusters do Dataproc.

Para mais informações, consulte Como executar um pipeline em um cluster atual do Dataproc.

Quando usar o escalonamento automático

Recomendado: use o escalonamento automático predefinido do Cloud Data Fusion ou sua própria política de escalonamento automático para automatizar o gerenciamento de recursos do cluster para processamento em pipelines em lote.

Se você usar o perfil de computação padrão para executar um pipeline grande, ele poderá não ser executado com o desempenho ideal. Ele também é útil quando você não tem certeza sobre os requisitos de tamanho de cluster adequados para seu pipeline.

No Cloud Data Fusion versão 6.6 e superior, é possível usar o escalonamento automático predefinido do Cloud Data Fusion para automatizar o gerenciamento de recursos do cluster. O perfil de computação de escalonamento automático pronto para uso pode ser suficiente para os pipelines, mas, se você precisar de mais controle, defina sua própria política de escalonamento automático.

Em qualquer versão compatível, é possível criar sua própria política de escalonamento automático para definir o número máximo de workers. Para mais informações sobre como criar uma política de escalonamento automático, consulte Clusters com escalonamento automático.

Use o escalonamento automático predefinido no Cloud Data Fusion

É possível usar o escalonamento automático predefinido para aumentar os nós de trabalho de acordo com a carga de trabalho do pipeline nas versões 6.6 e posteriores. Isso está disponível apenas para pipelines em lote.

Opção 1: usar o perfil de escalonamento automático do Cloud Data Fusion

Nas instâncias do Cloud Data Fusion em execução na versão 6.6 e posterior, sua instância vem com um perfil chamado Autoscaling Dataproc, que é um perfil predefinido do Dataproc em que o escalonamento automático predefinido está ativado. Isso é semelhante ao perfil pré-criado na opção três, exceto pelo tipo de máquina do worker ser n2.

  1. No Console do Google Cloud, acesse a página Instâncias do Cloud Data Fusion.
  2. Clique em Visualizar instância para abrir uma instância na IU do Cloud Data Fusion.
  3. Acesse a página do pipeline implantado clicando em List > Deployed.
  4. Clique em Configurar > Compute.
  5. Selecione o perfil chamado Autoscaling Dataproc.

Opção 2: ativar uma política de escalonamento automático predefinida ao personalizar um perfil

Para ativar o escalonamento automático predefinido no perfil padrão, siga estas etapas:

  1. No Console do Google Cloud, acesse a página Instâncias do Cloud Data Fusion.
  2. Clique em Visualizar instância para abrir uma instância na IU do Cloud Data Fusion.
  3. Acesse a página do pipeline implantado clicando em List > Deployed.
  4. Clique em Configure.
  5. Clique em Personalizar no perfil de sua escolha.
  6. Expanda a seção Número de workers do cluster.
  7. Clique no botão Usar o escalonamento automático predefinido.
  8. Clique em Concluído e Salvar.

Na próxima execução do pipeline, o job do Dataproc usará a política de escalonamento automático predefinida do Cloud Data Fusion.

Quando você ativa o escalonamento automático predefinido:

  • As propriedades Number of primary workers, Number of secondary workers e Autoscaling policy não são consideradas.
  • O tipo/configuração do computador de trabalho é o mesmo do perfil escolhido.
  • Desativar a opção Usar escalonamento automático predefinido desativa o escalonamento automático predefinido e executa o comportamento original do perfil.

Argumento de tempo de execução:

O comportamento acima pode ser alcançado inserindo a seguinte Chave e Valor nos argumentos do ambiente de execução: system.profile.properties.enablePredefinedAutoScaling = true.

Opção 3: ativar uma política de escalonamento automático predefinida em um novo perfil do Compute

Você pode clicar no botão Usar o escalonamento automático predefinido ao criar um novo perfil de provisionador do Dataproc. Em seguida, use esse perfil em diferentes pipelines e tenha mais controle sobre o tipo de máquina do worker e outras propriedades.

  1. No Console do Google Cloud, acesse a página Instâncias do Cloud Data Fusion.
  2. Clique em Visualizar instância para abrir uma instância na IU do Cloud Data Fusion.
  3. Você pode criar o perfil no escopo do sistema ou do usuário:

    1. (Opcional) Para o escopo do sistema: clique em System Admin > Configuration > System Compute Profiles > Create New Profile.
    2. (Opcional) Para o escopo do usuário: clique em Menu > Administrador de namespace > Criar perfil.

    Será aberta uma página dos provisionadores.

  4. Clique em Dataproc.

  5. Expanda a seção Número de workers do cluster.

  6. Clique no botão Usar o escalonamento automático predefinido.

  7. Digite os outros detalhes e clique em Criar.

Para aplicar esse perfil ao seu pipeline, abra o pipeline na página Studio, clique em Configurar > Compute e selecione o perfil. É possível definir o perfil como padrão.

Detalhes adicionais

Na página Configuração do Compute, em que é possível ver uma lista de perfis, há uma coluna Total de núcleos, com as vCPUs máximas para onde o perfil pode ser escalonado, como Up to 84.

Compatibilidade da versão

Problema: a versão do ambiente do Cloud Data Fusion pode não ser compatível com a versão do cluster do Dataproc.

Recomendado: faça upgrade para a versão 6.4 ou mais recente do Cloud Data Fusion e use uma das versões compatíveis do Dataproc.

As versões do Cloud Data Fusion anteriores à 6.4 são compatíveis apenas com versões incompatíveis do Dataproc. O Dataproc não fornece atualizações e suporte para clusters criados com essas versões. Embora seja possível continuar executando um cluster criado com uma versão sem suporte, é recomendável substituir o cluster por um novo cluster criado com uma versão compatível.

Versão do Cloud Data Fusion Versão do Dataproc
6.1 a 6.3* 1.3.x
6.4 ou posterior 1.3.x e 2.0.x

* As versões 6.1 a 6.3 do Cloud Data Fusion são compatíveis com a versão 1.3 do Dataproc. Você não precisa de outros componentes para torná-los compatíveis. O Cloud Data Fusion usa o HDFS e o Spark, que vêm com a versão base do Cloud Data Fusion.

Práticas recomendadas

Configurações

Recomendado: ao criar um cluster estático para os pipelines, use as configurações a seguir.

Parâmetros
yarn.nodemanager.delete.debug-delay-sec Retém registros YARN.
Valor recomendado: 86400 (equivalente a um dia)
yarn.nodemanager.pmem-check-enabled Permite que o YARN verifique os limites de memória física e elimine os contêineres se eles ultrapassarem a memória física.
Valor recomendado: false
yarn.nodemanager.vmem-check-enabled permite que o YARN verifique se há limites de memória virtual e elimine contêineres se eles forem além da memória física.
Valor recomendado: false.